برای دستیابی به پردازشهای سریع و افزایش سرعت پایتون، نمیتوان صرفاً به مفسر استاندارد و کدهای اولیه اکتفا کرد. پایتون به دلیل ماهیت مفسری و محدودیتهای قفل مفسر سراسری (GIL)، در پردازشهای سنگین محاسباتی ذاتاً کندتر از زبانهای کامپایلشونده مانند C عمل میکند. اما این بهمعنای بنبست نیست.
سریعتر کردن کد پایتون معمولاً از سه مسیر اصلی میگذرد:
- بهینهسازی الگوریتمها و ساختار داده
- جایگزینی عملیات سنگین با کتابخانههای مبتنی بر C (مانند NumPy)
- استفاده از پردازش موازی یا زیرساختهای ابری قدرتمند
در این مقاله، روشهای افزایش سرعت اجرای اسکریپت پایتون را بهصورت عملی و تستشده بررسی میکنیم. با اجرای قدمبهقدم این تکنیکها، میتوانید optimization پایتون را روی پروژههای خود پیاده کنید و سرعت اجرای برنامهها را تا ۱۰ برابر افزایش دهید.
فهرست مطالب
شناسایی گلوگاههای کد (Profiling)

پیشاز هر اقدامی برای کاهش زمان اجرای برنامه پایتون، باید بدانید دقیقاً کدام بخش از کد باعث کندی شده است. بهینهسازی کورکورانه صرفاً اتلاف وقت است. بهجای حدس زدن، باید از تکنیک پروفایلینگ (Profiling) استفاده کنید تا زمان اجرای هر تابع و تعداد دفعات فراخوانی آن مشخص شود. این کار، اولین قدم منطقیِ بهینه سازی کد پایتون برای پردازش سریع است.
برای پروفایلینگ اصولی، دو ابزار کاربردی در اکوسیستم پایتون (python) وجود دارد:
۱- استفاده از cProfile
طبق مستندات رسمی پایتون، ماژول cProfile یک ابزار پروفایلینگ استاندارد و مبتنی بر زبان C است که هنگام ارزیابی کد، سربار (Overhead) بسیار کمی ایجاد میکند.
- کاربرد اصلی: پیداکردن توابعی که بیشترین زمان پردازش کل برنامه را به خود اختصاص دادهاند.
- نحوه اجرا: این ابزار نیاز به نصب ندارد و بهراحتی با دستور python -m cProfile script.py در ترمینال، گزارش کاملی از زمان اجرای توابع ارائه میدهد.
۲- بررسی خطبهخط با line_profiler
زمانی که با cProfile تابع کُند (گلوگاه) را پیدا کردید، قدم بعدی این است که بدانید دقیقاً کدام خطوط از آن تابع مشکلساز هستند. ابزار line_profiler زمان اجرای تکتک خطوط کد را محاسبه میکند.
- نقطه قوت: شناسایی دقیق حلقههای کند و عملیاتهای زمانبر درون یک تابع خاص.
- روش کار: با اضافه کردن دکوراتور @profile قبلاز توابع هدف، میتوانید گزارش دقیقی از زمان صرفشده برای هر خط دریافت کنید. شناسایی این خطوط، کلید اصلی برای افزایش سرعت حلقهها در پایتون است.
بهینه سازی الگوریتم و ساختار داده

گاهی اوقات مقصر اصلی کندی برنامه، مفسر پایتون نیست؛ بلکه الگوریتمی است که برای حل مسئله انتخاب کردهاید. الگوریتمی که پیچیدگی زمانی بالایی دارد، حتی روی قویترین سرورها هم کُند اجرا میشود. برای کاهش زمان اجرای برنامه Python، اصلاح ساختار دادهها ارزانترین و مؤثرترین قدم است.
انتخاب ساختار داده مناسب (لیست در برابر Set و Dictionary)
یکیاز رایجترین اشتباهات در برنامهنویسی پایتون، استفاده از لیستها (List) برای جستجوی عناصر است. بهگفته پایتون ویکی، عملیات بررسی وجود یک آیتم (عملگر in) در لیست نیازمند پیمایش خطی و دارای پیچیدگی زمانی O(n) است. درمقابل، ساختارهای Set و Dictionary با استفاده از جداول هش، این عملیات را در زمان ثابت O(1) انجام میدهند.
در جدول زیر تفاوت سرعت جستجو را در حالت لیست نسبتبه ست و دیکشنری ملاحظه میفرمایید.
| ساختار داده | پیچیدگی زمانی (جستجو) | سناریوی مناسب استفاده |
|---|---|---|
| List | O(n) | حفظ ترتیب عناصر و تکرار دادهها |
| Set | O(l) | جستجوی سریع و حذف دادههای تکراری |
| Dictionary | O(l) | نگهداری دادهها بهصورت کلید-مقدار |
استفاده از توابع داخلی پایتون (Built-in Functions)
بهجای نوشتن حلقههای طولانی برای کارهای ساده، از توابع داخلی پایتون استفاده کنید. توابعی مانند sum()، max()، map() و filter() در زبان C پیادهسازی و کامپایل شدهاند. استفاده از این توابع ازنظر بهینه سازی کد Python، سرعت اجرا را بهطرز چشمگیری افزایش میدهد، زیرا از سربار (Overhead) مفسر پایتون جلوگیری میکند.
کش کردن نتایج (Caching)
اگر تابعی دارید که با ورودیهای یکسان، خروجیهای تکراری تولید میکند، نیازی به محاسبه مجدد نیست. با استفاده از دکوراتور @lru_cache از ماژول functools، میتوانید نتایج قبلی را در حافظه (Cache) ذخیره کنید. این کار در الگوریتمهای بازگشتی یا پردازشهای سنگین ریاضی، زمان اجرا را کسری از ثانیه میکند.
استفاده از NumPy بهجای حلقهها
برای پردازشهای ریاضی و کار با دادههای عظیم، حلقههای استاندارد پایتون (for و while) بهشدت کُند و ناکارآمد هستند. در اینجا برای افزایش سرعت پایتون، باید منطق کدنویسی را تغییر دهیم و سراغ کتابخانههای مبتنی بر C برویم. مقاله Nature درخصوص آرایههای NumPy (لینک در قسمت منابع) بهخوبی نشان میدهد که چگونه این ابزار ساختار محاسبات علمی را متحول کرده است.
مفهوم برداریسازی (Vectorization)
مهمترین قدرت NumPy در تکنیکی به نام برداریسازی است. در روش سنتی، برای جمع کردن دو لیست، باید با یک حلقه تکتک عناصر را پیمایش کنید. اما در Vectorization، عملیات ریاضی بهصورت همزمان روی کل آرایه (Array) اعمال میشود. این کار با انتقال بار محاسباتی از مفسر کند پایتون به سطح زبان C (که بسیار به سختافزار نزدیک است) انجام میشود.
مقایسه سرعت حلقه For با دستورات NumPy
تفاوت زمان اجرای برنامه پایتون در این دو روش خیرهکننده است. وقتی از آرایههای NumPy استفاده میکنید، بهدلایل زیر سرعت شما تا دهها برابر افزایش مییابد:
- ۱- مدیریت حافظه: عناصر لیستهای پایتون در نقاط مختلف حافظه پراکندهاند، اما آرایههای NumPy در بلوکهای پیوسته حافظه (Contiguous) ذخیره میشوند که دسترسی پردازنده به آنها را بهشدت سریع میکند.
- ۲- حذف تایپچکینگ (Type Checking): در حلقههای عادی، پایتون باید در هر تکرار، نوع داده (Data Type) متغیرها را چک کند. NumPy بهدلیل داشتن نوع داده یکپارچه، این سربار زمانی را به صفر میرساند.
- ۳- افزایش سرعت حلقهها: در واقع شما حلقه را حذف نمیکنید، بلکه اجرای آن را به C میسپارید تا افزایش سرعت حلقهها در پایتون به واقعیتی ملموس تبدیل شود.
استفاده از کامپایلرهای JIT

حالا میخواهیم ببینیم که چگونه کد پایتون را سریعتر کنیم بدون اینکه نیاز باشد کل ساختار برنامه را به زبان C بازنویسی کنیم. برای این کار از کامپایلرهای درجا یا JIT (Just-In-Time) بهره میبریم. پایتون درحالت عادی یک زبان مفسری است و کدها را خطبهخط اجرا میکند که همین امر دلیل اصلی کندی آن در پردازشهای سنگین است. کامپایلرهای JIT بخشهای پرمصرف کد را در زمان اجرا (Runtime) مستقیماً به کدهای ماشین تبدیل میکنند.
افزایش سرعت با Numba
این کتابخانه یک کامپایلر JIT است که بهطور ویژه برای کدهای مبتنی بر ریاضیات و آرایههای NumPy طراحی شده است. استفاده از Numba بسیار ساده است؛ کافیست دکوراتور @jit را بالای توابع عددی خود قرار دهید. این ابزار، حلقه و محاسبات ریاضی درون تابع را شناسایی میکند و آنها را با سرعتی نزدیک به کدهای نوشته شده با C یا Fortran اجرا میکند. این روش برای افزایش سرعت اجرای کدهای سنگین ریاضیاتی یک معجزه بیدردسر است.
اجرای سریعتر با PyPy
همانطورکه Numba روی توابع خاص تمرکز دارد، PyPy یک جایگزین کامل برای مفسر استاندارد پایتون (CPython) است. استفاده از PyPy به شما اجازه میدهد که همه اسکریپت پایتون خود را بدون تغییر حتی یک خط کد، بسیار سریعتر اجرا کنید. PyPy با ردیابی کدهایی که زیاد اجرا میشوند و کامپایل لحظهای آنها، سرعت کلی برنامههای پایتونی را بهطور میانگین ۴ تا ۵ برابر (و گاهی تا ۱۰ برابر) افزایش میدهد.
پردازش موازی در پایتون
پردازندههای امروزی دارای چندین هسته (Core) هستند، اما پایتون بهصورت پیشفرض فقط از یک هسته استفاده میکند. برای افزایش سرعت پایتون در پروژههای بزرگ، باید به سیستم یاد بدهید که چگونه کارها را بین هستههای مختلف تقسیم کند.
تفاوت threading و multiprocessing
یکی از مفاهیم کلیدی در بهینهسازی، درک تفاوت میان نخها (Threads) و پردازهها (Processes) است.
- استفاده از threading: برای عملیات I/O-bound (مانند دانلود فایل از اینترنت یا خواندن و نوشتن روی دیسک) مناسب است. در اینجا پردازنده درگیر نیست، بلکه منتظر پاسخ شبکه یا دیسک میماند.
- استفاده از multiprocessing: برای عملیات CPU-bound (مانند پردازش تصویر، آموزش مدلهای هوش مصنوعی یا محاسبات سنگین ریاضی) کاربرد دارد و کارها را واقعاً بهصورت همزمان روی هستههای مختلف سختافزار پخش میکند.
دورزدن محدودیت GIL برای کارهای CPU-bound
زبان پایتون دارای مکانیزمی به نام GIL (Global Interpreter Lock) است که اجازه نمیدهد در هر لحظه بیشاز یک نخ، کدهای پایتون را اجرا کند. این یعنی threading برای کارهای محاسباتی کمکی به افزایش سرعت نمیکند.
راهکار اصولی که در مستندات ماژول multiprocessing پایتون نیز روی آن تاکید شده، ایجاد پردازههای کاملاً مستقل است. با این ماژول، محدودیت GIL دور زده میشود؛ زیرا هر پردازه (Process) مفسر پایتون و GIL اختصاصی خودش را دارد. این رویکرد، فشار پردازشی را روی تمام هستههای سرور یا سیستم شما پخش میکند و باعث سریعتر کردن پردازش داده در Python میشود.
استفاده از Cython برای تبدیل کد به C

گاهی اوقات، حتی با بهینه سازی الگوریتم در پایتون و استفاده از NumPy به جای loop، باز هم در پردازشهای بسیار پیچیده به سقف سرعت میرسیم. در این شرایط، استفاده از Cython راهگشا است. سایتون (Cython) یک زبان برنامه نویسی است که به شما اجازه میدهد کدهای پایتون را بنویسید، اما آنها را مستقیماً به زبان C کامپایل کنید. این کار باعث افزایش performance در Python تا سطحی برابر با زبانهای سطح پایین میشود.
اعلان نوعهای ایستا (Static Typing)
براساس مستندات پایه Cython، دلیل اصلی کندی پایتون، بررسی پویای نوع متغیرها (Dynamic Typing) در زمان اجرا است. در سایتون با استفاده از اعلان نوع ایستا (تعریف صریح متغیرها بهعنوان int، float و…)، سربار این بررسیها حذف میشود. با اضافهکردن چند خط کد ساده برای مشخص کردن نوع دادهها، کدهای شما پیشاز اجرا به C تبدیل و با سرعتی خیرهکننده اجرا میشوند.
افزایش سرعت پایتون با ارتقای سختافزار
بهینهسازی نرمافزاری تا جایی پاسخگو است که سختافزار شما توان اجرای آن را داشته باشد. اگر روی پروژههای بزرگ کار میکنید، اجرای سریع پایتون روی سیستم ضعیف یا یک لپتاپ شخصی، صرفاً با اصلاح کد امکانپذیر نیست. برای مثال، در بهینه سازی کدهای AI در پایتون یا پردازش کلاندادهها، بهجای درگیری مداوم با محدودیتهای رم و پردازنده، باید کدها را روی چندین سرور توزیع کنید.
به گفتهی Dask با استفاده از این کتابخانه روی یک کلاستر قدرتمند، میتوانید زمان اجرای شبیهسازیهای چند ساعته را به چند دقیقه کاهش دهید. در واقع زمانی که نیازمند اجرای سریع اسکریپتهای سنگین هستید، انتقال پردازش به یک زیرساخت مقیاسپذیر الزامی است.
برای درک بهتر نحوه کارکرد این زیرساختها، مطالعه مقاله محاسبات سنگین ابری چیست؟ را پیشنهاد میکنیم.
درصورتیکه اجرای سریع اسکریپتهای شما فراتر از توان سیستم فعلیتان است، میتوانید پردازشهای خود را به سرور محاسبات سنگین (hpc) ابر فردوسی منتقل کنید. در این روش، بدون نیاز به تغییرات بنیادی در کدهای پایتون، از حداکثر ظرفیت دهها هسته CPU و GPU قدرتمند بهرهمند میشوید و زمان پردازش را به حداقل ممکن میرسانید.
- ۱۰۰ هزار تومان اعتبار رایگان برای تست دمو و بررسی کیفیت
- پردازندههای قدرتمند AMD EPYC و Intel Xeon به همراه هارد NVMe
- رمهای DDR4 و هارد NVME بهینه برای پردازش
- پرداخت ساعتی (فقط بهازای زمان روشن بودن سرور هزینه دهید)
- تحویل آنی و مقیاسپذیری لحظهای بدون اشتراک منابع با دیگران
- اینترنت نامحدود، پرسرعت برای دانلود پکیجها و دیتاستها
جمعبندی
افزایش سرعت پایتون آنهم تا ۱۰ برابر! دروغ سیزده نیست؛ بلکه میتوان با ترکیبی از بهینهسازی اصولی کد و استفاده هوشمندانه از منابع سختافزاری به آن دست یافت. همانطور که بررسی کردیم، مسیر افزایش performance در Python با پیدا کردن دقیق گلوگاهها (Profiling) شروع میشود.
در قدم بعدی، جایگزینی ساختارهای داده با پیچیدگی O(n) به O(l) استفاده از قابلیتهای برداریسازی کتابخانههایی مثل NumPy و کامپایلرهای JIT نظیر Numba و PyPy، کدهای شما را متحول میکنند. درنهایت، برای پروژههای عظیم هوش مصنوعی یا کلانداده، ارتقای سختافزار و مهاجرت به سرور hpc، تیر خلاص برای پایان دادن به کُندی اجرای اسکریپتها است.
آیا تا به حال مجبور شدهاید برای افزایش سرعت یک پروژه پایتونی روزها درگیر تغییر کد شوید؟ کدام یک از روشهای بالا برای شما بهتر جواب داده است؟ تجربیات و سؤالات خود را در بخش نظرات با ما به اشتراک بگذارید تا باهم بررسی کنیم.
منابع:
Docs.python | wiki.python | docs.dask | numba | cython | آرایههای NumPy
سؤالات متداول
چگونه کد پایتون را برای اجرای سریعتر بهینه کنم؟
روند اصولی افزایش سرعت پایتون: ۱. پروفایل کردن ۲. استفاده از توابع داخلی (Built-in) ۳. انتخاب ساختار داده مناسب (مثل دیکشنری) ۴. استفاده از NumPy برای محاسبات ماتریسی ۵. پردازش موازی یا استفاده از ابزارهایی مثل Numba.
چگونه یک اسکریپت پایتون را پروفایل کنم؟
بهترین روش داخلی، استفاده از ماژول cProfile است. کافیست در ترمینال دستور python -m cProfile script.py را اجرا کنید تا زمان اجرای هر تابع را بهدقت مشاهده کنید.
چه ابزارهایی برای پیدا کردن گلوگاههای سرعتی در پایتون وجود دارد؟
علاوه بر cProfile (برای بررسی کلی)، میتوانید از line_profiler برای بررسی زمان اجرای خطبهخط کد و از memory_profiler برای یافتن نشتیها و مصرف بالای حافظه استفاده کنید.
چرا کد پایتون من کند است و از کجا باید شروع به بهینهسازی کنم؟
پایتون یک زبان مفسری با نوعدادههای پویا است و بهدلیل وجود قفل مفسر سراسری (GIL)، در پردازشهای همزمان محدودیت دارد. برای شروع بهینهسازی، هرگز حدس نزنید! ابتدا با Profiling گلوگاه اصلی را پیدا کنید و فقط همان بخش را بهینه کنید.
چه ترفندهایی برای سریعتر کردن پایتون در برنامهنویسی رقابتی وجود دارد؟
استفاده از sys.stdin.read برای دریافت سریعتر ورودیها، استفاده از List Comprehension به جای حلقههای for کلاسیک و استفاده از Set/Dict برای جستجو با پیچیدگی O(1) از مهمترین ترفندها هستند.
آیا ممکن است مجبور شویم که پروژهای را بهدلیل سرعت کم پایتون به زبان دیگری بازنویسی کنیم؟
در گذشته این کار رایج بود، اما امروزه باوجود ابزارهایی مثل Cython (برای تبدیل کد به C) و همچنین کتابخانههایی که هسته C/C++ دارند (مثل PyTorch و NumPy)، در ۹۵٪ مواقع نیازی به بازنویسی کامل پروژه نیست و میتوان فقط توابع سنگین را بهینهسازی کرد.
چرا جستجو در دیکشنری همیشه از لیست سریعتر است؟
دیکشنریها در پایتون با استفاده از جداول هش پیادهسازی شدهاند. به همین دلیل زمان جستجو در آنها معمولاً O(1) (ثابت) است، اما جستجو در لیست نیازمند پیمایش خطی با زمان O(n) است.
چگونه میتوانم حلقههای تو در تو را در پایتون سریعتر کنم؟
بهترین کار حذف آنها و استفاده از عملیات برداری NumPy است. اگر مقدور نیست، استفاده از ماژول itertools پایتون، ترکیب حلقهها با List Comprehension و خارجکردن متغیرهای ثابت از داخل حلقه داخلی کمککننده است.
چرا کد NumPy من کند است و چگونه آن را سریعتر کنم؟
رایجترین اشتباه، نوشتن حلقه for روی آرایههای NumPy است! قدرت نامپای در برداریسازی است؛ یعنی باید عملیات ریاضی را بهصورت مستقیم روی کل آرایه اعمال کنید نه اینکه عنصربهعنصر روی آن پیمایش کنید.
تفاوت عملکرد بین Pandas و NumPy برای مجموعه دادههای بزرگ چیست؟
Pandas دارای سربار بیشتری برای مدیریت ایندکسها و نوعدادههای ترکیبی است. برای محاسبات صرفاً عددی و ماتریسی، NumPy بهشکل قابلتوجهی سریعتر است و مصرف حافظه کمتری دارد.
آیا حالت “free-threading” (بدون GIL) جدید پایتون واقعاً سرعت کد من را افزایش میدهد؟
در نسخههای جدید پایتون (از ۳.۱۳ به بعد) حالت آزمایشی حذف GIL اضافه شده است. این ویژگی میتواند در آینده سرعت اجرای کدهای چندنخی که درگیر محاسبات CPU هستند را بهشدت افزایش دهد، اما هنوز در مرحله بلوغ است و نیاز به پشتیبانی کتابخانههای شخص ثالث دارد.
بهترین روش برای خواندن یک فایل متنی بزرگ (چند گیگابایتی) بدون مصرف زیاد حافظه چیست؟
هرگز از file.read() یا file.readlines() برای فایلهای بزرگ استفاده نکنید، زیرا کل فایل در رَم بارگذاری میشود. در عوض از یک Generator ساده یعنی ساختار for line in file استفاده کنید تا فایل خطبهخط خوانده و پردازش شود.
مزایا و معایب Cython در مقابل Numba برای افزایش سرعت چیست؟
Numba استفاده بسیار سادهای دارد (فقط با افزودن دکوراتور) و برای محاسبات عددی مبتنی بر NumPy بیرقیب است. اما Cython کاربرد عمومیتری دارد. به شما اجازه تعامل مستقیم با کدهای C/C++ را میدهد و برای نوشتن ماژولهای توسعهیافته و پکیجسازی بسیار مناسبتر است، هرچند که یادگیری سینتکس آن کمی زمانبر است.

