کتابخانه Pandas خیال کاربران پایتون را از مدیریت و تجزیه و تحلیل حجم وسیعی از دادهها راحت میکند. این کتابخانه با ارائه بینشهای دقیق میتواند مسیر دادهکاویها را به بهترین جهت هدایت کند. Pandas یک ابزار جامع برای تحلیلگران، محققان و دانشمندان داده است و با کمک آن میتوانند انواع دادههای سری زمانی، مالی و یا هر ساختار دیگری را بسنجند. در ادامه با آرایهها، متدها، نحوه نصب و آموزش مقدماتی کتابخانه Pandas آشنا خواهیم شد:
فهرست مطالب
- کتابخانه Pandas چیست؟
- ویژگی های کتابخانه Pandas چیست؟
- منظور از آرایه در کتابخانه Pandas چیست؟
- ویجت های Pandas چیست؟
- متدهای Pandas چیست؟
- آموزش مقدماتی کتابخانه Pandas در پایتون
- استفاده از سرویس ژوپیتر لب ابر فردوسی
کتابخانه Pandas چیست؟
Pandas توسط Wes McKinney در سال 2008 زمانی که او در مدیریت سرمایه AQR کار میکرد معرفی شد. او آن را برای مدیریت و تجزیه و تحلیل حجم زیادی از دادههای مالی طراحی کرده بود. اما تطبیق پذیری Pandas با سایر حوزهها منجر به گسترش کاربردهایش شد.
نام این کتابخانه برگرفته از “پانل داده”، یک اصطلاح اقتصادسنجی است. این نام نشان دهنده توانایی پاندا در مدیریت دادههای چند بعدی میباشد. کتابخانه Pandas به دلیل وجود ساختارهای دادهای قوی و انعطافپذیر و تعداد زیادی از توابع برای دستکاری دادهها مشهور است.
ویژگی های کتابخانه Pandas چیست؟
وجود ویژگیهای زیر، کتابخانه Pandas را به انتخابی ارجح برای دستکاری دادهها تبدیل کرده است. در ادامه با آنها آشنا خواهیم شد:
- امکان تراز کردن خودکار دادهها برای عملیات بصری.
- مدیریت دقیق دادههای از دست رفته با ابزارهایی برای پر کردن، حذف یا درونیابی مقادیر.
- امکان پاکسازی و پیش پردازش دادهها، مانند مدیریت موارد تکراری، فیلتر کردن و تبدیل دادهها.
- امکان تبدیل، ادغام، پیوستن، عملیات قدرتمند گروهی و تغییر شکل مجموعه دادهها.
- قابلیت پشتیبانی، مدیریت و تجزیه و تحلیل دادههای سری زمانی.
- امکان خواندن و نوشتن با فرمتهای مختلف CSV، Excel، پایگاه دادههای SQL و غیره.
- سهولت در استفاده و امکان دستکاریهای پیچیده داده با حداقل کد.
- بهینه شده با NumPy و دیگر کتابخانههای زیرین C، برای عملکرد بهتر در مواجهه با دادههای بزرگ.
- ایجاد اکوسیستم منسجم با کتابخانههای NumPy، Matplotlib، SciPy، Scikit-learn و…
منظور از آرایه در کتابخانه Pandas چیست؟
در کتابخانه Pandas، ساختارهای داده اولیه برای مدیریت دادهها Series و DataFrameها هستند. این ساختارهای داده بر روی آرایههای NumPy ساخته شدهاند و ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل کارآمد دادهها به شمار میآیند:
Series:
سری یک شیء آرایه مانند تک بعدی است که میتواند هر نوع دادهای از قبیل اعداد صحیح، رشتهها، اعداد ممیز شناور و… را در خود جای دهد. سری شبیه به یک ستون index در یک جدول اکسل است. هر عنصر در یک سری دارای یک برچسب مرتبط است.
DataFrame:
دیتافریم یک ساختار داده دو بعدی شامل سطر (index) و ستون (columns) است. در یک دیتافریم میتوان تعداد زیادی داده ذخیره کرد و انواع عملیات محاسباتی و رابطهای از قبیل انتخاب، اتصال و گروهبندی را روی آن انجام داد.
ویجت های Pandas چیست؟
کتابخانه Pandas ویجتهای اختصاصی ندارد اما میتواند با ویجتهای تعاملی موجود در کتابخانههای ipywidgets و qgrid ادغام شود. در نتیجه فرآیند کاوش و تجزیه و تحلیل دادهها به میزان قابل توجهی افزایش مییابد. این ویجتها به کاربران قدرت ایجاد محیطهای پویا و تعاملی برای دستکاری و تجسم دادهها را میدهد. این منجر به تجزیه و تحلیل روشنتر و سازندهتر دادهها میشوند.
متدهای Pandas چیست؟
کتابخانه Pandas مجموعهای غنی از متدها (Methods) را برای دستکاری و تجزیه و تحلیل دادهها ارائه میدهد. در ادامه برخی از متداولترین متدها که بر اساس عملکردشان طبقهبندی شدهاند را آوردهایم:
ایجاد و بازرسی DataFrameها
در ادامه کدهای مربوط به ایجاد و بازرسی DataFrameها آمده است:
1. متدهای ایجاد:
2. متدهای بازرسی:
انتخاب دادهها و فیلتر کردن
در ادامه کدهای مربوط به فیلتر و انتخاب دادهها آمده است:
1. متدهای انتخاب:
2. متدهای فیلترینگ:
پاکسازی دادهها
در ادامه کدهای مربوط به متدهای پاکسازی دادهها آمده است:
1. مدیریت دادههای از دست رفته:
2. حذف موارد تکراری:
تبدیل دادهها
در ادامه کدهای مربوط به متدهای تبدیل دادهها آمده است:
تجمیع و گروه بندی
در ادامه کدهای مربوط به متدهای تجمیع و گروه بندی دادهها آمده است:
سری زمانی
در ادامه کدهای مربوط به سری زمانی آمده است:
ورودی خروجی
در ادامه کدهای مربوط به متدهای Input/Output آمده است:
آموزش مقدماتی کتابخانه Pandas در پایتون
در ادامه یک راهنما برای کمک به شروع کار با Pandas آمده است.
برای نصب کتابخانه Pandas در پایتون، باید آن را از طریق pip نصب کنید:
pip install pandas
در ادامه به فراخوانی کتابخانه Pandas میپردازیم:
import pandas as pd
برای شروع عملیات، به ایجاد یک ساختار دادهای از قبیل یک Series
و یا یک دیتافریم میپردازیم:
در ادامه میتوان از کدهای بخش متدهای Pandas که بالاتر ذکر شدهاند، بهره برد.
استفاده از سرویس ژوپیتر لب ابر فردوسی
استفاده از ژوپیتر لب به عنوان نسل بعد ژوپیتر نوت بوک، در ابر فردوسی فراهم است. در ادامه به معرفی مزایای آن میپردازیم:
۱- عدم وجود محدودیت زمانی و مکانی
2- قیمت مقرون بهصرفه و پرداخت با روش PAY AS YOU GO
3- امکان انتخاب میزان منابع پردازشی از قبیل CPU، RAM، هارد
4- امکان انتخاب نوع کارتهای گرافیک قدرتمند در ابر فردوسی:
(RTX 2080i (11GB
RTX 3090 (24G)
(32GB) Tesla v100s
Tesla a100 (40GB
5- امکان انتخاب کتابخانهها و افزونه های ژوپیتر لب در ابر فردوسی:
Tensor flow
Pytorch
Pure python
جهت تست رایگان سرویس ژوپیتر لب در ابر فردوسی کلیک نمایید:
چگونه Pandas با ویجتهای ipywidgets و qgrid ادغام میشود؟
سلام مهدی عزیز
کتابخونه pandas در زبان برنامهنویسی پایتون ابزارهای قدرتمندی برای پاکسازی و پیش پردازش دادهها ارائه میکنه. این فرآیند به طور کلی شامل شناسایی و اصلاح خطاها، ناهنجاریها و ناسازگاریها در مجموعه دادههاس. مراحل اصلی پاکسازی دادهها به این صورته:
بارگذاری دادهها
بررسی اجمالی دادهها
شناسایی مقادیر گمشده
مدیریت مقادیر گمشده
حذف سطرهای تکراری
استانداردسازی فرمت دادهها
ذخیرهسازی دادههای پاکسازی شده
این مراحل به شما کمک میکنه تا دادههای خود را به شکلی قابل استفاده و معتبر برای تحلیلهای بعدی آماده کنین
مهدی عزیز سلام
کتابخانه Pandas به راحتی با ipywidgets و qgrid ادغام میشه تا تجربه کاربری بهتری در تجزیه و تحلیل دادهها فراهم کنه.
ipywidgets
تعاملپذیری: با استفاده از ipywidgets، میتونین عناصر تعاملی مانند دکمهها، اسلایدرها و ورودیهای متنی را به نوتبوکهای Jupyter اضافه کنین. و این امکان به کاربران اجازه میده تا با دادهها به صورت تعاملی کار کنن و نتایج رو به سرعت مشاهده کنن.
qgrid
جدول تعاملی: qgrid یک ابزار تعاملی برای مرتبسازی، فیلتر کردن و ویرایش دیتافریمها در نوتبوکهای Jupyter است. این ابزار به کاربران اجازه میده تا به راحتی دادهها را مشاهده و ویرایش کنن.
امکان پاکسازی و پیش پردازش دادهها در Pandas چگونه انجام میشود؟
سلام مصطفی عزیز
کتابخونه pandas در زبان برنامهنویسی پایتون ابزارهای قدرتمندی برای پاکسازی و پیش پردازش دادهها ارائه میکنه. این فرآیند به طور کلی شامل شناسایی و اصلاح خطاها، ناهنجاریها و ناسازگاریها در مجموعه دادههاس. مراحل اصلی پاکسازی دادهها به این صورته:
بارگذاری دادهها
بررسی اجمالی دادهها
شناسایی مقادیر گمشده
مدیریت مقادیر گمشده
حذف سطرهای تکراری
استانداردسازی فرمت دادهها
ذخیرهسازی دادههای پاکسازی شده
این مراحل به شما کمک میکنه تا دادههای خود را به شکلی قابل استفاده و معتبر برای تحلیلهای بعدی آماده کنین