قسمت اول: مروری بر ماژول تحلیل داده و ساختار ساز Pandas

قسمت اول: مروری بر ماژول تحلیل داده و ساختار ساز Pandas

ابتدا لازم است تا این ماژول را از سایت http://pandas.pydata.org/ دریافت کرده و نصب کنید. و از طریق خط فرمان cmd با استفاده از دستور pip install pandas به راحتی نصب کنید.

قبل از شروع لازم است تا ماژول های لازم را فراخوانی کنید به این صورت :

 

سه ساختار در pandas پشتیبانی می شود:

  • ساختار Series: همان آرایه های یک بعدی است که دارای برچسب (یا شماره گذاری) است.
  • ساختار DataFrame: این ساختار بسیار پرکاربردی است که برای تعریف ساختار های دوبعدی دارای برچسب روی محور مناسب است.
  • ساختار Panel: برای داده های سه بعدی مورد استفاده قرار میگیرد.

 

تعریف ساختار Series

 

 

تعریف ساختارDataFrame

 

 

در این دستور index برچسب گذاری ( یا شماره گذاری) سطر ها را انجام می دهد که اینجا براساس سری زمانی (همان تاریخ ها) که تعریف کردیم صورت گرفته است. با استفاده از مشخصه columns ستون ها را نام گذاری می کنیم. طریقه دیگر نام گذاری به این صورت است :

 

 

همانطور که تا اینجا متوجه شدید، اصلی ترین کار ماژول pandas دادن ساختار به داده هاست به صورتی مانند برنامه excel، که در این صورت کار با داده ها بسیار راحت تر و خوانا تر خواهد بود.

 

نمایش قسمت ابتدایی یا انتهایی داده ها

این دستورات زمانی مناسب است که داده بسیار طولانی است و فقط جهت اطمینان می خواهیم قسمت ابتدایی یا انتهایی داده ها را ببینیم:

 

نمایش اندیس (index)، نام ستون ها و داده ها به تنهایی

 

 

نمایش سریع یک خلاصه آماری از داده ها

 

 

ترنهاده (ترانسپوز) داده ها

 

مرتب سازی براساس یکی از محور ها

 

مرتب سازی براساس مقادیر ستون ها

 

 

انتخاب یک ستون خاص

 

انتخاب ردیف مورنظر

 

دسترسی به مقادیر مختلف با استفاده از نام سطر یا ستون خاص

 

 

دسترسی به مقادیر مختلف با استفاده از شماره سطر یا ستون خاص

 

کپی از یک دیتافریم

 

بدست آوردن فراوانی داده ها

 

جدا کردن و اتصال دیتافریم ها

 

 

اضافه کردن یک سطر به ادامه دیتافریم

 

گروه بندی دیتا فریم به روش های مختلف

 

مباحث کاربردی :

 

خواندن محتوای داخل یک فایل اکسل سرور موجود در یک آدرس اینترنتی :

این دیتافریم شامل مشخصات انواع ماشین هاست

 

تبدیل دسته های مختلف به عدد (مناسب برای وقتی که میخواهیم مدل ها آماری را روی داده پیاده سازی کنیم):

 

با دستور بالا مدل های مختلف ماشین به عدد تبدیل می شوند و یک ستون به دیتافریم اضافه می شود.

 

 

برای خواندن یک فایل csv از این دستور استفاده می کنیم :

 

این دیتافریم حاوی اطلاعات مربوط به رزومه افراد است.

برای ارزیابی این اطلاعات لازم است تا آن ها به صورت عدد در بیایند. برای مثال ستون مربوط به Hired با Y و N علامت گذاری شده، بنابراین برای تبدیل آن به اعداد 1 یا 0 به این صورت عمل میکنیم:

حال با مشاهده دیتافریم، مقدار ستون Hired به مقادیر 1 و 0 تغییر یافته است، که می توان از آن برای ارزیابی کمی رزومه استفاده کرد.

 

برای نامگذاری ستون ها هنگام خواندن اطلاعات به این صورت عمل میکنیم:

 

دیتافریم بالا شامل شماره فیلم و نام فیلم مربوطه است.

حال برای ترکیب دو دیتافریم به صورتی که به جای شماره فیلم در دیتافریم اول، نام فیلم مربوطه جلوی آن قرار بگیرد، به این صورت عمل می کنیم:

 

برای اینکه رای هر کاربر به تمامی فیلم ها در یک سطر نمایش داده شود و هرسطر مربوط به یک کاربر باشد، از دستور زیر استفاده می کنیم:

دیتافریم خروجی به این صورت می شود:

img_596db12c55622

 

در صورت استفاده از مطالب این سایت لطفا به سایت ارجاع دهید

دیدگاه شما

( الزامي )

(الزامي)