افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

اپنے پانڈا ڈیٹا فریم سے کیسے استفسار کریں۔

= پچھلا پیغام

اگلا، دوسرا پیغام =>

ٹیگز: ڈیٹا پروپوزل کی گذارش, ڈیٹا پراسیسنگ, پانڈاس, ازگر, SQL

ایس کیو ایل جیسے ازگر کے افعال پر ڈیٹا سائنسدان کا نقطہ نظر۔

تبصروں

By میتھیو پرزیبیلا، فیور ڈیلیوری میں سینئر ڈیٹا سائنسدان

کی طرف سے تصویر بروس ہانگ on Unsplash سے [1].

کی میز کے مندرجات

تعارف
متعدد شرائط
متعدد، مخصوص کالموں پر ضم ہونا
خلاصہ
حوالہ جات

تعارف

چاہے آپ ڈیٹا انجینئر/ڈیٹا تجزیہ کار سے منتقلی کر رہے ہیں یا زیادہ موثر ڈیٹا سائنسدان بننا چاہتے ہیں، اپنے ڈیٹا فریم سے استفسار کرنا آپ کی مطلوبہ مخصوص قطاروں کو واپس کرنے کا کافی مفید طریقہ ثابت ہو سکتا ہے۔ یہ نوٹ کرنا ضروری ہے کہ پانڈا کے لیے ایک مخصوص سوال کا فنکشن ہے، جس کا نام مناسب ہے، query. تاہم، میں اس کے بجائے دوسرے طریقوں پر بات کروں گا جن سے آپ استفسار، فلٹرنگ، اور اپنے ڈیٹا کو ضم کر سکتے ہیں۔ ہم عام منظرنامے یا سوالات پیش کریں گے جو آپ اپنے ڈیٹا سے پوچھیں گے، اور SQL کے بجائے، ہم اسے Python کے ساتھ کریں گے۔ نیچے دیے گئے پیراگراف میں، میں آپ کے پانڈاس ڈیٹا فریم کے لیے پائتھون پروگرامنگ لینگویج کے ساتھ قطاروں سے استفسار کرنے کے کچھ آسان طریقے بتاؤں گا۔

متعدد شرائط

نمونہ ڈیٹا۔ مصنف سے اسکرین شاٹ [2]۔

ڈیٹا سائنسدان یا ڈیٹا تجزیہ کار کے طور پر، ہم ڈیٹا کی مخصوص قطاریں واپس کرنا چاہتے ہیں۔ ان منظرناموں میں سے ایک وہ ہے جہاں آپ متعدد شرائط کو لاگو کرنا چاہتے ہیں، سبھی کوڈ کی ایک ہی لائن میں۔ اپنی مثال ظاہر کرنے کے لیے، میں نے پہلے اور آخری نام کے ساتھ ساتھ ان کی متعلقہ جنس اور تاریخ پیدائش کے کچھ جعلی نمونے بنائے ہیں۔ یہ ڈیٹا اوپر اسکرین شاٹ میں دکھایا گیا ہے۔

مثال کے طور پر متعدد شرائط بنیادی طور پر ایک مخصوص سوال کا جواب دیں گی، بالکل اسی طرح جب آپ SQL استعمال کرتے ہیں۔ سوال یہ ہے کہ ہمارے ڈیٹا کا کتنا فیصد مردانہ جنس ہے۔ OR ایک شخص جو 2010 اور 2021 کے درمیان پیدا ہوا تھا۔

یہ کوڈ ہے جو اس سوال کو حل کرے گا (اس سوال کا جواب دینے کے چند طریقے ہیں، لیکن یہ کرنے کا میرا مخصوص طریقہ ہے۔):

print(“Percent of data who are Males OR were born between 2010 and 2021:”, 100*round(df[(df[‘Gender’] == ‘M’) | (df[‘Birthdate’] >= ‘2010–01–01’) & (df[‘Birthdate’] <= ‘2021–01–01’)][‘Gender’].count()/df.shape [0],4), “%”)

اس کوڈ کو بہتر انداز میں دیکھنے کے لیے، میں نے اوپر سے اسی کوڈ کا یہ اسکرین شاٹ آؤٹ پٹ/نتیجہ کے ساتھ بھی شامل کیا ہے۔ آپ کل قطاروں میں سے قطاروں کا حصہ یا فیصد حاصل کرنے کے بجائے اصل قطاروں کو واپس کرنے کے لیے بھی ان شرائط کا اطلاق کر سکتے ہیں۔

شرائط کوڈ۔ مصنف کی طرف سے اسکرین شاٹ [3]۔

یہاں حکموں کی ترتیب ہے جو ہم نے انجام دی:

Male کے ساتھ قطاریں لوٹائیں۔ Gender
شامل کریں OR تقریب |
کی قطاریں واپس کریں۔ Birthdate > 2010 اور 2021۔
ان سب کو یکجا کریں، اور پھر قطاروں کی کل مقدار سے تقسیم کریں۔

جیسا کہ آپ دیکھ سکتے ہیں، یہ کوڈ اس چیز سے ملتا جلتا ہے جسے آپ SQL میں دیکھیں گے۔ میں ذاتی طور پر سوچتا ہوں کہ پانڈوں میں یہ آسان ہے کیونکہ یہ کم کوڈ ہوسکتا ہے، جبکہ تمام کوڈ کو ایک آسان جگہ پر دیکھنے کے قابل بھی ہے، بغیر اوپر نیچے سکرول کیے (لیکن یہ فارمیٹ صرف میری ترجیح ہے۔).

متعدد، مخصوص کالموں پر ضم ہونا

ضم شدہ ڈیٹا فریم کا نتیجہ۔ مصنف کی طرف سے اسکرین شاٹ [4]۔

ہم نے شاید دیکھا ہے کہ دوسرے ٹیوٹوریلز میں ڈیٹا فریم کو ایک ساتھ ضم کرنے کا طریقہ، اس لیے میں ایک انوکھا طریقہ شامل کرنا چاہتا تھا جو میں نے واقعی وہاں نہیں دیکھا، جو کہ متعدد، مخصوص کالموں پر ضم ہو رہا ہے۔ اس منظر نامے میں، ہم دو ڈیٹا فریموں میں شامل ہونا چاہتے ہیں جہاں ان کے درمیان دو فیلڈز مشترک ہوں۔ آپ بتا سکتے ہیں کہ اگر اس سے بھی زیادہ کالم ہوں تو یہ طریقہ اور بھی مفید ہو سکتا ہے۔

ہمارے پاس ہمارا پہلا ڈیٹا فریم ہے، جو df ہے، پھر ہم اپنے کالموں کو دوسرے ڈیٹا فریم، df2 پر ضم کر رہے ہیں۔ ہمارے متوقع نتیجہ کو حاصل کرنے کے لیے یہ کوڈ ہے:

merged_df = df.merge(df2, how=’inner’, left_on=cols, right_on=cols )

اس انضمام اور کوڈ کو بہتر انداز میں دیکھنے کے لیے، میں نے ذیل میں اسکرین شاٹ پیش کیا ہے۔ آپ دیکھتے ہیں کہ ذیل میں دوسرا ڈیٹا فریم کیسا لگتا ہے۔ First اور Last نام، جیسے وہ پہلے ڈیٹا فریم میں ہیں، لیکن ایک نئے کالم کے ساتھ، Numeric. پھر، ہمارے پاس مخصوص کالم ہیں جنہیں ہم کالم واپس کرتے ہوئے ضم کرنا چاہتے تھے۔ Gender, Birthdateاور نئے Numeric کالم بھی. کالم کالموں کی فہرست ہے، جس کا نام دیا گیا ہے۔ cols.

ڈیٹا فریم کو ضم کرنا۔ مصنف کی طرف سے اسکرین شاٹ [5]۔

جیسا کہ آپ دیکھ سکتے ہیں، ڈیٹا فریمز کو ضم کرنے کا یہ طریقہ وہی نتائج حاصل کرنے کا ایک آسان طریقہ ہے جو آپ کو SQL استفسار سے حاصل ہوگا۔

خلاصہ

اس ٹیوٹوریل میں، ہم نے دو عام سوالات یا سوالات دیکھے جو آپ ایس کیو ایل میں انجام دیں گے، لیکن اس کے بجائے، انہیں Python میں پانڈاس ڈیٹا فریم کے ساتھ انجام دیا ہے۔

خلاصہ کرنے کے لیے، یہاں وہ دو منظرنامے ہیں جن کے ساتھ ہم نے کام کیا:

متعدد شرائط سے کل ڈیٹاسیٹ میں سے قطاروں کا فیصد واپس کرنا
ایک نئے کالم کے ساتھ حتمی ڈیٹا فریم واپس کرنے کے لیے متعدد، مخصوص کالموں کو ضم کرنا

مجھے امید ہے کہ آپ کو میرا مضمون دلچسپ اور مفید لگا۔ اگر آپ ان طریقوں سے متفق یا متفق ہیں تو براہ کرم نیچے تبصرہ کرنے میں آزاد محسوس کریں۔ کیوں یا کیوں نہیں؟ ان کو یقینی طور پر اور بھی واضح کیا جاسکتا ہے، لیکن مجھے امید ہے کہ میں کچھ ایسے طریقوں پر روشنی ڈالنے میں کامیاب ہوگیا ہوں جن سے آپ ایس کیو ایل کے بجائے پانڈوں اور ازگر کو استعمال کرسکتے ہیں۔ پڑھنے کے لیے آپ کا شکریہ!

براہ کرم بلا جھجھک میرا پروفائل چیک کریں، میٹ پرزیبیلا، اور دیگر مضامین کے ساتھ ساتھ LinkedIn پر مجھ سے رابطہ کریں۔

میں ان کمپنیوں سے وابستہ نہیں ہوں۔

حوالہ جات

[1] تصویر بذریعہ بروس ہانگ on Unsplash سے(2018)

[2] M. Przybyla، نمونہ ڈیٹا اسکرین شاٹ، (2021)

[3] M. Przybyla، حالات کوڈ اسکرین شاٹ، (2021)

[4] M. Przybyla، ضم شدہ ڈیٹا فریم نتیجہ اسکرین شاٹ، (2021)

[5] M. Przybyla، ڈیٹا فریم اسکرین شاٹ کو ضم کرنا، (2021)

بیو: میتھیو پرزیبیلا فیور ڈیلیوری میں سینئر ڈیٹا سائنٹسٹ اور فری لانس تکنیکی مصنف ہیں، خاص طور پر ڈیٹا سائنس میں۔

حقیقی. اجازت کے ساتھ دوبارہ پوسٹ کیا۔

متعلقہ:

= پچھلا پیغام

اگلا، دوسرا پیغام =>

گزشتہ 30 دنوں کی اہم خبریں۔

سب سے زیادہ مقبول
6 میں ٹاپ 2021 ڈیٹا سائنس آن لائن کورسز ڈیٹا سائنسدان اور ایم ایل انجینئر لگژری ملازم ہیں۔ گوگل کے ڈائریکٹر ریسرچ سے ڈیٹا سائنس سیکھنے کے لیے مشورہ GitHub Copilot اوپن سورس متبادل گہری سیکھنے کی ہندسی بنیادیں۔