میں نے ڈیٹا سائنس کے لیے ChatGPT کے استعمال سے کیا سیکھا - KDnuggets

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

میں نے ڈیٹا سائنس کے لیے ChatGPT کے استعمال سے کیا سیکھا۔
مصنف کی طرف سے تصویر

ایک ہی سبق ہے جو میں نے ChatGPT کے استعمال سے سیکھا ہے۔ یہ ڈیٹا سائنس میں حیرت انگیز طور پر مددگار ہے، لیکن آپ کو ہر اس چیز کی جانچ پڑتال کرنی چاہیے جو اس سے نکلتی ہے۔ یہ کچھ کاموں کے لیے بہت اچھا ہے اور انہیں بہت جلد اور درست طریقے سے کر سکتا ہے۔ کچھ دوسرے کاموں کے لیے، یہ کافی اچھا ہے، اور آپ کو کئی بار اس کا اشارہ کرنا پڑے گا۔ اور ایک کام ہے جس میں میں نے پایا کہ ChatGPT بالکل برا ہے۔

آپ اپنے ڈیٹاسیٹ کو ChatGPT پیغام کے ساتھ منسلک کر سکتے ہیں، اور کئی آسان ہدایات دے کر، ChatGPT آپ کے لیے ڈیٹا کو دریافت کر سکتا ہے۔

مثال کے طور پر، میں اس سے ڈیٹاسیٹ لے سکتا ہوں۔ اس ڈیٹا پروجیکٹ. میں نے جو ہدایات دی ہیں وہ یہ ہیں:

"ایک وضاحتی شماریاتی تجزیہ کرنے کے لیے منسلک ڈیٹا کا استعمال کریں۔ درج ذیل شامل کریں:

بنیادی اعدادوشمار کا خلاصہ کریں (مطلب، اوسط، معیاری انحراف، وغیرہ)۔
گمشدہ اقدار کی نشاندہی کریں اور ان سے نمٹنے کے لیے حکمت عملی تجویز کریں۔

یہ خلاصہ لوٹاتا ہے جو اس طرح لگتا ہے۔ یہ ہر متغیر کے لیے ایک ہی حساب کرتا ہے۔

عمر:

مطلب: 28.79 سال
معیاری انحراف: 6.94 سال
رینج: 18 سے 50 سال

اس نے ڈیٹاسیٹ میں کسی گمشدہ اقدار کی بھی نشاندہی نہیں کی۔

اگر آپ کو ان حسابات کے لیے Python کوڈ کی بھی ضرورت ہے، تو آپ اسے لکھنے کے لیے کہہ سکتے ہیں۔

ڈیٹاسیٹ لوڈ کرنے کے لیے، یہ کوڈ استعمال کریں۔

aerofit_data = pd.read_csv(file_path)

بنیادی اعدادوشمار کے لیے، یہ ایک دیتا ہے۔

basic_stats = aerofit_data.describe()

اور آپ اس کوڈ کے ساتھ گم شدہ اقدار کو چیک کر سکتے ہیں۔

missing_values = aerofit_data.isnull().sum()

مزید، میں ChatGPT سے کلیدی متغیرات کی تقسیم کا تصور کرنے اور ممکنہ آؤٹ لیرز اور بے ضابطگیوں کا پتہ لگانے کے لیے کہہ سکتا ہوں۔

یہ کلیدی متغیرات کے لیے ہسٹوگرام اور باکس پلاٹ بناتا ہے: عمر، آمدنی اور میل۔ اس نے آمدنی اور میل کی تقسیم میں ممکنہ آؤٹ لیرز کا پتہ لگایا۔

میں نے ڈیٹا سائنس کے لیے ChatGPT کے استعمال سے کیا سیکھا۔
مصنف/ChatGPT کے ذریعہ تخلیق کردہ

مصنف/ChatGPT کے ذریعہ تخلیق کردہ

یہ تصورات کی تشریح بھی کرتا ہے۔ لہٰذا، اس نے دیکھا کہ آمدنی کی تقسیم درست ترچھی ہے، جس سے ظاہر ہوتا ہے کہ زیادہ تر صارفین کی آمدنی سپیکٹرم کے نچلے سرے پر ہے، اور بہت کم صارفین نمایاں طور پر زیادہ آمدنی حاصل کرتے ہیں۔ باکس پلاٹ بتاتا ہے کہ اونچے سرے پر کچھ آؤٹ لیرز ہیں۔

یہی تشریح میلوں کی تقسیم پر بھی لاگو ہوتی ہے: دائیں طرف سے ترچھا اور اونچے سرے پر آؤٹ لیرز۔

اعداد و شمار کی نوعیت پر غور کرتے ہوئے، یہ تجویز کرتا ہے کہ یہ آؤٹ لیرز ضروری طور پر غلطیاں نہیں ہیں بلکہ ایک مخصوص صارف طبقہ کی نمائندگی کرتے ہیں۔ ترچھی تقسیم کے بارے میں، یہ ڈیٹا کو معمول پر لانے کے لیے تبدیلیوں (مثلاً لاگ ٹرانسفارمیشن) کا مشورہ دیتا ہے۔

یقینا، آپ اس سے ان تصورات کے لیے ازگر کوڈ لکھنے کے لیے بھی کہہ سکتے ہیں۔

میں وہی ڈیٹا استعمال کر سکتا ہوں اور ChatGPT سے پوچھ سکتا ہوں کہ کیا یہ اس کے لیے موزوں ہے۔ لاجسٹک رجعت. اور اگر نہیں، تو مجھے اسے تبدیل کرنے کے لیے کیا کرنا چاہیے تاکہ یہ مناسب ہو؟

اس نے جواب دیا کہ میرا ڈیٹا بنیادی طور پر مسلسل ڈیٹا کے وضاحتی اور تخمینی تجزیہ کے لیے موزوں ہے۔

لاجسٹک ریگریشن کے لیے ڈیٹا کو تبدیل کرنے کے یہ تجویز کردہ طریقے ہیں۔

ایک بائنری نتیجہ بنائیں: صارفین کو "زیادہ استعمال" یا "استعمال متغیر پر درمیانی تقسیم کی بنیاد پر کم استعمال" کے طور پر درجہ بندی کرکے ایک بائنری نتیجہ بنائیں۔ نیز، بائنری نتیجہ "ٹریڈمل پرچیز" بمقابلہ "کوئی ٹریڈمل خریداری نہیں" ہو سکتا ہے۔

متعدد خطوط کی جانچ کریں: استعمال کریں ارتباط میٹرکس or متغیر افراط زر کا عنصر (VIF) کثیر خطوط کی جانچ کرنے کے لیے۔ اگر کثیر الجہتی ہے، تو متعلقہ متغیرات کو ہٹایا یا ملایا جا سکتا ہے۔

فیچر اسکیلنگ: اگرچہ لاجسٹک ریگریشن کے لیے ماڈل فٹنگ کے لیے فیچر اسکیلنگ ضروری نہیں ہے، لیکن یہ اس کے لیے فائدہ مند ہو سکتا ہے۔ ابسرن. یہ معاملہ خاص طور پر نمایاں طور پر مختلف پیمانوں والی خصوصیات کے لیے ہے۔

غیر خطاطی سے نمٹنا: تبدیلیاں، جیسے لاگ ان کریں or مربع جڑ, ان متغیرات کے لیے استعمال کیا جا سکتا ہے جو خطوطی مفروضے کو پورا نہیں کرتے۔

نمونہ سائز: پیشن گوئی کرنے والے متغیرات کی تعداد کے پیش نظر ڈیٹاسیٹ کافی بڑا ہونا چاہیے۔

ڈیٹا پری پروسیسنگ: آؤٹ لیرز اور واضح متغیر کو ہینڈل کرنا (بذریعہ ایک گرم انکوڈنگ یا لیبل انکوڈنگ) تجویز کیا جاتا ہے۔ مزید برآں، یہ گمشدہ اقدار کو سنبھالنے کا مشورہ دیتا ہے، لیکن یہ میرے ڈیٹا پر لاگو نہیں ہوتا، کیونکہ کوئی قدر غائب نہیں ہے۔

ChatGPT دراصل ڈیٹا سائنس پروجیکٹ کے ہر مرحلے میں مددگار ثابت ہوسکتا ہے۔ آپ اسے ویب سکریپنگ کوڈ لکھنے کے لیے کہہ سکتے ہیں۔ آپ اسے مشین لرننگ الگورتھم کے لیے اپنے ڈیٹا کو دریافت کرنے اور تیار کرنے کی ہدایت دے سکتے ہیں۔ یہ آپ کو صحیح الگورتھم، ڈیٹاسیٹ کی تقسیم، A/B ٹیسٹنگ، اور کارکردگی بڑھانے والے الگورتھم کو منتخب کرنے کے لیے کوڈ بھی دے سکتا ہے۔ آخر میں، آپ ChatGPT سے ماڈل کی تعیناتی کے لیے کوڈ لکھنے کے لیے بھی کہہ سکتے ہیں۔

اگرچہ ChatGPT یہ سب کچھ کر سکتا ہے، یہ بالکل ممکن ہے کہ آپ کو فوری طور پر ایسا کوڈ نہیں ملے گا جو آپ کی مرضی کے مطابق ہو۔ لہذا، آپ کو سمجھنا ہوگا کہ آپ کیا حاصل کرنا چاہتے ہیں اور کوڈ کو چیک کریں۔ موقع یہ ہے کہ آپ کو کوڈ میں تصحیح کے لیے ChatGPT کو پرامپٹ کرنا پڑے گا اور اس بارے میں مزید ہدایات فراہم کرنا ہوں گی کہ کیا تبدیل کرنا ہے۔

ChatGPT ان صارفین کی مدد کر سکتا ہے جو ابھی بھی نئی کوڈنگ زبانیں سیکھ رہے ہیں۔ تصور کریں کہ آپ SQL ماسٹر ہیں، اور آپ کو حل کرنے میں کوئی مسئلہ نہیں ہے۔ یہ انٹرویو سوال. تاہم، آپ Python کو اپنی مہارتوں میں شامل کرنا چاہتے ہیں۔ ChatGPT اس میں آپ کی مدد کر سکتا ہے۔ آپ SQL کوڈ کاپی کر سکتے ہیں اور ChatGPT سے اسے Python میں تبدیل کرنے کے لیے کہہ سکتے ہیں۔

تو، ایس کیو ایل کوڈ یہ ہے۔

SELECT 
  company, 
  profit 
FROM 
  (
    SELECT 
      *, 
      rank() OVER (
        ORDER BY 
          profit DESC
      ) as rank 
    FROM 
      (
        SELECT 
          company, 
          sum(profits) AS profit 
        FROM 
          forbes_global_2010_2014 
        GROUP BY 
          company
      ) sq
  ) sq2 
WHERE 
  rank = 3;

ChatGPT نے مندرجہ بالا ایس کیو ایل کوڈ کی بنیاد پر ازگر کوڈ لکھا، لیکن یہ ٹھیک کام نہیں کرتا ہے۔ لہذا میں صحیح کوڈ نہ لکھنے پر ChatGPT کو مارنے میں مشغول ہوں۔ اور میں اسے دوبارہ کوشش کرنے کو کہتا ہوں، کیونکہ آؤٹ پٹ ایس کیو ایل کوڈ جیسا نہیں ہے۔ یہ دوبارہ کوشش کرتا ہے اور صحیح نتیجہ دیتا ہے۔

import pandas as pd

# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded

# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()

# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')

# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]

# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)

result  # This will display the top 3 companies by profit

جیسا کہ آپ دیکھ سکتے ہیں، آپ کو ہر کوڈ بلاک سے پہلے تبصروں کے ساتھ ایک اچھا کوڈ ملتا ہے۔ اپنے سیکھنے کو بہتر بنانے کے لیے، آپ اس سے اس کوڈ کی تشریح کے لیے کہہ سکتے ہیں۔ اس طرح، آپ کو ہر ایک کوڈ لائن کیا کرتی ہے اور کیسے اس میں مزید گہرائی حاصل کریں گے۔

جب میں برا کہتا ہوں تو میرا مطلب واقعی برا ہوتا ہے! یہ اس سطح پر جاتا ہے جہاں یہ صحیح فارمولہ استعمال کرتا ہے اور صحیح اقدار میں پلگ لگاتا ہے لیکن کسی نہ کسی طرح پیچیدہ حسابات میں گڑبڑ کرنے کا انتظام کرتا ہے۔

اس پر ایک نظر ڈالیں۔ میں نے اس مسئلے کو حل کرنے کے لیے اس سے کہا: "فرض کریں کہ آپ ایک منصفانہ چھ رخا ڈائی 10 بار رول کرتے ہیں۔ دو 1s، تین 2s، ایک 3، صفر 4s، تین 5s، اور ایک 6 رول کرنے کا کیا امکان ہے؟"

یہ اس طرح امکان کی گنتی کرتا ہے۔

میں نے ڈیٹا سائنس کے لیے ChatGPT کے استعمال سے کیا سیکھا۔

فیکٹریل کا حساب لگاتے وقت یہ گڑبڑ ہو جاتا ہے۔ اور یہ انداز کے ساتھ کرتا ہے! مکمل طور پر غلط کہنا 2! = 12۔ یہ نہیں ہے، یہ 2 ہے۔ آپ 2×1 = 2 جیسے سادہ حساب کو کیسے گڑبڑ کر سکتے ہیں؟ یہ واقعی مضحکہ خیز ہے!

اس سے بھی زیادہ مضحکہ خیز بات یہ ہے کہ ایک بار، 3! = 36، اور دوسری بار 3! = 6. اس کا کریڈٹ، جیسا کہ یہ کم از کم ایک بار درست تھا۔

جب میں اس سے مزید وضاحت کے بغیر حساب درست کرنے کو کہتا ہوں، تو یہ دوبارہ حساب لگاتا ہے اور 0.0001389 کے امکان کے ساتھ آتا ہے۔ مجھے اپنی آنکھوں پر یقین نہیں آرہا تھا! یہ بالکل ایک ہی فارمولے اور اقدار کو استعمال کر سکتا ہے اور ایک مختلف نتیجہ لے کر آ سکتا ہے جو اب بھی غلط ہے!

میں نے اسے دوبارہ حساب درست کرنے کے لیے کہا، اور آخر کار اس نے صحیح نتیجہ واپس کر دیا: 0.0008336۔ تیسری بار ایک دلکش ہے!

اقرار، یہ غلطیاں ChatGPT 3.5 سے ہوئی تھیں۔ میں نے ChatGPT 4 سے یہی سوال پوچھا، اور یہ پہلی کوشش میں صحیح حساب کے ساتھ سامنے آیا۔ آپ محفوظ طرف رہنے کے لیے کچھ ریاضیاتی پلگ ان بھی استعمال کر سکتے ہیں۔

اس سب سے اہم سبق یہ ہے کہ چیٹ جی پی ٹی ایک برا ماسٹر ہے لیکن ایک بہت اچھا نوکر ہے۔ یہ کوڈ لکھنے، ڈیبگ کرنے، تجزیہ کرنے اور ڈیٹا کو دیکھنے میں مددگار ثابت ہو سکتا ہے۔ تاہم، کبھی بھی اس پر مکمل بھروسہ نہ کریں اور جو کچھ یہ لکھتا ہے اسے بغیر جانچ کے نہ لیں۔

اس کے لکھے ہوئے کوڈ کو چیک کریں، اور حسابات چیک کریں۔ آپ ڈیٹا سائنسدان ہیں، آخرکار، اور ChatGPT ایسا نہیں ہے! ہو سکتا ہے آپ کو پہلی کوشش میں ChatGPT سے مطلوبہ نتائج حاصل نہ ہوں۔ لیکن اسے زیادہ درست ہدایات دینے اور کئی بار کوشش کرنے سے شاید آپ کو مطلوبہ نتیجہ مل جائے گا۔

نیٹ روزیدی ڈیٹا سائنسدان اور مصنوعات کی حکمت عملی میں ہے۔ وہ تجزیات کی تعلیم دینے والے ایک منسلک پروفیسر بھی ہیں، اور اس کے بانی ہیں۔ StrataScratch، ایک پلیٹ فارم جو ڈیٹا سائنسدانوں کو اعلی کمپنیوں کے حقیقی انٹرویو کے سوالات کے ساتھ ان کے انٹرویوز کی تیاری میں مدد کرتا ہے۔ اس کے ساتھ جڑیں۔ ٹویٹر: StrataScratch or لنکڈ.