डेटा विज्ञान के लिए चैटजीपीटी का उपयोग करने से मैंने क्या सीखा - केडीनगेट्स

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

डेटा विज्ञान के लिए चैटजीपीटी का उपयोग करने से मैंने क्या सीखा
लेखक द्वारा छवि

चैटजीपीटी का उपयोग करने से मैंने एक ही सबक सीखा है। यह डेटा विज्ञान में आश्चर्यजनक रूप से सहायक है, लेकिन आपको इसके द्वारा उत्पादित हर चीज की जांच करनी चाहिए। यह कुछ कार्यों के लिए बहुत अच्छा है और उन्हें बहुत तेज़ी से और सटीकता से पूरा कर सकता है। कुछ अन्य कार्यों के लिए, यह काफी अच्छा है, और आपको इसे कई बार संकेत देना होगा। और एक कार्य है जिसमें मैंने पाया कि चैटजीपीटी बिल्कुल ख़राब है।

आप अपने डेटासेट को चैटजीपीटी संदेश से जोड़ सकते हैं, और कई सरल निर्देश देकर चैटजीपीटी आपके लिए डेटा तलाश सकता है।

उदाहरण के लिए, मैं यहां से एक डेटासेट ले सकता हूं यह डेटा प्रोजेक्ट. मेरे द्वारा दिए गए निर्देश ये हैं:

“वर्णनात्मक सांख्यिकीय विश्लेषण करने के लिए संलग्न डेटा का उपयोग करें। निम्नलिखित को शामिल कीजिए:

बुनियादी आँकड़ों (माध्य, माध्यिका, मानक विचलन, आदि) को सारांशित करें।
लुप्त मूल्यों की पहचान करें और उन्हें संभालने के लिए रणनीतियाँ सुझाएँ।

यह सारांश लौटाता है जो इस तरह दिखता है। यह प्रत्येक चर के लिए समान गणना करता है।

आयु:

माध्य: 28.79 वर्ष
मानक विचलन: 6.94 वर्ष
सीमा: 18 से 50 वर्ष

इसने डेटासेट में किसी भी गुम मान की भी पहचान नहीं की।

यदि आपको भी इन गणनाओं के लिए पायथन कोड की आवश्यकता है, तो आप इसे लिखने के लिए संकेत दे सकते हैं।

डेटासेट लोड करने के लिए, इस कोड का उपयोग करें।

aerofit_data = pd.read_csv(file_path)

बुनियादी आँकड़ों के लिए, यह यह देता है।

basic_stats = aerofit_data.describe()

और आप इस कोड से लुप्त मानों की जांच कर सकते हैं।

missing_values = aerofit_data.isnull().sum()

इसके अलावा, मैं चैटजीपीटी से प्रमुख चरों के वितरण की कल्पना करने और संभावित आउटलेर्स और विसंगतियों का पता लगाने के लिए कह सकता हूं।

यह प्रमुख चरों के लिए हिस्टोग्राम और बॉक्स प्लॉट बनाता है: आयु, आय और मील। इसने आय और मील वितरण में संभावित आउटलेर्स का पता लगाया।

डेटा विज्ञान के लिए चैटजीपीटी का उपयोग करने से मैंने क्या सीखा
लेखक/चैटजीपीटी द्वारा बनाया गया

लेखक/चैटजीपीटी द्वारा बनाया गया

यह विज़ुअलाइज़ेशन की व्याख्या भी करता है। इसलिए, यह नोटिस करता है कि आय का वितरण सही-तिरछा है, जो इंगित करता है कि अधिकांश ग्राहकों की आय स्पेक्ट्रम के निचले सिरे पर है, और कम ग्राहक काफी अधिक आय अर्जित करते हैं। बॉक्सप्लॉट से पता चलता है कि उच्च स्तर पर कुछ आउटलेयर हैं।

यही व्याख्या माइल्स वितरण पर भी लागू होती है: दाएं-तिरछा और उच्च अंत पर आउटलेयर।

डेटा की प्रकृति को ध्यान में रखते हुए, यह पता चलता है कि ये आउटलेयर आवश्यक रूप से त्रुटियां नहीं हैं, बल्कि एक विशिष्ट ग्राहक खंड का प्रतिनिधित्व करते हैं। विषम वितरणों के संबंध में, यह डेटा को सामान्य बनाने के लिए परिवर्तनों (उदाहरण के लिए, लॉग परिवर्तन) का सुझाव देता है।

बेशक, आप इसे इन विज़ुअलाइज़ेशन के लिए पायथन कोड लिखने के लिए भी कह सकते हैं।

मैं उसी डेटा का उपयोग कर सकता हूं और ChatGPT से पूछ सकता हूं कि क्या यह इसके लिए उपयुक्त है रसद प्रतिगमन. और यदि नहीं, तो इसे उचित बनाने के लिए मुझे क्या करना चाहिए?

इसने उत्तर दिया कि मेरा डेटा प्राथमिक रूप से निरंतर डेटा के वर्णनात्मक और अनुमानात्मक विश्लेषण के लिए उपयुक्त है।

लॉजिस्टिक रिग्रेशन के लिए डेटा को बदलने के ये सुझाए गए तरीके हैं।

एक बाइनरी परिणाम बनाएं: उपयोग चर पर औसत विभाजन के आधार पर ग्राहकों को "उच्च उपयोग" या "कम उपयोग" के रूप में वर्गीकृत करके एक द्विआधारी परिणाम बनाएं। इसके अलावा, द्विआधारी परिणाम "ट्रेडमिल खरीद" बनाम "कोई ट्रेडमिल खरीद नहीं" हो सकता है।

मल्टीकोलीनियरिटी की जाँच करें: उपयोग सहसम्बंध मैट्रिक्स or विचरण मुद्रास्फीति कारक (वीआईएफ) मल्टीकोलीनियरिटी की जाँच करने के लिए। यदि बहुसंरेखता है, तो सहसंबद्ध चर को हटाया या संयोजित किया जा सकता है।

फ़ीचर स्केलिंग: जबकि लॉजिस्टिक रिग्रेशन के लिए मॉडल फिटिंग के लिए फीचर स्केलिंग आवश्यक नहीं है, यह फायदेमंद हो सकता है अभिसरण. यह विशेष रूप से भिन्न पैमाने वाली सुविधाओं के मामले में है।

गैर-रैखिकता से निपटना: परिवर्तन, जैसे लॉग इन or वर्गमूल, का उपयोग उन चरों के लिए किया जा सकता है जो रैखिकता धारणा को संतुष्ट नहीं करते हैं।

नमूने का आकार: भविष्यवक्ता चर की संख्या को देखते हुए डेटासेट काफी बड़ा होना चाहिए।

डेटा प्रीप्रोसेसिंग: आउटलेर्स और श्रेणीबद्ध चर को संभालना (द्वारा)। एक-हॉट एन्कोडिंग या लेबल एन्कोडिंग) का सुझाव दिया गया है. इसके अतिरिक्त, यह लुप्त मानों को संभालने का सुझाव देता है, लेकिन यह मेरे डेटा पर लागू नहीं होता है, क्योंकि कोई भी गुम मान नहीं है।

चैटजीपीटी वास्तव में डेटा विज्ञान परियोजना के हर चरण में सहायक हो सकता है। आप इसे वेब स्क्रैपिंग कोड लिखने के लिए संकेत दे सकते हैं। आप इसे मशीन लर्निंग एल्गोरिदम के लिए अपना डेटा तलाशने और तैयार करने का निर्देश दे सकते हैं। यह आपको सही एल्गोरिदम, डेटासेट विभाजन, ए/बी परीक्षण और प्रदर्शन-बढ़ाने वाले एल्गोरिदम चुनने के लिए एक कोड भी दे सकता है। अंत में, आप ChatGPT से मॉडल परिनियोजन के लिए एक कोड लिखने के लिए भी कह सकते हैं।

हालाँकि चैटजीपीटी यह सब कर सकता है, लेकिन यह बहुत संभव है कि आपको तुरंत कोई ऐसा कोड नहीं मिलेगा जो बिल्कुल वही करता हो जो आप चाहते हैं। इसलिए, आपको यह समझना होगा कि आप क्या हासिल करना चाहते हैं और कोड की जांच करें। संभावना यह है कि आपको कोड सुधार के लिए चैटजीपीटी को संकेत देना होगा और क्या बदलना है इसके बारे में अधिक निर्देश प्रदान करना होगा।

ChatGPT उन उपयोगकर्ताओं की मदद कर सकता है जो अभी भी नई कोडिंग भाषाएँ सीख रहे हैं। कल्पना करें कि आप SQL मास्टर हैं, और आपको हल करने में कोई समस्या नहीं है यह साक्षात्कार प्रश्न. हालाँकि, आप अपने कौशल में पायथन को जोड़ना चाहते हैं। चैटजीपीटी इसमें आपकी मदद कर सकता है। आप SQL कोड को कॉपी कर सकते हैं और ChatGPT को इसे Python में बदलने के लिए कह सकते हैं।

तो, SQL कोड यह है।

SELECT 
  company, 
  profit 
FROM 
  (
    SELECT 
      *, 
      rank() OVER (
        ORDER BY 
          profit DESC
      ) as rank 
    FROM 
      (
        SELECT 
          company, 
          sum(profits) AS profit 
        FROM 
          forbes_global_2010_2014 
        GROUP BY 
          company
      ) sq
  ) sq2 
WHERE 
  rank = 3;

चैटजीपीटी ने उपरोक्त SQL कोड के आधार पर पायथन कोड लिखा, लेकिन यह ठीक से काम नहीं करता है। इसलिए मैं सही कोड न लिखने के लिए चैटजीपीटी को कोसने में लगा हुआ हूं। और मैं इसे दोबारा प्रयास करने के लिए कहता हूं, क्योंकि आउटपुट SQL कोड के समान नहीं है। यह पुनः प्रयास करता है और सही परिणाम देता है।

import pandas as pd

# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded

# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()

# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')

# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]

# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)

result  # This will display the top 3 companies by profit

जैसा कि आप देख सकते हैं, आपको प्रत्येक कोड ब्लॉक से पहले टिप्पणियों के साथ एक अच्छा कोड मिलता है। अपने सीखने को बेहतर बनाने के लिए, आप उससे इस कोड की व्याख्या करने के लिए कह सकते हैं। इस तरह, आप और भी गहराई से जान सकेंगे कि प्रत्येक कोड लाइन क्या करती है और कैसे करती है।

जब मैं बुरा कहता हूं, तो मेरा मतलब वास्तव में बुरा होता है! यह उस स्तर तक चला जाता है जहां यह सही सूत्र का उपयोग करता है और सही मानों को प्लग करता है लेकिन किसी तरह जटिल गणनाओं को गड़बड़ाने में कामयाब हो जाता है।

इस पर एक नजर डाले। मैंने इस समस्या को हल करने के लिए उससे पूछा: “मान लीजिए कि आप छह भुजाओं वाले एक पासे को 10 बार घुमाते हैं। दो 1s, तीन 2s, एक 3, शून्य 4s, तीन 5s और एक 6 आने की प्रायिकता क्या है?"

यह इस तरह से संभाव्यता की गणना करता है।

डेटा विज्ञान के लिए चैटजीपीटी का उपयोग करने से मैंने क्या सीखा

फैक्टोरियल की गणना करते समय यह गड़बड़ हो जाता है। और यह ऐसा स्टाइल के साथ करता है! बिल्कुल गलत कहावत 2! = 12. यह नहीं है, यह 2 है। आप 2×1 = 2 जैसी सरल गणना को कैसे गड़बड़ा सकते हैं? यह सचमुच हास्यास्पद है!

इससे भी मज़ेदार बात यह है कि एक बार, 3! = 36, और दूसरी बार 3! = 6. इसका श्रेय, क्योंकि यह कम से कम एक बार सही था।

जब मैं इसे बिना किसी स्पष्टीकरण के गणना को सही करने के लिए कहता हूं, तो यह फिर से गणना करता है और 0.0001389 की संभावना के साथ आता है। मुझे अपनी आँखों पर विश्वास नहीं हो रहा था! यह बिल्कुल समान सूत्र और मानों का उपयोग कर सकता है और एक अलग परिणाम दे सकता है जो अभी भी गलत है!

मैंने उससे फिर से गणना सही करने के लिए कहा, और अंततः उसने सही परिणाम दिया: 0.0008336। तीसरी बार एक आकर्षण है!

माना जाता है कि ये गलतियाँ ChatGPT 3.5 द्वारा की गई थीं। मैंने ChatGPT 4 से भी यही प्रश्न पूछा और पहली कोशिश में ही सही गणना आ गई। सुरक्षित रहने के लिए आप कुछ गणितीय प्लग-इन का भी उपयोग कर सकते हैं।

इस सब से मुख्य सीख यह है कि चैटजीपीटी एक बुरा स्वामी है लेकिन एक बहुत अच्छा नौकर है। यह कोड लिखने, डिबगिंग, विश्लेषण और डेटा को विज़ुअलाइज़ करने में सहायक हो सकता है। हालाँकि, कभी भी इस पर पूरी तरह भरोसा न करें और जो कुछ भी यह लिखता है उसे बिना जांचे-परखे न लें।

उसके द्वारा लिखे गए कोड की जाँच करें, और गणनाएँ जाँचें। आख़िरकार, आप एक डेटा वैज्ञानिक हैं, और ChatGPT नहीं है! हो सकता है कि आपको पहले प्रयास में चैटजीपीटी से वांछित परिणाम न मिलें। लेकिन इसे अधिक सटीक निर्देश देने और कई बार प्रयास करने से संभवतः आपको वांछित परिणाम मिल जाएगा।

नैट रोसीडि एक डेटा वैज्ञानिक और उत्पाद रणनीति में है। वह एनालिटिक्स पढ़ाने वाले एक सहायक प्रोफेसर भी हैं, और के संस्थापक हैं स्ट्रैट स्क्रैच, शीर्ष कंपनियों के वास्तविक साक्षात्कार प्रश्नों के साथ डेटा वैज्ञानिकों को उनके साक्षात्कार के लिए तैयार करने में मदद करने वाला एक मंच। उसके साथ जुड़ें ट्विटर: स्ट्रैट स्क्रैच or लिंक्डइन.