लेखक द्वारा छवि
चैटजीपीटी का उपयोग करने से मैंने एक ही सबक सीखा है। यह डेटा विज्ञान में आश्चर्यजनक रूप से सहायक है, लेकिन आपको इसके द्वारा उत्पादित हर चीज की जांच करनी चाहिए। यह कुछ कार्यों के लिए बहुत अच्छा है और उन्हें बहुत तेज़ी से और सटीकता से पूरा कर सकता है। कुछ अन्य कार्यों के लिए, यह काफी अच्छा है, और आपको इसे कई बार संकेत देना होगा। और एक कार्य है जिसमें मैंने पाया कि चैटजीपीटी बिल्कुल ख़राब है।
आप अपने डेटासेट को चैटजीपीटी संदेश से जोड़ सकते हैं, और कई सरल निर्देश देकर चैटजीपीटी आपके लिए डेटा तलाश सकता है।
उदाहरण के लिए, मैं यहां से एक डेटासेट ले सकता हूं यह डेटा प्रोजेक्ट. मेरे द्वारा दिए गए निर्देश ये हैं:
“वर्णनात्मक सांख्यिकीय विश्लेषण करने के लिए संलग्न डेटा का उपयोग करें। निम्नलिखित को शामिल कीजिए:
- बुनियादी आँकड़ों (माध्य, माध्यिका, मानक विचलन, आदि) को सारांशित करें।
- लुप्त मूल्यों की पहचान करें और उन्हें संभालने के लिए रणनीतियाँ सुझाएँ।
यह सारांश लौटाता है जो इस तरह दिखता है। यह प्रत्येक चर के लिए समान गणना करता है।
आयु:
- माध्य: 28.79 वर्ष
- मानक विचलन: 6.94 वर्ष
- सीमा: 18 से 50 वर्ष
इसने डेटासेट में किसी भी गुम मान की भी पहचान नहीं की।
यदि आपको भी इन गणनाओं के लिए पायथन कोड की आवश्यकता है, तो आप इसे लिखने के लिए संकेत दे सकते हैं।
डेटासेट लोड करने के लिए, इस कोड का उपयोग करें।
aerofit_data = pd.read_csv(file_path)
बुनियादी आँकड़ों के लिए, यह यह देता है।
basic_stats = aerofit_data.describe()
और आप इस कोड से लुप्त मानों की जांच कर सकते हैं।
missing_values = aerofit_data.isnull().sum()
इसके अलावा, मैं चैटजीपीटी से प्रमुख चरों के वितरण की कल्पना करने और संभावित आउटलेर्स और विसंगतियों का पता लगाने के लिए कह सकता हूं।
यह प्रमुख चरों के लिए हिस्टोग्राम और बॉक्स प्लॉट बनाता है: आयु, आय और मील। इसने आय और मील वितरण में संभावित आउटलेर्स का पता लगाया।
लेखक/चैटजीपीटी द्वारा बनाया गया
लेखक/चैटजीपीटी द्वारा बनाया गया
यह विज़ुअलाइज़ेशन की व्याख्या भी करता है। इसलिए, यह नोटिस करता है कि आय का वितरण सही-तिरछा है, जो इंगित करता है कि अधिकांश ग्राहकों की आय स्पेक्ट्रम के निचले सिरे पर है, और कम ग्राहक काफी अधिक आय अर्जित करते हैं। बॉक्सप्लॉट से पता चलता है कि उच्च स्तर पर कुछ आउटलेयर हैं।
लेखक/चैटजीपीटी द्वारा बनाया गया
लेखक/चैटजीपीटी द्वारा बनाया गया
यही व्याख्या माइल्स वितरण पर भी लागू होती है: दाएं-तिरछा और उच्च अंत पर आउटलेयर।
डेटा की प्रकृति को ध्यान में रखते हुए, यह पता चलता है कि ये आउटलेयर आवश्यक रूप से त्रुटियां नहीं हैं, बल्कि एक विशिष्ट ग्राहक खंड का प्रतिनिधित्व करते हैं। विषम वितरणों के संबंध में, यह डेटा को सामान्य बनाने के लिए परिवर्तनों (उदाहरण के लिए, लॉग परिवर्तन) का सुझाव देता है।
बेशक, आप इसे इन विज़ुअलाइज़ेशन के लिए पायथन कोड लिखने के लिए भी कह सकते हैं।
मैं उसी डेटा का उपयोग कर सकता हूं और ChatGPT से पूछ सकता हूं कि क्या यह इसके लिए उपयुक्त है रसद प्रतिगमन. और यदि नहीं, तो इसे उचित बनाने के लिए मुझे क्या करना चाहिए?
इसने उत्तर दिया कि मेरा डेटा प्राथमिक रूप से निरंतर डेटा के वर्णनात्मक और अनुमानात्मक विश्लेषण के लिए उपयुक्त है।
लॉजिस्टिक रिग्रेशन के लिए डेटा को बदलने के ये सुझाए गए तरीके हैं।
एक बाइनरी परिणाम बनाएं: उपयोग चर पर औसत विभाजन के आधार पर ग्राहकों को "उच्च उपयोग" या "कम उपयोग" के रूप में वर्गीकृत करके एक द्विआधारी परिणाम बनाएं। इसके अलावा, द्विआधारी परिणाम "ट्रेडमिल खरीद" बनाम "कोई ट्रेडमिल खरीद नहीं" हो सकता है।
मल्टीकोलीनियरिटी की जाँच करें: उपयोग सहसम्बंध मैट्रिक्स or विचरण मुद्रास्फीति कारक (वीआईएफ) मल्टीकोलीनियरिटी की जाँच करने के लिए। यदि बहुसंरेखता है, तो सहसंबद्ध चर को हटाया या संयोजित किया जा सकता है।
फ़ीचर स्केलिंग: जबकि लॉजिस्टिक रिग्रेशन के लिए मॉडल फिटिंग के लिए फीचर स्केलिंग आवश्यक नहीं है, यह फायदेमंद हो सकता है अभिसरण. यह विशेष रूप से भिन्न पैमाने वाली सुविधाओं के मामले में है।
गैर-रैखिकता से निपटना: परिवर्तन, जैसे लॉग इन or वर्गमूल, का उपयोग उन चरों के लिए किया जा सकता है जो रैखिकता धारणा को संतुष्ट नहीं करते हैं।
नमूने का आकार: भविष्यवक्ता चर की संख्या को देखते हुए डेटासेट काफी बड़ा होना चाहिए।
डेटा प्रीप्रोसेसिंग: आउटलेर्स और श्रेणीबद्ध चर को संभालना (द्वारा)। एक-हॉट एन्कोडिंग या लेबल एन्कोडिंग) का सुझाव दिया गया है. इसके अतिरिक्त, यह लुप्त मानों को संभालने का सुझाव देता है, लेकिन यह मेरे डेटा पर लागू नहीं होता है, क्योंकि कोई भी गुम मान नहीं है।
चैटजीपीटी वास्तव में डेटा विज्ञान परियोजना के हर चरण में सहायक हो सकता है। आप इसे वेब स्क्रैपिंग कोड लिखने के लिए संकेत दे सकते हैं। आप इसे मशीन लर्निंग एल्गोरिदम के लिए अपना डेटा तलाशने और तैयार करने का निर्देश दे सकते हैं। यह आपको सही एल्गोरिदम, डेटासेट विभाजन, ए/बी परीक्षण और प्रदर्शन-बढ़ाने वाले एल्गोरिदम चुनने के लिए एक कोड भी दे सकता है। अंत में, आप ChatGPT से मॉडल परिनियोजन के लिए एक कोड लिखने के लिए भी कह सकते हैं।
हालाँकि चैटजीपीटी यह सब कर सकता है, लेकिन यह बहुत संभव है कि आपको तुरंत कोई ऐसा कोड नहीं मिलेगा जो बिल्कुल वही करता हो जो आप चाहते हैं। इसलिए, आपको यह समझना होगा कि आप क्या हासिल करना चाहते हैं और कोड की जांच करें। संभावना यह है कि आपको कोड सुधार के लिए चैटजीपीटी को संकेत देना होगा और क्या बदलना है इसके बारे में अधिक निर्देश प्रदान करना होगा।
ChatGPT उन उपयोगकर्ताओं की मदद कर सकता है जो अभी भी नई कोडिंग भाषाएँ सीख रहे हैं। कल्पना करें कि आप SQL मास्टर हैं, और आपको हल करने में कोई समस्या नहीं है यह साक्षात्कार प्रश्न. हालाँकि, आप अपने कौशल में पायथन को जोड़ना चाहते हैं। चैटजीपीटी इसमें आपकी मदद कर सकता है। आप SQL कोड को कॉपी कर सकते हैं और ChatGPT को इसे Python में बदलने के लिए कह सकते हैं।
तो, SQL कोड यह है।
SELECT
company,
profit
FROM
(
SELECT
*,
rank() OVER (
ORDER BY
profit DESC
) as rank
FROM
(
SELECT
company,
sum(profits) AS profit
FROM
forbes_global_2010_2014
GROUP BY
company
) sq
) sq2
WHERE
rank = 3;
चैटजीपीटी ने उपरोक्त SQL कोड के आधार पर पायथन कोड लिखा, लेकिन यह ठीक से काम नहीं करता है। इसलिए मैं सही कोड न लिखने के लिए चैटजीपीटी को कोसने में लगा हुआ हूं। और मैं इसे दोबारा प्रयास करने के लिए कहता हूं, क्योंकि आउटपुट SQL कोड के समान नहीं है। यह पुनः प्रयास करता है और सही परिणाम देता है।
import pandas as pd
# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded
# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()
# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')
# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]
# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)
result # This will display the top 3 companies by profit
जैसा कि आप देख सकते हैं, आपको प्रत्येक कोड ब्लॉक से पहले टिप्पणियों के साथ एक अच्छा कोड मिलता है। अपने सीखने को बेहतर बनाने के लिए, आप उससे इस कोड की व्याख्या करने के लिए कह सकते हैं। इस तरह, आप और भी गहराई से जान सकेंगे कि प्रत्येक कोड लाइन क्या करती है और कैसे करती है।
जब मैं बुरा कहता हूं, तो मेरा मतलब वास्तव में बुरा होता है! यह उस स्तर तक चला जाता है जहां यह सही सूत्र का उपयोग करता है और सही मानों को प्लग करता है लेकिन किसी तरह जटिल गणनाओं को गड़बड़ाने में कामयाब हो जाता है।
इस पर एक नजर डाले। मैंने इस समस्या को हल करने के लिए उससे पूछा: “मान लीजिए कि आप छह भुजाओं वाले एक पासे को 10 बार घुमाते हैं। दो 1s, तीन 2s, एक 3, शून्य 4s, तीन 5s और एक 6 आने की प्रायिकता क्या है?"
यह इस तरह से संभाव्यता की गणना करता है।
फैक्टोरियल की गणना करते समय यह गड़बड़ हो जाता है। और यह ऐसा स्टाइल के साथ करता है! बिल्कुल गलत कहावत 2! = 12. यह नहीं है, यह 2 है। आप 2×1 = 2 जैसी सरल गणना को कैसे गड़बड़ा सकते हैं? यह सचमुच हास्यास्पद है!
इससे भी मज़ेदार बात यह है कि एक बार, 3! = 36, और दूसरी बार 3! = 6. इसका श्रेय, क्योंकि यह कम से कम एक बार सही था।
जब मैं इसे बिना किसी स्पष्टीकरण के गणना को सही करने के लिए कहता हूं, तो यह फिर से गणना करता है और 0.0001389 की संभावना के साथ आता है। मुझे अपनी आँखों पर विश्वास नहीं हो रहा था! यह बिल्कुल समान सूत्र और मानों का उपयोग कर सकता है और एक अलग परिणाम दे सकता है जो अभी भी गलत है!
मैंने उससे फिर से गणना सही करने के लिए कहा, और अंततः उसने सही परिणाम दिया: 0.0008336। तीसरी बार एक आकर्षण है!
माना जाता है कि ये गलतियाँ ChatGPT 3.5 द्वारा की गई थीं। मैंने ChatGPT 4 से भी यही प्रश्न पूछा और पहली कोशिश में ही सही गणना आ गई। सुरक्षित रहने के लिए आप कुछ गणितीय प्लग-इन का भी उपयोग कर सकते हैं।
इस सब से मुख्य सीख यह है कि चैटजीपीटी एक बुरा स्वामी है लेकिन एक बहुत अच्छा नौकर है। यह कोड लिखने, डिबगिंग, विश्लेषण और डेटा को विज़ुअलाइज़ करने में सहायक हो सकता है। हालाँकि, कभी भी इस पर पूरी तरह भरोसा न करें और जो कुछ भी यह लिखता है उसे बिना जांचे-परखे न लें।
उसके द्वारा लिखे गए कोड की जाँच करें, और गणनाएँ जाँचें। आख़िरकार, आप एक डेटा वैज्ञानिक हैं, और ChatGPT नहीं है! हो सकता है कि आपको पहले प्रयास में चैटजीपीटी से वांछित परिणाम न मिलें। लेकिन इसे अधिक सटीक निर्देश देने और कई बार प्रयास करने से संभवतः आपको वांछित परिणाम मिल जाएगा।
नैट रोसीडि एक डेटा वैज्ञानिक और उत्पाद रणनीति में है। वह एनालिटिक्स पढ़ाने वाले एक सहायक प्रोफेसर भी हैं, और के संस्थापक हैं स्ट्रैट स्क्रैच, शीर्ष कंपनियों के वास्तविक साक्षात्कार प्रश्नों के साथ डेटा वैज्ञानिकों को उनके साक्षात्कार के लिए तैयार करने में मदद करने वाला एक मंच। उसके साथ जुड़ें ट्विटर: स्ट्रैट स्क्रैच or लिंक्डइन.
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://www.kdnuggets.com/what-i-learned-from-using-chatgpt-for-data-science?utm_source=rss&utm_medium=rss&utm_campaign=what-i-learned-from-using-chatgpt-for-data-science
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 10
- 12
- 14
- 28
- 36
- 50
- 50 वर्षों
- 7
- a
- ऊपर
- सही रूप में
- पाना
- वास्तविक
- वास्तव में
- जोड़ना
- इसके अतिरिक्त
- सहायक
- बाद
- फिर
- उम्र
- कलन विधि
- एल्गोरिदम
- सब
- पहले ही
- भी
- an
- विश्लेषण
- विश्लेषिकी
- का विश्लेषण
- और
- उपयुक्त
- लागू करें
- उपयुक्त
- हैं
- AS
- पूछना
- मान लिया गया है
- कल्पना
- At
- संलग्न करना
- बुरा
- आधारित
- बुनियादी
- BE
- से पहले
- मानना
- लाभदायक
- खंड
- मुक्केबाज़ी
- लेकिन
- by
- गणना
- परिकलन
- हिसाब
- आया
- कर सकते हैं
- मामला
- वर्गीकरण
- संयोग
- परिवर्तन
- ChatGPT
- चेक
- चुनने
- कोड
- कोडन
- स्तंभ
- संयुक्त
- कैसे
- आता है
- टिप्पणियाँ
- कंपनियों
- कंपनी
- पूरी तरह से
- जुडिये
- निरंतर
- बदलना
- सही
- सुधार
- सहसंबद्ध
- पाठ्यक्रम
- बनाना
- बनाता है
- श्रेय
- ग्राहक
- ग्राहक
- तिथि
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- और गहरा
- तैनाती
- वांछित
- पता लगाना
- पता चला
- विचलन
- Умереть
- विभिन्न
- डिस्प्ले
- वितरण
- वितरण
- do
- कर देता है
- नहीं करता है
- डॉन
- e
- से प्रत्येक
- कमाना
- एन्कोडिंग
- समाप्त
- लगाना
- पर्याप्त
- त्रुटियाँ
- विशेष रूप से
- आदि
- ईथर (ईटीएच)
- और भी
- प्रत्येक
- सब कुछ
- ठीक ठीक
- स्पष्टीकरण
- का पता लगाने
- कारक
- निष्पक्ष
- Feature
- विशेषताएं
- कम
- फ़िल्टर
- अंतिम
- अंत में
- प्रथम
- फिटिंग
- निम्नलिखित
- के लिए
- सूत्र
- पाया
- संस्थापक
- से
- आगे
- दे दिया
- मिल
- देना
- दी
- देता है
- देते
- चला जाता है
- अच्छा
- महान
- समूह
- संभालना
- हैंडलिंग
- है
- he
- मदद
- सहायक
- मदद
- उच्चतर
- उसे
- कैसे
- तथापि
- एचटीएमएल
- HTTPS
- i
- पहचान
- if
- कल्पना करना
- तुरंत
- में सुधार
- in
- शामिल
- आमदनी
- इंगित करता है
- मुद्रास्फीति
- उदाहरण
- निर्देश
- व्याख्या
- साक्षात्कार
- साक्षात्कार सवाल
- साक्षात्कार
- में
- Investopedia
- IT
- जेपीजी
- केडनगेट्स
- कुंजी
- लेबल
- भाषाऐं
- बड़ा
- सीखा
- सीख रहा हूँ
- कम से कम
- सबक
- स्तर
- पसंद
- लाइन
- लिंक्डइन
- भार
- लॉग इन
- देखिए
- लग रहा है
- कम
- मशीन
- यंत्र अधिगम
- बनाया गया
- मुख्य
- प्रबंधन करता है
- मास्टर
- गणितीय
- मैक्स
- मतलब
- message
- हो सकता है
- लापता
- गलतियां
- आदर्श
- अधिक
- अधिकांश
- चाहिए
- my
- प्रकृति
- अनिवार्य रूप से
- आवश्यक
- आवश्यकता
- कभी नहीँ
- नया
- अच्छा
- नहीं
- संख्या
- of
- on
- एक बार
- ONE
- or
- आदेश
- अन्य
- परिणाम
- उत्पादन
- outputs के
- प्रत्यक्ष
- के ऊपर
- पांडा
- निष्पादन
- मंच
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- संभव
- संभावित
- ठीक
- ठीक - ठीक
- Predictor
- तैयार करना
- मुख्यत
- संभावना
- शायद
- मुसीबत
- समस्याओं
- एस्ट्रो मॉल
- प्रोफेसर
- लाभ
- मुनाफा
- परियोजना
- प्रदान करना
- अजगर
- प्रश्न
- प्रशन
- जल्दी से
- बिल्कुल
- रैंक
- बल्कि
- वास्तविक
- वास्तव में
- के बारे में
- प्रतीपगमन
- हटाया
- प्रतिनिधित्व
- परिणाम
- परिणाम
- रिटर्न
- सही
- रोल
- रोलिंग
- s
- सुरक्षित
- वही
- संतुष्ट
- कहना
- कहावत
- तराजू
- स्केलिंग
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- स्क्रैप
- संवीक्षा
- दूसरा
- देखना
- खंड
- चयन
- चयन
- कई
- चाहिए
- पक्ष
- काफी
- सरल
- के बाद से
- एक
- आकार
- कौशल
- So
- हल
- सुलझाने
- कुछ
- किसी न किसी तरह
- विशिष्ट
- स्पेक्ट्रम
- विभाजित
- SQ
- एसक्यूएल
- ट्रेनिंग
- मानक
- सांख्यिकीय
- आँकड़े
- रहना
- कदम
- फिर भी
- रणनीतियों
- स्ट्रेटेजी
- ऐसा
- सुझाव
- पता चलता है
- उपयुक्त
- योग
- सारांश
- T
- लेना
- कार्य
- कार्य
- शिक्षण
- परीक्षण
- कि
- RSI
- लेकिन हाल ही
- उन
- वहाँ।
- इन
- तीसरा
- इसका
- तीन
- पहर
- बार
- सेवा मेरे
- ऊपर का
- बदालना
- परिवर्तन
- परिवर्तनों
- बदलने
- ट्रस्ट
- कोशिश
- की कोशिश कर रहा
- दो
- समझना
- प्रयोग
- उपयोग
- प्रयुक्त
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- मान
- परिवर्तनशील
- बहुत
- कल्पना
- vs
- करना चाहते हैं
- था
- मार्ग..
- तरीके
- we
- वेब
- वेब स्क्रेपिंग
- थे
- क्या
- एचएमबी क्या है?
- कब
- कौन कौन से
- जब
- कौन
- विकिपीडिया
- मर्जी
- साथ में
- बिना
- काम
- लिखना
- लिख रहे हैं
- गलत
- लिखा था
- साल
- इसलिए आप
- आपका
- जेफिरनेट
- शून्य