What I Learned From Using ChatGPT For Data Science - KDnuggets

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

ডেটা সায়েন্সের জন্য ChatGPT ব্যবহার করে আমি যা শিখেছি
লেখকের ছবি

ChatGPT ব্যবহার করে আমি একটি একক পাঠ শিখেছি। এটি ডেটা সায়েন্সে আশ্চর্যজনকভাবে সহায়ক, তবে আপনাকে এটির আউটপুট সবকিছু যাচাই করতে হবে। এটি কিছু কাজের জন্য দুর্দান্ত এবং সেগুলি খুব দ্রুত এবং নির্ভুলভাবে করতে পারে। কিছু অন্যান্য কাজের জন্য, এটি যথেষ্ট ভাল, এবং আপনাকে এটি বেশ কয়েকবার অনুরোধ করতে হবে। এবং একটি কাজ আছে যা আমি দেখেছি ChatGPT একেবারে খারাপ।

আপনি ChatGPT বার্তার সাথে আপনার ডেটাসেট সংযুক্ত করতে পারেন, এবং বেশ কিছু সহজ নির্দেশনা দিয়ে, ChatGPT আপনার জন্য ডেটা অন্বেষণ করতে পারে।

উদাহরণস্বরূপ, আমি এখান থেকে একটি ডেটাসেট নিতে পারি এই তথ্য প্রকল্প. আমি যে নির্দেশনা দিয়েছি তা হল:

"একটি বর্ণনামূলক পরিসংখ্যান বিশ্লেষণ করতে সংযুক্ত ডেটা ব্যবহার করুন। নিম্নলিখিত অন্তর্ভুক্ত করুন:

মৌলিক পরিসংখ্যান সংক্ষিপ্ত করুন (গড়, মধ্য, মান বিচ্যুতি, ইত্যাদি)।
অনুপস্থিত মানগুলি সনাক্ত করুন এবং সেগুলি পরিচালনা করার জন্য কৌশলগুলির পরামর্শ দিন।"

এটি এই মত দেখায় যে সারাংশ ফেরত. এটি প্রতিটি ভেরিয়েবলের জন্য একই গণনা করে।

বয়স:

গড়: 28.79 বছর
স্ট্যান্ডার্ড বিচ্যুতি: 6.94 বছর
পরিসীমা: 18 থেকে 50 বছর

এটি ডেটাসেটে কোনো অনুপস্থিত মানও চিহ্নিত করেনি।

আপনার যদি এই গণনার জন্য পাইথন কোডেরও প্রয়োজন হয়, আপনি সেগুলি লিখতে অনুরোধ করতে পারেন।

ডেটাসেট লোড করতে, এই কোডটি ব্যবহার করুন।

aerofit_data = pd.read_csv(file_path)

মৌলিক পরিসংখ্যানের জন্য, এটি এটি দেয়।

basic_stats = aerofit_data.describe()

এবং আপনি এই কোড দিয়ে অনুপস্থিত মান পরীক্ষা করতে পারেন.

missing_values = aerofit_data.isnull().sum()

আরও, আমি ChatGPT কে কী ভেরিয়েবলের বন্টন কল্পনা করতে এবং সম্ভাব্য বহিরাগত এবং অসঙ্গতিগুলি সনাক্ত করতে বলতে পারি।

এটি কী ভেরিয়েবলের জন্য হিস্টোগ্রাম এবং বক্স প্লট তৈরি করে: বয়স, আয় এবং মাইলস। এটি আয় এবং মাইলস বিতরণে সম্ভাব্য বহিরাগতদের সনাক্ত করেছে।

ডেটা সায়েন্সের জন্য ChatGPT ব্যবহার করে আমি যা শিখেছি
লেখক/চ্যাটজিপিটি দ্বারা তৈরি

লেখক/চ্যাটজিপিটি দ্বারা তৈরি

এটি ভিজ্যুয়ালাইজেশনের ব্যাখ্যাও করে। সুতরাং, এটি লক্ষ্য করে যে আয়ের বন্টন সঠিকভাবে তির্যক, যা ইঙ্গিত করে যে বেশিরভাগ গ্রাহকের স্পেকট্রামের নীচের প্রান্তে আয় রয়েছে এবং কম গ্রাহকরা উল্লেখযোগ্যভাবে উচ্চ আয় করেন। বক্সপ্লট প্রস্তাব করে যে উচ্চ প্রান্তে কিছু বহিরাগত রয়েছে।

মাইলস ডিস্ট্রিবিউশনের ক্ষেত্রেও একই ব্যাখ্যা প্রযোজ্য: ডানদিকে তির্যক এবং উচ্চ প্রান্তে বহিরাগত।

ডেটার প্রকৃতি বিবেচনা করে, এটি পরামর্শ দেয় যে এই বহিরাগতগুলি অগত্যা ত্রুটি নয় বরং একটি নির্দিষ্ট গ্রাহক বিভাগের প্রতিনিধিত্ব করে। তির্যক ডিস্ট্রিবিউশন সম্পর্কে, এটি ডেটা স্বাভাবিক করার জন্য রূপান্তর (যেমন, লগ ট্রান্সফর্মেশন) পরামর্শ দেয়।

অবশ্যই, আপনি এই ভিজ্যুয়ালাইজেশনের জন্য একটি পাইথন কোড লিখতেও বলতে পারেন।

আমি একই ডেটা ব্যবহার করতে পারি এবং ChatGPT এর জন্য উপযুক্ত কিনা তা জিজ্ঞাসা করতে পারি পণ্য সরবরাহ সংশ্লেষণ. এবং যদি না হয়, তাহলে এটাকে রূপান্তর করতে আমার কি করা উচিত যাতে এটি উপযুক্ত?

এটি উত্তর দিয়েছে যে আমার ডেটা প্রাথমিকভাবে ক্রমাগত ডেটার বর্ণনামূলক এবং অনুমানমূলক বিশ্লেষণের জন্য উপযুক্ত।

এগুলি লজিস্টিক রিগ্রেশনের জন্য ডেটা রূপান্তরের প্রস্তাবিত উপায়।

একটি বাইনারি ফলাফল তৈরি করুন: গ্রাহকদের "উচ্চ ব্যবহার" বা "ব্যবহার ভেরিয়েবলের মধ্যবর্তী বিভাজনের উপর ভিত্তি করে কম ব্যবহার" হিসাবে শ্রেণীবদ্ধ করে একটি বাইনারি ফলাফল তৈরি করুন। এছাড়াও, বাইনারি ফলাফল হতে পারে "ট্রেডমিল ক্রয়" বনাম "কোন ট্রেডমিল ক্রয়" নয়।

মাল্টিকোলিনিয়ারিটি পরীক্ষা করুন: ব্যবহার করা পারস্পরিক সম্পর্ক ম্যাট্রিক্স or ভ্যারিয়েন্স ইনফ্লেশন ফ্যাক্টর (VIF) মাল্টিকোলিনিয়ারিটি পরীক্ষা করতে। মাল্টিকোলিনিয়ারিটি থাকলে, পারস্পরিক সম্পর্কযুক্ত ভেরিয়েবলগুলি সরানো বা একত্রিত করা যেতে পারে।

বৈশিষ্ট্য স্কেলিং: যদিও লজিস্টিক রিগ্রেশনের জন্য মডেল ফিটিংয়ের জন্য বৈশিষ্ট্য স্কেলিং প্রয়োজনীয় নয়, এটি এর জন্য উপকারী হতে পারে অভিসৃতি. এটি বিশেষ করে উল্লেখযোগ্যভাবে ভিন্ন স্কেল সহ বৈশিষ্ট্যগুলির ক্ষেত্রে।

অ-রৈখিকতা মোকাবেলা: রূপান্তর, যেমন লগ ইন করুন or বর্গমূল, ভেরিয়েবলের জন্য ব্যবহার করা যেতে পারে যা রৈখিক অনুমানকে সন্তুষ্ট করে না।

সাধারন মাপ: ভবিষ্যদ্বাণীকারী ভেরিয়েবলের সংখ্যা অনুসারে ডেটাসেটটি যথেষ্ট বড় হতে হবে।

ডেটা প্রিপ্রসেসিং: বহিরাগত এবং শ্রেণীগত ভেরিয়েবল পরিচালনা করা (দ্বারা এক-হট এনকোডিং বা লেবেল এনকোডিং) প্রস্তাবিত। অতিরিক্তভাবে, এটি অনুপস্থিত মানগুলি পরিচালনা করার পরামর্শ দেয়, তবে এটি আমার ডেটাতে প্রযোজ্য নয়, কারণ কোনও অনুপস্থিত মান নেই।

ChatGPT আসলে একটি ডেটা সায়েন্স প্রকল্পের প্রতিটি পর্যায়ে সহায়ক হতে পারে। আপনি এটিকে একটি ওয়েব স্ক্র্যাপিং কোড লিখতে অনুরোধ করতে পারেন। আপনি এটিকে মেশিন লার্নিং অ্যালগরিদমের জন্য আপনার ডেটা অন্বেষণ এবং প্রস্তুত করার নির্দেশ দিতে পারেন। এটি আপনাকে সঠিক অ্যালগরিদম, ডেটাসেট বিভাজন, A/B পরীক্ষা এবং কর্মক্ষমতা-বুস্টিং অ্যালগরিদম বেছে নেওয়ার জন্য একটি কোডও দিতে পারে। অবশেষে, আপনি ChatGPT কে মডেল স্থাপনের জন্য একটি কোড লিখতেও বলতে পারেন।

যদিও ChatGPT এই সমস্ত কিছু করতে পারে, এটি খুব সম্ভব যে আপনি অবিলম্বে এমন একটি কোড পাবেন না যা আপনি যা চান ঠিক তাই করে৷ সুতরাং, আপনাকে বুঝতে হবে আপনি কী অর্জন করতে চান এবং কোডটি পরীক্ষা করুন। সুযোগ হল আপনাকে কোড সংশোধনের জন্য ChatGPT প্রম্পট করতে হবে এবং কী পরিবর্তন করতে হবে সে সম্পর্কে আরও নির্দেশাবলী প্রদান করতে হবে।

ChatGPT ব্যবহারকারীদের সাহায্য করতে পারে যারা এখনও নতুন কোডিং ভাষা শিখছে। কল্পনা করুন যে আপনি একজন এসকিউএল মাস্টার, এবং সমাধান করতে আপনার কোন সমস্যা নেই এই সাক্ষাৎকার প্রশ্ন. যাইহোক, আপনি আপনার দক্ষতা পাইথন যোগ করতে চান. ChatGPT আপনাকে এতে সাহায্য করতে পারে। আপনি SQL কোড অনুলিপি করতে পারেন এবং ChatGPT কে এটিকে Python এ রূপান্তর করতে বলতে পারেন।

সুতরাং, এসকিউএল কোড এই.

SELECT 
  company, 
  profit 
FROM 
  (
    SELECT 
      *, 
      rank() OVER (
        ORDER BY 
          profit DESC
      ) as rank 
    FROM 
      (
        SELECT 
          company, 
          sum(profits) AS profit 
        FROM 
          forbes_global_2010_2014 
        GROUP BY 
          company
      ) sq
  ) sq2 
WHERE 
  rank = 3;

ChatGPT উপরের এসকিউএল কোডের উপর ভিত্তি করে পাইথন কোড লিখেছে, কিন্তু এটি সঠিকভাবে কাজ করে না। তাই সঠিক কোড না লেখার জন্য আমি চ্যাটজিপিটি-কে মারধর করি। এবং আমি আবার চেষ্টা করতে বলি, যেহেতু আউটপুট SQL কোডের মতো নয়। এটি আবার চেষ্টা করে এবং সঠিক ফলাফল প্রদান করে।

import pandas as pd

# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded

# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()

# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')

# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]

# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)

result  # This will display the top 3 companies by profit

আপনি দেখতে পাচ্ছেন, আপনি প্রতিটি কোড ব্লকের আগে মন্তব্য সহ একটি সুন্দর কোড পাবেন। আপনার শেখার উন্নতি করতে, আপনি এই কোডটি ব্যাখ্যা করতে বলতে পারেন। এইভাবে, আপনি প্রতিটি কোড লাইন কী করে এবং কীভাবে তা আরও গভীরে পাবেন।

আমি যখন খারাপ বলি, মানে সত্যিই খারাপ! এটি এমন স্তরে যায় যেখানে এটি সঠিক সূত্র ব্যবহার করে এবং সঠিক মানগুলিতে প্লাগ করে তবে কোনও না কোনওভাবে সেই-জটিল গণনাগুলিকে এলোমেলো করতে পরিচালনা করে।

এই একটি কটাক্ষপাত আছে. আমি এই সমস্যাটি সমাধান করার জন্য এটিকে জিজ্ঞাসা করেছি: “ধরুন আপনি একটি ন্যায্য ছয়-পার্শ্বযুক্ত ডাই 10 বার রোল করেছেন। দুই 1s, তিন 2s, এক 3, শূন্য 4s, তিন 5s, এবং এক 6 ঘূর্ণায়মান হওয়ার সম্ভাবনা কত?

এটি এইভাবে সম্ভাব্যতা গণনা করে।

ডেটা সায়েন্সের জন্য ChatGPT ব্যবহার করে আমি যা শিখেছি

ফ্যাক্টরিয়াল গণনা করার সময় এটি গন্ডগোল করে। এবং এটা শৈলী সঙ্গে যে করে! সম্পূর্ণ ভুল বলা 2! = 12. এটা নয়, এটা 2. আপনি কিভাবে একটি সাধারণ হিসাব যেমন 2×1 = 2 এলোমেলো করতে পারেন? এটা সত্যিই হাস্যকর!

এর চেয়েও মজার যে একবার, ৩! = 3, এবং দ্বিতীয়বার 36! = 3. এটিকে ক্রেডিট, কারণ এটি অন্তত একবার সঠিক ছিল।

যখন আমি আরও ব্যাখ্যা ছাড়াই গণনাটি সংশোধন করতে বলি, তখন এটি আবার গণনা করে এবং 0.0001389 এর সম্ভাব্যতা নিয়ে আসে। নিজের চোখকে বিশ্বাস করতে পারছিলাম না! এটি সঠিকভাবে একই সূত্র এবং মান ব্যবহার করতে পারে এবং একটি ভিন্ন ফলাফল নিয়ে আসতে পারে যা এখনও ভুল!

আমি গণনাটি সংশোধন করতে আবার এটিকে জিজ্ঞাসা করেছি, এবং এটি অবশেষে সঠিক ফলাফল ফিরিয়ে দিয়েছে: 0.0008336। তৃতীয়বার এক মুগ্ধতা!

স্বীকার্য, এই ভুলগুলি ChatGPT 3.5 দ্বারা করা হয়েছিল৷ আমি ChatGPT 4 কে একই প্রশ্ন জিজ্ঞাসা করেছি, এবং এটি প্রথম চেষ্টাতেই সঠিক গণনা নিয়ে এসেছিল। নিরাপদে থাকার জন্য আপনি কিছু গাণিতিক প্লাগ-ইনও ব্যবহার করতে পারেন।

এই সব থেকে প্রধান শিক্ষা হল যে ChatGPT একজন খারাপ মাস্টার কিন্তু খুব ভাল সেবক। এটি কোড লেখা, ডিবাগিং, বিশ্লেষণ এবং ডেটা ভিজ্যুয়ালাইজ করতে সহায়ক হতে পারে। যাইহোক, এটিকে কখনই পুরোপুরি বিশ্বাস করবেন না এবং এটি যা লিখেছে তা যাচাই ছাড়াই গ্রহণ করবেন না।

এটি যে কোডটি লিখেছে তা পরীক্ষা করুন এবং গণনাগুলি পরীক্ষা করুন। সর্বোপরি, আপনি একজন ডেটা সায়েন্টিস্ট এবং ChatGPT নয়! আপনি প্রথম চেষ্টাতেই ChatGPT থেকে পছন্দসই ফলাফল নাও পেতে পারেন। তবে এটিকে আরও সুনির্দিষ্ট নির্দেশনা দেওয়া এবং কয়েকবার চেষ্টা করলে সম্ভবত আপনি পছন্দসই ফলাফল পাবেন।

নাট রোসিদি একজন ডেটা সায়েন্টিস্ট এবং পণ্যের কৌশল। এছাড়াও তিনি একজন সহযোগী অধ্যাপক শিক্ষকতা বিশ্লেষণ, এবং এর প্রতিষ্ঠাতা স্ট্র্যাটাস্ক্র্যাচ, একটি প্ল্যাটফর্ম যা তথ্য বিজ্ঞানীদের তাদের ইন্টারভিউয়ের জন্য প্রস্তুত করতে সাহায্য করে যা শীর্ষ কোম্পানিগুলির বাস্তব ইন্টারভিউ প্রশ্ন নিয়ে। তার সাথে সংযোগ করুন টুইটার: StrataScratch or লিঙ্কডইন.