Apa yang Saya Pelajari Dari Menggunakan ChatGPT Untuk Ilmu Data - KDnuggets

Diterbitkan Ulang Oleh Plato

Followers: 0

Apa yang Saya Pelajari dari Menggunakan ChatGPT untuk Ilmu Data
Gambar oleh Penulis

Ada satu pelajaran yang saya pelajari dari penggunaan ChatGPT. Ini sangat membantu dalam ilmu data, tetapi Anda harus meneliti semua hasilnya. Ini bagus untuk beberapa tugas dan dapat menyelesaikannya dengan sangat cepat dan akurat. Untuk beberapa tugas lainnya, ini cukup baik, dan Anda harus memintanya beberapa kali. Dan ada satu tugas yang menurut saya tidak bisa dilakukan oleh ChatGPT.

Anda dapat melampirkan kumpulan data Anda ke pesan ChatGPT, dan dengan memberikan beberapa instruksi sederhana, ChatGPT dapat menjelajahi data untuk Anda.

Misalnya, saya dapat mengambil kumpulan data proyek data ini. Petunjuk yang saya berikan adalah:

“Gunakan data terlampir untuk melakukan analisis statistik deskriptif. Sertakan yang berikut ini:

Meringkas statistik dasar (mean, median, deviasi standar, dll.).
Identifikasi nilai-nilai yang hilang dan sarankan strategi untuk menanganinya.”

Ini mengembalikan ringkasan yang terlihat seperti ini. Itu melakukan perhitungan yang sama untuk setiap variabel.

Umur:

Rata-rata: 28.79 tahun
Deviasi Standar: 6.94 tahun
Kisaran: 18 hingga 50 tahun

Itu juga mengidentifikasi tidak ada nilai yang hilang dalam kumpulan data.

Jika Anda juga memerlukan kode Python untuk perhitungan ini, Anda dapat memintanya untuk menulisnya.

Untuk memuat kumpulan data, gunakan kode ini.

aerofit_data = pd.read_csv(file_path)

Untuk statistik dasar, ini memberikan yang ini.

basic_stats = aerofit_data.describe()

Dan Anda dapat memeriksa nilai yang hilang dengan kode ini.

missing_values = aerofit_data.isnull().sum()

Selanjutnya, saya dapat meminta ChatGPT untuk memvisualisasikan distribusi variabel utama dan mendeteksi potensi outlier dan anomali.

Ini menciptakan histogram dan plot kotak untuk variabel utama: Usia, Pendapatan, dan Miles. Ini mendeteksi kemungkinan outlier dalam distribusi Pendapatan dan Miles.

Apa yang Saya Pelajari dari Menggunakan ChatGPT untuk Ilmu Data
Dibuat oleh Penulis/ChatGPT

Dibuat oleh Penulis/ChatGPT

Itu juga menafsirkan visualisasi. Jadi, terlihat adanya distribusi pendapatan yang miring ke kanan, yang menunjukkan bahwa sebagian besar pelanggan memiliki pendapatan pada spektrum yang lebih rendah, dan lebih sedikit pelanggan yang memperoleh pendapatan jauh lebih tinggi. Boxplot menunjukkan ada beberapa outlier di level yang lebih tinggi.

Apa yang Saya Pelajari dari Menggunakan ChatGPT untuk Ilmu Data
Dibuat oleh Penulis/ChatGPT

Dibuat oleh Penulis/ChatGPT

Penafsiran yang sama berlaku untuk distribusi Miles: miring ke kanan dan outlier di ujung yang lebih tinggi.

Mengingat sifat datanya, hal ini menunjukkan bahwa outlier ini belum tentu merupakan kesalahan, melainkan mewakili segmen pelanggan tertentu. Mengenai distribusi yang miring, hal ini menyarankan transformasi (misalnya transformasi log) untuk menormalkan data.

Tentu saja, Anda juga dapat memintanya untuk menulis kode Python untuk visualisasi ini.

Saya dapat menggunakan data yang sama dan menanyakan ChatGPT apakah cocok untuk itu regresi logistik. Dan jika tidak, apa yang harus saya lakukan untuk mengubahnya agar sesuai?

Ia menjawab bahwa data saya terutama cocok untuk analisis deskriptif dan inferensial dari data berkelanjutan.

Ini adalah cara yang disarankan untuk mengubah data untuk regresi logistik.

Buat Hasil Biner: Buat hasil biner dengan mengategorikan pelanggan sebagai “penggunaan tinggi” atau “penggunaan rendah berdasarkan pembagian median pada variabel Penggunaan. Selain itu, hasil binernya bisa berupa “pembelian treadmill” vs. “tidak ada pembelian treadmill”.

Periksa Multikolinearitas: Menggunakan matriks korelasi or Varians Faktor Inflasi (VIF) untuk memeriksa multikolinearitas. Jika terjadi multikolinearitas maka variabel yang berkorelasi dapat dihilangkan atau digabungkan.

Penskalaan Fitur: Meskipun penskalaan fitur untuk penyesuaian model tidak diperlukan untuk regresi logistik, hal ini dapat bermanfaat konvergensi. Hal ini terutama berlaku untuk fitur dengan skala yang sangat berbeda.

Mengatasi Non-Linearitas: Transformasi tersebut, seperti mencatat or akar pangkat dua, dapat digunakan untuk variabel yang tidak memenuhi asumsi linearitas.

Ukuran sampel: Kumpulan data harus cukup besar mengingat jumlah variabel prediktor.

Prapemrosesan Data: Menangani outlier dan variabel kategori (oleh pengkodean one-hot atau pengkodean label) disarankan. Selain itu, ini menyarankan penanganan nilai yang hilang, namun ini tidak berlaku untuk data saya, karena tidak ada nilai yang hilang.

ChatGPT sebenarnya dapat membantu dalam setiap tahapan proyek ilmu data. Anda dapat memintanya untuk menulis kode web scraping. Anda dapat menginstruksikannya untuk menjelajahi dan menyiapkan data Anda untuk algoritme pembelajaran mesin. Ini juga dapat memberi Anda kode untuk memilih algoritme yang tepat, pemisahan kumpulan data, pengujian A/B, dan algoritme peningkatan kinerja. Terakhir, Anda juga dapat meminta ChatGPT untuk menulis kode untuk penerapan model.

Meskipun ChatGPT dapat melakukan semua itu, kemungkinan besar Anda tidak akan langsung mendapatkan kode yang sesuai dengan keinginan Anda. Jadi, Anda harus memahami apa yang ingin Anda capai dan memeriksa kodenya. Kemungkinannya adalah Anda harus meminta ChatGPT untuk melakukan koreksi kode dan memberikan instruksi lebih lanjut tentang apa yang harus diubah.

ChatGPT dapat membantu pengguna yang masih mempelajari bahasa coding baru. Bayangkan Anda adalah seorang master SQL, dan Anda tidak mempunyai masalah dalam memecahkannya pertanyaan wawancara ini. Namun, Anda ingin menambahkan Python ke keahlian Anda. ChatGPT dapat membantu Anda dalam hal itu. Anda dapat menyalin kode SQL dan meminta ChatGPT untuk mengubahnya menjadi Python.

Jadi, kode SQLnya adalah ini.

SELECT 
  company, 
  profit 
FROM 
  (
    SELECT 
      *, 
      rank() OVER (
        ORDER BY 
          profit DESC
      ) as rank 
    FROM 
      (
        SELECT 
          company, 
          sum(profits) AS profit 
        FROM 
          forbes_global_2010_2014 
        GROUP BY 
          company
      ) sq
  ) sq2 
WHERE 
  rank = 3;

ChatGPT menulis kode Python berdasarkan kode SQL di atas, tetapi tidak berfungsi dengan benar. Jadi saya terlibat dalam bashing ChatGPT karena tidak menulis kode yang benar. Dan saya memintanya untuk mencoba lagi, karena outputnya tidak sama dengan kode SQL. Ia mencoba lagi dan mengembalikan hasil yang benar.

import pandas as pd

# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded

# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()

# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')

# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]

# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)

result  # This will display the top 3 companies by profit

Seperti yang Anda lihat, Anda mendapatkan kode bagus dengan komentar sebelum setiap blok kode. Untuk meningkatkan pembelajaran Anda, Anda dapat memintanya untuk menafsirkan kode ini. Dengan begitu, Anda akan mengetahui lebih dalam tentang apa yang dilakukan setiap baris kode dan bagaimana caranya.

Ketika saya mengatakan buruk, maksud saya sangat buruk! Ini mencapai tingkat di mana ia menggunakan rumus yang tepat dan memasukkan nilai yang benar tetapi entah bagaimana berhasil mengacaukan perhitungan yang tidak terlalu rumit.

Lihatlah ini. Saya memintanya untuk memecahkan masalah ini: “Misalkan Anda melempar sebuah dadu bersisi enam sebanyak 10 kali. Berapakah peluang munculnya dua angka 1, tiga angka 2, satu angka 3, nol angka 4, tiga angka 5, dan satu angka 6?”

Ini menghitung probabilitas dengan cara ini.

Apa yang Saya Pelajari dari Menggunakan ChatGPT untuk Ilmu Data

Ini mengacaukan saat menghitung faktorial. Dan itu dilakukan dengan penuh gaya! Benar-benar salah mengatakan 2! = 12. Bukan, ini 2. Bagaimana cara mengacaukan perhitungan sederhana seperti 2×1 = 2? Ini sungguh menggelikan!

Yang lebih lucu lagi adalah sekali, 3! = 36, dan yang kedua kalinya 3! = 6. Penghargaan untuk itu, karena setidaknya sekali itu benar.

Ketika saya memintanya untuk mengoreksi perhitungan tanpa penjelasan lebih lanjut, ia menghitung lagi dan menghasilkan probabilitas 0.0001389. Aku tidak bisa mempercayai mataku! Itu bisa menggunakan rumus dan nilai yang sama persis dan menghasilkan hasil berbeda yang tetap saja salah!

Saya memintanya lagi untuk mengoreksi perhitungannya, dan akhirnya memberikan hasil yang benar: 0.0008336. Ketiga kalinya adalah pesona!

Memang benar, kesalahan ini dilakukan oleh ChatGPT 3.5. Saya menanyakan pertanyaan yang sama kepada ChatGPT 4, dan menghasilkan perhitungan yang benar pada percobaan pertama. Anda mungkin juga menggunakan beberapa plugin matematika agar tetap aman.

Pembelajaran utama dari semua ini adalah bahwa ChatGPT adalah master yang buruk namun merupakan pelayan yang sangat baik. Ini dapat membantu dalam menulis kode, melakukan debug, menganalisis, dan memvisualisasikan data. Namun, jangan pernah mempercayainya sepenuhnya dan jangan pernah mengambil apa yang tertulis di dalamnya tanpa pengawasan yang cermat.

Periksa kode yang ditulisnya, dan periksa perhitungannya. Anda adalah seorang ilmuwan data, dan ChatGPT bukan! Anda mungkin tidak mendapatkan hasil yang diinginkan dari ChatGPT pada percobaan pertama. Namun memberikan instruksi yang lebih tepat dan mencoba beberapa kali mungkin akan membawa Anda ke hasil yang diinginkan.

Nat Rosidi adalah seorang ilmuwan data dan dalam strategi produk. Dia juga seorang profesor yang mengajar analitik, dan merupakan pendiri Goresan Strata, sebuah platform yang membantu ilmuwan data mempersiapkan wawancara mereka dengan pertanyaan wawancara nyata dari perusahaan terkemuka. Terhubung dengan dia di Twitter: StrataScratch or LinkedIn.