Veri Bilimi İçin ChatGPT'yi Kullanarak Ne Öğrendim - KDnuggets

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Veri Bilimi için ChatGPT'yi Kullanarak Ne Öğrendim?
Yazara göre resim

ChatGPT'yi kullanarak öğrendiğim tek bir ders var. Veri biliminde son derece faydalıdır, ancak ortaya çıkardığı her şeyi dikkatle incelemeniz gerekir. Bazı görevler için harikadır ve bunları çok hızlı ve doğru bir şekilde yapabilir. Diğer bazı görevler için bu yeterince iyidir ve bunu birkaç kez istemeniz gerekir. Ve ChatGPT'nin tamamen kötü olduğunu bulduğum bir görev var.

Veri kümenizi ChatGPT mesajına ekleyebilir ve birkaç basit talimat vererek ChatGPT sizin için verileri keşfedebilir.

Örneğin, bir veri kümesini alabilirim bu veri projesi. Verdiğim talimatlar şunlar:

"Açıklayıcı bir istatistiksel analiz gerçekleştirmek için ekteki verileri kullanın. Aşağıdakileri ekleyin:

Temel istatistikleri özetleyin (ortalama, medyan, standart sapma vb.).
Eksik değerleri belirleyin ve bunlarla başa çıkmak için stratejiler önerin.

Buna benzeyen özeti döndürür. Her değişken için aynı hesaplamayı yapar.

Yaş:

Ortalama: 28.79 yıl
Standart Sapma: 6.94 yıl
Aralık: 18 ila 50 yıl

Ayrıca veri kümesinde eksik değer tespit edilmedi.

Bu hesaplamalar için Python koduna da ihtiyacınız varsa, bunları yazmasını isteyebilirsiniz.

Veri kümesini yüklemek için bu kodu kullanın.

aerofit_data = pd.read_csv(file_path)

Temel istatistikler için bunu verir.

basic_stats = aerofit_data.describe()

Eksik değerleri de bu kodla kontrol edebilirsiniz.

missing_values = aerofit_data.isnull().sum()

Ayrıca ChatGPT'den temel değişkenlerin dağılımını görselleştirmesini ve olası aykırı değerleri ve anormallikleri tespit etmesini isteyebilirim.

Anahtar değişkenler için histogramlar ve kutu grafikleri oluşturur: Yaş, Gelir ve Mil. Gelir ve Mil dağılımında olası aykırı değerleri tespit etti.

Veri Bilimi için ChatGPT'yi Kullanarak Ne Öğrendim?
Yazar/ChatGPT tarafından oluşturuldu

Yazar/ChatGPT tarafından oluşturuldu

Aynı zamanda görselleştirmeleri de yorumlar. Dolayısıyla, gelir dağılımının sağa çarpık olduğunu fark ediyor; bu da çoğu müşterinin yelpazenin alt ucunda bir gelire sahip olduğunu ve daha az sayıda müşterinin önemli ölçüde daha yüksek gelir elde ettiğini gösteriyor. Kutu grafiği, üst uçta bazı aykırı değerlerin olduğunu gösteriyor.

Veri Bilimi için ChatGPT'yi Kullanarak Ne Öğrendim?
Yazar/ChatGPT tarafından oluşturuldu

Yazar/ChatGPT tarafından oluşturuldu

Aynı yorum Mil dağılımı için de geçerlidir: sağa çarpık ve aykırı değerler üst uçta.

Verilerin doğası göz önüne alındığında, bu aykırı değerlerin mutlaka hata olmadığını, daha ziyade belirli bir müşteri segmentini temsil ettiğini öne sürüyor. Çarpık dağılımlarla ilgili olarak, verileri normalleştirmek için dönüşümler (örn. log dönüşümü) önerir.

Elbette bu görselleştirmeler için Python kodu yazmasını da isteyebilirsiniz.

Aynı verileri kullanabilir ve ChatGPT'ye uygun olup olmadığını sorabilirim lojistik regresyon. Değilse, onu uygun hale getirmek için ne yapmalıyım?

Verilerimin öncelikle sürekli verilerin tanımlayıcı ve çıkarımsal analizi için uygun olduğu yanıtını verdi.

Bunlar lojistik regresyon için verileri dönüştürmenin önerilen yollarıdır.

İkili Sonuç Oluşturun: Kullanım değişkenindeki medyan bölmeye göre müşterileri "yüksek kullanım" veya "düşük kullanım" olarak kategorize ederek ikili bir sonuç oluşturun. Ayrıca ikili sonuç "koşu bandı satın alma" veya "koşu bandı satın almama" olabilir.

Çoklu Doğrusallığı Kontrol Edin: Kullanmak korelasyon matrisi or Varyans Enflasyon Faktörü (VIF) Çoklu bağlantı olup olmadığını kontrol etmek için Çoklu bağlantı varsa ilişkili değişkenler çıkarılabilir veya birleştirilebilir.

Özellik Ölçeklendirme: Model uyumu için özellik ölçeklendirme lojistik regresyon için gerekli olmasa da, lojistik regresyon için faydalı olabilir. yakınsama. Bu, özellikle önemli ölçüde farklı ölçeklere sahip özellikler için geçerlidir.

Doğrusal Olmamayla Mücadele: Aşağıdaki gibi dönüşümler log or kare kök, doğrusallık varsayımını karşılamayan değişkenler için kullanılabilir.

Örnek boyut: Tahmin edici değişkenlerin sayısı dikkate alındığında veri kümesinin yeterince büyük olması gerekir.

Veri Ön İşleme: Aykırı değerlerin ve kategorik değişkenlerin ele alınması (tarafından tek sıcak kodlama veya etiket kodlaması) önerilir. Ek olarak, eksik değerlerin ele alınmasını önerir, ancak eksik değer olmadığından bu benim verilerim için geçerli değildir.

ChatGPT aslında bir veri bilimi projesinin her aşamasında yardımcı olabilir. Bir web kazıma kodu yazmasını isteyebilirsiniz. Verilerinizi makine öğrenimi algoritmaları için keşfetmesi ve hazırlaması talimatını verebilirsiniz. Ayrıca size doğru algoritmayı, veri kümesini bölmeyi, A/B testini ve performans artırıcı algoritmaları seçmeniz için bir kod da verebilir. Son olarak ChatGPT'den model dağıtımı için size bir kod yazmasını da isteyebilirsiniz.

ChatGPT tüm bunları yapabilse de, tam olarak istediğinizi yapan bir kodu hemen alamamanız oldukça olası. Bu yüzden neyi başarmak istediğinizi anlamalı ve kodu kontrol etmelisiniz. Muhtemelen kod düzeltmeleri için ChatGPT'yi istemeniz ve nelerin değiştirileceği konusunda daha fazla talimat vermeniz gerekecektir.

ChatGPT, hâlâ yeni kodlama dilleri öğrenen kullanıcılara yardımcı olabilir. Bir SQL uzmanı olduğunuzu ve çözme konusunda hiçbir sorun yaşamadığınızı hayal edin bu röportaj sorusu. Ancak becerilerinize Python'u da eklemek istiyorsunuz. ChatGPT bu konuda size yardımcı olabilir. SQL kodunu kopyalayabilir ve ChatGPT'den bunu Python'a dönüştürmesini isteyebilirsiniz.

Yani SQL kodu şudur.

SELECT 
  company, 
  profit 
FROM 
  (
    SELECT 
      *, 
      rank() OVER (
        ORDER BY 
          profit DESC
      ) as rank 
    FROM 
      (
        SELECT 
          company, 
          sum(profits) AS profit 
        FROM 
          forbes_global_2010_2014 
        GROUP BY 
          company
      ) sq
  ) sq2 
WHERE 
  rank = 3;

ChatGPT, Python kodunu yukarıdaki SQL kodunu temel alarak yazdı ancak düzgün çalışmıyor. Bu yüzden doğru kodu yazmadığım için ChatGPT'ye saldırıyorum. Çıktı SQL koduyla aynı olmadığı için tekrar denemesini rica ediyorum. Tekrar dener ve doğru sonucu verir.

import pandas as pd

# Assuming 'forbes_global_2010_2014' is a pandas DataFrame with columns 'company' and 'profits'
# Since we don't have the actual data, this code assumes that the DataFrame is already loaded

# Step 1: Group by company and sum the profits
company_profits_sum = forbes_global_2010_2014.groupby('company')['profits'].sum().reset_index()

# Step 2: Rank the companies by profit in descending order
company_profits_sum['rank'] = company_profits_sum['profits'].rank(ascending=False, method='max')

# Step 3: Filter the top 3 companies
top_companies = company_profits_sum[company_profits_sum['rank'] = 3]

# Final selection of columns
result = top_companies[['company', 'profits']].sort_values('profits', ascending=False)

result  # This will display the top 3 companies by profit

Gördüğünüz gibi her kod bloğundan önce açıklamalar içeren güzel bir kod elde ediyorsunuz. Öğreniminizi geliştirmek için ondan bu kodu yorumlamasını isteyebilirsiniz. Bu şekilde her kod satırının ne yaptığını ve nasıl yaptığını daha da derinlemesine öğreneceksiniz.

Kötü derken gerçekten kötüyü kastediyorum! Doğru formülü kullanıp doğru değerleri yerleştirecek ama bir şekilde o kadar da karmaşık olmayan hesaplamaları alt üst etmeyi başaracak seviyeye geliyor.

Şuna bir göz at. Ondan bu sorunu çözmesini istedim: “Altı yüzlü adil bir zarı 10 kez attığınızı varsayalım. İki 1, üç 2, bir 3, sıfır 4, üç 5 ve bir 6 gelme olasılığı nedir?”

Olasılığı bu şekilde hesaplıyor.

Veri Bilimi için ChatGPT'yi Kullanarak Ne Öğrendim?

Faktöriyelleri hesaplarken hata veriyor. Ve bunu şık bir şekilde yapıyor! 2 derken tamamen yanlış! = 12. Değil, 2. 2×1 = 2 gibi basit bir hesaplamayı nasıl karıştırırsınız? Bu gerçekten gülünç!

Daha da komik olanı bir kez, 3! = 36 ve ikinci kez 3! = 6. En azından bir kez doğru olduğu için bunu takdir edin.

Daha fazla açıklama yapmadan hesaplamayı düzeltmesini istediğimde tekrar hesaplıyor ve 0.0001389 olasılığını çıkarıyor. Gözlerime inanamadım! Tamamen aynı formülü ve değerleri kullanabilir ve yine de yanlış olan farklı bir sonuç ortaya çıkarabilir!

Hesaplamayı düzeltmesini tekrar istedim ve sonunda doğru sonucu verdi: 0.0008336. Üçüncü kez bir çekicilik!

Kuşkusuz bu hatalar ChatGPT 3.5 tarafından yapılmıştır. Aynı soruyu ChatGPT 4'e de sordum ve ilk denemede doğru hesaplamayı yaptı. Güvenli tarafta kalmak için bazı matematiksel eklentileri de kullanabilirsiniz.

Tüm bunlardan öğrenilen temel şey, ChatGPT'nin kötü bir usta ama çok iyi bir hizmetçi olduğudur. Kod yazmada, hata ayıklamada, verileri analiz etmede ve görselleştirmede yararlı olabilir. Ancak asla ona tamamen güvenmeyin ve yazdıklarını asla incelemeden almayın.

Yazdığı kodu kontrol edin ve hesaplamaları kontrol edin. Sonuçta siz bir veri bilimcisisiniz ve ChatGPT değil! İlk denemede ChatGPT'den istediğiniz sonuçları alamayabilirsiniz. Ancak ona daha kesin talimatlar vermek ve birkaç kez denemek muhtemelen sizi istediğiniz sonuca ulaştıracaktır.

Nate Rosidi bir veri bilimcisi ve ürün stratejisidir. Aynı zamanda analitik öğreten bir yardımcı profesördür ve kurucusudur. StrataScratch, veri bilimcilerinin en iyi şirketlerden gelen gerçek röportaj sorularıyla röportajlarına hazırlanmalarına yardımcı olan bir platform. onunla bağlantı kurun Twitter: StrataScratch or LinkedIn.