5 Basit Adımda CSV'den ChatGPT ile Tam Analitik Rapora - KDnuggets

5 Basit Adımda CSV'den ChatGPT ile Tam Analitik Rapora – KDnuggets

Kaynak Düğüm: 2982942

5 Basit Adımda CSV'den ChatGPT ile Tam Analitik Rapora
Image hampiksel.com on Freepik
 

Hangi sektörde olursanız olun, veri odaklı çağda verilerin nasıl analiz edileceğini bilmek her zamankinden daha önemli. Veri analizi, işletmelerin rekabetçi kalmasını sağlayacak ve daha iyi kararlar alma yeteneği sağlayacaktır.

Veri analizinin önemi, her bireyin veri analizinin nasıl yapılacağını bilmesini sağlar. Ancak bazen veri analizi yapmak çok fazla zaman alır. Bu nedenle veri dosyamızdan eksiksiz bir rapor oluşturmak için ChatGPT'ye güvenebiliriz.

Bu makalede CSV dosyanızdan eksiksiz analitik raporlar oluşturmaya yönelik beş basit adım ele alınacaktır. Bu beş adım şunları içerir:

Adım 1: CSV Dosyasını İçe Aktarma

Adım 2: Veri Özeti ve Ön İşleme

Adım 3: Veri Analizi

Adım 4: Veri Görselleştirme

5. Adım: Rapor Oluşturma

Bir ön koşul olarak bu makale, okuyucunun ChatGPT Plus'a abone olduğunu varsaymaktadır. Bunu aklımızda tutarak başlayalım.

İlk adım analiz etmek istediğiniz CSV dosyasını hazırlayıp rapor oluşturmaktır. Bu dosya herhangi bir güvenilir kaynaktan gelmiş olabilir ancak bu makalede Telecom Churn veri kümesi kullanılacaktır. Kaggle.

Verilerin yapılandırılmış, organize edilmiş ve net bir başlığa sahip olduğundan emin olun. Analiz etmek istediğiniz belirli bir hedefiniz varsa bu verileri dosyaya eklemeyi unutmayın. Örneğimizde kayıp sütunu için bir analiz yapmaya çalışacağız.

Veriler hazır olduğunda bunları ChatGPT'ye ekleyin ve modelin işini yapmasına izin verin.

Bir sonraki adım, CSV dosyamızdan veri özetini almak ve bunları ön işlemek olacaktır. Verileri yüklerken aşağıdaki istemi girin.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Yukarıdaki istem aşağıdaki sonuçları sağlar:

İşte veri kümenizin özeti:

Satır sayısı: 3333

Sütun sayısı: 11

Sütun Adları:

yayık

Hesap Haftaları

Sözleşme yenileme

Veri planı

Veri kullanımı

CustServÇağrılar

GünDakika

Günlük Aramalar

Aylık ücret

Aşım Ücreti

DolaşımDakikaları

Veri tipleri:

Tamsayı: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

Kayan: DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins

Kayıp değerler: Sütunların hiçbirinde eksik değer yoktur.

ChatGPT açıkça verileri iyi okuyabiliyordu ve verilen veri kümesini sağlayabiliyordu. Bir sonraki sonuç, ChatGPT'den gelen verilerin ön işlenmesidir.

Veri kümesinde eksik değer olmadığından, veri temizleme ve ön işlemenin ana odağı aşağıdakiler üzerinde olacaktır:

  • Verilerde herhangi bir aykırı değer veya anormallik olup olmadığı kontrol ediliyor.
  • Özellikle sürekli sayısal değerlere sahip sütunlar için gerekirse verileri normalleştirme veya standartlaştırma.
  • Gerekiyorsa kategorik verilerin analize uygun formata dönüştürülmesi.

Bu adımlara devam edelim. 
 

5 Basit Adımda CSV'den ChatGPT ile Tam Analitik Rapora
 

Kutu grafikleri, veri kümenizin her sayısal sütunundaki potansiyel aykırı değerlere ilişkin görsel bir genel bakış sağlar. İşte bazı gözlemler:

  • AccountWeeks, CustServCalls, DayCalls: Bu sütunlar birkaç aykırı değer dışında oldukça normal bir dağılım göstermektedir.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: Bu sütunlar da bazı aykırı değerleri gösteriyor ancak verilerin doğası göz önüne alındığında makul bir aralıkta görünüyorlar.
  • Churn, ContractRenewal, DataPlan: Kategorik/ikili veriler olan bu sütunlar, geleneksel aykırı değerleri göstermez.

Bu bilgiler göz önüne alındığında, veri temizleme ve ön işlemedeki sonraki adımlar şunları içerebilir:

  • Aykırı Değerlerin Ele Alınması: Özel analitik ihtiyaçlarınıza ve alan bilginize göre aykırı değerlerin kaldırılıp kaldırılmayacağına, sınırlandırılacağına veya başka şekilde ele alınacağına karar verebiliriz.
  • Veri Dönüşümü: Gerekirse, özellikle veri ölçeğine duyarlı algoritmalar kullanmayı planlıyorsanız DayMins, MonthlyCharge vb. sütunları normalleştirebilir veya standartlaştırabiliriz.
  • Kategorik Veri Kodlama: Kategorik verinin, eğer ihtiyaç duyuluyorsa, analize uygun bir formata dönüştürülmesi.

ChatGPT'nin veri temizleme ve ön işleme için ek adımlar gerçekleştirmesine izin verebilir veya olduğu gibi bırakabilirsiniz. Bu örnek için sonraki adımlara devam edeceğiz.

Daha sonra ChatGPT ile veri analizi gerçekleştireceğiz. Veri analizi, neyi başarmak istediğinize bağlıdır. Bizim durumumuzda Churn POV'dan veri analizi yapmak istiyoruz.

Yukarıdaki durum için ChatGPT ile veri analizini yürütmek için aşağıdaki istemi kullanıyoruz.

Please perform the data analysis based on the data above with respect to the churn data.

 

Veri analizi aşağıdaki sonuçta görülebilir.

Kayıp verilerine göre veri analizi gerçekleştirmek için farklı faktörlerin müşteri kaybıyla nasıl ilişkili olduğunu anlamaya odaklanacağız. İkili bir değişken olan kayıp (kaybetme olmaması için 0, kaybetme için 1), tipik olarak sınıflandırma yöntemleri yoluyla ve diğer değişkenlerle ilişkiler incelenerek analiz edilir. İşte plan:

  1. Korelasyon Analizi: Başlangıç ​​olarak her sayısal özelliğin kayıpla nasıl ilişkilendirildiğine bakacağız. Bu bize hangi faktörlerin kayıpla daha yakından ilişkili olabileceğine dair bir başlangıç ​​anlayışı sağlıyor.
  1. İstatistiksel Testler: ContractRenewal ve DataPlan gibi kategorik değişkenler için, farklı kategoriler arasında kayıp oranlarında önemli farklılıklar olup olmadığını görmek için istatistiksel testleri kullanabiliriz.
  1. Görsel Analiz: Bu ilişkileri daha fazla araştırmak için bazı görselleştirmeler oluşturacağız. Bu, farklı gruplardaki kayıp oranlarının karşılaştırılmasını ve temel değişkenlerin kayıplara karşı grafiğinin çizilmesini içerir.
  1. Özet İstatistikler: Ortalamalar veya dağılımlarda gözle görülür farklılıklar olup olmadığını görmek için, kayıp durumuna göre farklı gruplar için özet istatistikler sağlayacağız.

Korelasyon analiziyle başlayalım ve ardından sonraki adımlara geçelim.

Churn ile Korelasyon Analizi

Farklı değişkenlerin kayıpla korelasyonu şu şekildedir (en güçlü negatif korelasyondan en güçlü pozitif korelasyona):

Negatif korelasyon:

  • ContractRenewal: En güçlü negatif korelasyon. Sözleşmelerini yenilemeyen müşterilerin ayrılma ihtimalinin daha yüksek olduğunu belirtir.
  • DataPlan: Veri planı olmayan müşterilerin ayrılma olasılığı biraz daha yüksektir.
  • Veri Kullanımı: Daha yüksek veri kullanımı, kesinti olasılığını biraz azaltır.

Pozitif korelasyon:

  • AccountWeeks, DayCalls: Çok zayıf pozitif korelasyon, kayıp üzerinde minimum etkiyi gösteriyor.
  • RoamMins: Dolaşım dakikalarının artmasıyla birlikte aboneliği kaybetme olasılığında hafif bir artış.
  • MonthlyCharge: Artan aylık ücretlerle birlikte biraz daha yüksek kayıp oranları.
  • Fazla Kullanım Ücreti: Daha yüksek aşım ücretleri, artan müşteri kaybıyla orta derecede ilişkilidir.
  • DayMins: Daha yüksek günlük dakikalar, artan kayıpla orta derecede ilişkilidir.
  • CustServCalls: Güçlü pozitif korelasyon. Daha fazla müşteri hizmetleri çağrısı, daha yüksek kayıp oranlarıyla ilişkilidir.

Bu korelasyonlara dayanarak, sözleşme yenileme, müşteri hizmetleri çağrıları, günlük dakikalar ve aşım ücretleri gibi faktörlerin, kayıpla daha yakından ilişkili olduğu görülmektedir. Bu faktörleri, özellikle ContractRenewal ve DataPlan gibi kategorik değişkenler için görsel analiz ve istatistiksel testlerle daha ayrıntılı olarak inceleyebiliriz.

Görsel Analiz

 

5 Basit Adımda CSV'den ChatGPT ile Tam Analitik Rapora
 

Görselleştirmeler, farklı değişkenler ve kayıp arasındaki ilişkiye dair değerli bilgiler sunuyor:

ContractRenewal ve DataPlan'e göre kayıp:

  • Sözleşme Yenileme: Kayıp oranlarında önemli bir fark olduğu ortadadır. Sözleşmelerini yenilemeyen müşterilerde kayıp oranı daha yüksek.
  • DataPlan: Müşterilerin bir veri planına sahip olup olmamasına bağlı olarak kayıp oranlarında gözle görülür bir fark var; veri planı olmayanlar ise daha yüksek kayıp oranları gösteriyor.

Churn'a göre Sayısal Değişkenler (CustServCalls, DayMins, MonthlyCharge, OverageFee):

  • CustServCalls: Daha fazla sayıda müşteri hizmetleri çağrısı alan müşteriler, daha fazla kesintiye uğrama eğilimindedir.
  • DayMins: Daha yüksek günlük dakikalar, daha büyük bir kayıp olasılığıyla ilişkilidir.
  • MonthlyCharge: Daha yüksek aylık ücretler, artan kayıp oranıyla ilişkilidir.
  • Aşım Ücreti: Daha yüksek aşım ücretleri aynı zamanda artan kayıpla da ilişkilidir.

Analizden Çıkarılan Sonuçlar

  • Sözleşme yenileme durumu ve bir veri planının varlığı, müşteri kaybında önemli faktörlerdir.
  • Yüksek kullanım (günlük dakika cinsinden) ve yüksek ücretler (aylık ücretler ve aşım ücretleri), daha yüksek kayıp oranlarıyla ilişkilidir.
  • Daha fazla sayıda müşteri hizmetleri çağrısı, potansiyel müşteri kaybının güçlü bir göstergesidir.

Sonraki Adımlar

Bu öngörülere dayanarak müşteri hizmetlerini iyileştirmek, fiyatlandırma stratejilerini revize etmek veya sözleşme yenileme ve veri planı abonelikleri için teşvikler sunmak gibi müşteri kaybını azaltmak için hedefli stratejiler geliştirilebilir.

Tek bir istemle ChatGPT'nin bize tam veri analizini ne kadar iyi sağlayabildiğini ve verilerden içgörü elde edebildiğini görebiliriz. Analiz amaçlarını değiştirebilir ve oradan başlayabilirsiniz.

Veri görselleştirme, veri analizini ve genel raporu iyileştirmeye yönelik destekleyici bir faaliyettir. Görselleştirmeyi yaptırarak verilerimizi anlamak için daha kapsamlı bir rapora sahip olabiliriz.

Aşağıdaki komut istemini kullanarak veri görselleştirmesini ChatGPT ile gerçekleştirebiliriz.

Please perform data visualization from the data analysis to explain the data better.

Veri analizi sonuçlarının anlaşılmasını geliştirmek için müşteri kaybıyla ilgili temel bulguları açıkça gösteren bir dizi görselleştirme oluşturacağım. Bu görselleştirmeler şunları içerecektir:

  1. Kategorik Değişkenler için Çubuk Grafikleri:
  • Sözleşme yenilemesi olan ve olmayan müşteriler için kayıp oranlarının karşılaştırılması.
  • Veri planı olan ve olmayan müşteriler için kayıp oranlarının karşılaştırılması.
  • Anahtar Sayısal Değişkenler için Kutu Grafikleri:
  1. Müşteri Hizmetleri Çağrıları vs Churn.
  • Günlük Dakikalar vs Churn.
  • Aylık Ücretler ve Kayıp.
  • Fazla Kullanım Ücretleri ve Kayıp.
  1. Korelasyonun Isı Haritası:

Tüm değişkenlerin kayıpla ilişkisini görselleştirmek.

 

5 Basit Adımda CSV'den ChatGPT ile Tam Analitik Rapora
 

Görselleştirme, tüm veri kümesini kapsayan tüm önemli grafikleri gösterecektir. Bağımsız olarak deneyebileceğiniz her konu için daha ayrıntılı açıklamalar isteyebiliriz.

Son adım, önceki adımlara dayanarak raporu oluşturmaktır. Ne yazık ki ChatGPT, veri analizinden elde edilen tüm açıklama ve bilgileri yakalayamayabilir, ancak yine de raporun basit sürümüne sahip olabiliriz.

Önceki analize dayalı bir PDF raporu oluşturmak için aşağıdaki istemi kullanın.

Please provide me with the pdf report from the first step to the last step.

Önceki analizinizin kapsandığı PDF bağlantı sonucunu alacaksınız. Sonucun yetersiz olduğunu düşünüyorsanız veya değiştirmek istediğiniz şeyler varsa adımları tekrarlamaya çalışın.

Veri analizi çağın en çok ihtiyaç duyulan becerilerinden biri olduğundan herkesin bilmesi gereken bir aktivitedir. Ancak veri analizi yapmayı öğrenmek uzun zaman alabilir. ChatGPT ile tüm bu etkinlik süresini en aza indirebiliriz. 

Bu yazıda CSV dosyalarından 5 adımda eksiksiz bir analitik raporun nasıl oluşturulacağını tartıştık. ChatGPT, kullanıcılara dosyanın içe aktarılmasından raporun oluşturulmasına kadar uçtan uca veri analizi etkinliği sağlar.
 
 

Cornellius Yudha Wijaya bir veri bilimi müdür yardımcısı ve veri yazarıdır. Allianz Endonezya'da tam zamanlı çalışırken, sosyal medya ve yazılı medya aracılığıyla Python ve Veri ipuçlarını paylaşmayı seviyor.

Zaman Damgası:

Den fazla KDNuggets