Dari CSV hingga Menyelesaikan Laporan Analitik dengan ChatGPT dalam 5 Langkah Sederhana - KDnuggets

Dari CSV hingga Menyelesaikan Laporan Analitik dengan ChatGPT dalam 5 Langkah Sederhana – KDnuggets

Node Sumber: 2982942

Dari CSV hingga Menyelesaikan Laporan Analitik dengan ChatGPT dalam 5 Langkah Sederhana
Image by piksel mentah.com on Freepik
 

Apa pun bisnis yang Anda jalani, mengetahui cara menganalisis data menjadi lebih penting dari sebelumnya di era berbasis data. Analisis data akan memungkinkan bisnis untuk tetap kompetitif dan memberikan kemampuan untuk membuat keputusan yang lebih baik.

Pentingnya analisis data mendorong setiap individu untuk mengetahui cara melakukan analisis data. Namun terkadang dibutuhkan terlalu banyak waktu untuk melakukan analisis data. Itu sebabnya kami dapat mengandalkan ChatGPT untuk membuat laporan lengkap dari file data kami.

Artikel ini akan membahas lima langkah sederhana untuk membuat laporan analitis lengkap dari file CSV Anda. Kelima langkah tersebut antara lain:

Langkah 1: Mengimpor File CSV

Langkah 2: Ringkasan Data dan Pemrosesan Awal

Langkah 3: Analisis Data

Langkah 4: Visualisasi Data

Langkah 5: Pembuatan Laporan

Sebagai prasyarat, artikel ini mengasumsikan pembaca telah berlangganan ChatGPT Plus. Dengan mengingat hal itu, mari kita mulai.

Langkah pertama siapkan file CSV yang ingin dianalisis dan dibuat laporannya. File ini dapat berasal dari sumber tepercaya mana pun, tetapi artikel ini akan menggunakan kumpulan data Telecom Churn dari Kaggle.

Pastikan data terstruktur, terorganisir, dan memiliki header yang jelas. Jika Anda mempunyai target tertentu yang ingin dianalisis, maka jangan lupa untuk menyertakan data tersebut ke dalam file. Dalam contoh kami, kami akan mencoba melakukan analisis untuk kolom churn.

Setelah data siap, lampirkan data tersebut ke ChatGPT dan biarkan model melakukan tugasnya.

Langkah selanjutnya adalah mendapatkan ringkasan data dari file CSV kami dan memprosesnya terlebih dahulu. Masukkan perintah berikut saat Anda mengunggah data.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Prompt di atas memberikan hasil sebagai berikut:

Berikut ringkasan kumpulan data Anda:

Jumlah baris: 3333

Jumlah kolom: 11

Nama Kolom:

Mengocok

Minggu Akun

Perpanjangan kontrak

Paket Data

Penggunaan data

Panggilan CustServ

HariMin

Panggilan Harian

Biaya Bulanan

Biaya Kelebihan

RoamMins

Jenis Data:

Integer: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

Float: Penggunaan Data, DayMins, Biaya Bulanan, OverageFee, RoamMins

Nilai yang hilang: Tidak ada nilai yang hilang di kolom mana pun.

ChatGPT jelas dapat membaca data dengan baik dan mampu menyediakan dataset yang diberikan. Hasil selanjutnya adalah data preprocessing dari ChatGPT.

Karena tidak ada nilai yang hilang dalam kumpulan data, fokus utama pembersihan dan prapemrosesan data adalah pada:

  • Memeriksa outlier atau anomali dalam data.
  • Normalisasi atau standarisasi data jika diperlukan, terutama untuk kolom dengan nilai numerik kontinu.
  • Mengubah data kategorikal ke dalam format yang sesuai untuk analisis, jika perlu.

Mari lanjutkan dengan langkah-langkah ini. 
 

Dari CSV hingga Menyelesaikan Laporan Analitik dengan ChatGPT dalam 5 Langkah Sederhana
 

Plot kotak memberikan gambaran visual tentang potensi outlier di setiap kolom numerik kumpulan data Anda. Berikut beberapa pengamatannya:

  • AccountWeeks, CustServCalls, DayCalls: Kolom ini menunjukkan distribusi yang cukup normal dengan beberapa outlier.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: Kolom ini juga menampilkan beberapa outlier, namun tampaknya berada dalam rentang yang wajar, mengingat sifat datanya.
  • Churn, ContractRenewal, DataPlan: Sebagai data kategorikal/biner, kolom ini tidak menampilkan outlier tradisional.

Berdasarkan informasi ini, langkah selanjutnya dalam pembersihan dan prapemrosesan data dapat mencakup:

  • Menangani Outlier: Kami dapat memutuskan apakah akan menghapus, membatasi, atau menangani outlier berdasarkan kebutuhan analitis spesifik dan pengetahuan domain Anda.
  • Transformasi Data: Jika diperlukan, kami dapat menormalkan atau menstandardisasi kolom seperti DayMins, MonthlyCharge, dll., terutama jika Anda berencana menggunakan algoritme yang sensitif terhadap skala data.
  • Pengkodean Data Kategorikal: Ubah data kategorikal menjadi format yang sesuai untuk analisis, jika transformasi semacam itu diperlukan.

Anda dapat membiarkan ChatGPT melakukan langkah tambahan untuk pembersihan dan prapemrosesan data atau membiarkannya apa adanya. Untuk contoh ini, kami akan melanjutkan ke langkah berikutnya.

Selanjutnya kita akan melakukan analisis data dengan ChatGPT. Analisis data tergantung pada apa yang ingin Anda capai. Dalam kasus kami, kami ingin melakukan analisis data dari POV Churn.

Kami menggunakan perintah berikut untuk menjalankan analisis data dengan ChatGPT untuk kasus di atas.

Please perform the data analysis based on the data above with respect to the churn data.

 

Analisis datanya dapat dilihat pada hasil berikut.

Untuk melakukan analisis data sehubungan dengan data churn, kami akan fokus pada pemahaman bagaimana berbagai faktor berhubungan dengan churn pelanggan. Churn, sebagai variabel biner (0 untuk tanpa churn, 1 untuk churn), biasanya dianalisis melalui metode klasifikasi dan dengan memeriksa hubungan dengan variabel lain. Inilah rencananya:

  1. Analisis Korelasi: Untuk memulai, kita akan melihat bagaimana setiap fitur numerik berkorelasi dengan churn. Hal ini memberi kita pemahaman awal tentang faktor mana yang mungkin lebih terkait erat dengan churn.
  1. Uji Statistik: Untuk variabel kategori seperti ContractRenewal dan DataPlan, kita dapat menggunakan uji statistik untuk melihat apakah terdapat perbedaan signifikan dalam tingkat churn di berbagai kategori.
  1. Analisis Visual: Kami akan membuat beberapa visualisasi untuk mengeksplorasi lebih lanjut hubungan ini. Hal ini mencakup membandingkan tingkat churn di berbagai kelompok dan merencanakan variabel-variabel kunci terhadap churn.
  1. Statistik Ringkasan: Kami akan memberikan statistik ringkasan untuk berbagai grup berdasarkan status churn untuk melihat apakah ada perbedaan nyata dalam cara atau distribusi.

Mari kita mulai dengan analisis korelasi dan kemudian melanjutkan ke langkah berikutnya.

Analisis Korelasi dengan Churn

Korelasi berbagai variabel dengan churn adalah sebagai berikut (dari korelasi negatif terkuat hingga korelasi positif terkuat):

Korelasi Negatif:

  • Pembaruan Kontrak: Korelasi negatif terkuat. Menunjukkan bahwa pelanggan yang tidak memperbarui kontraknya lebih cenderung melakukan churn.
  • DataPlan: Pelanggan yang tidak memiliki paket data memiliki kemungkinan lebih besar untuk melakukan churn.
  • Penggunaan Data: Penggunaan data yang lebih tinggi sedikit mengurangi kemungkinan churn.

Korelasi positif:

  • AccountWeeks, DayCalls: Korelasi positif yang sangat lemah, menunjukkan dampak minimal terhadap churn.
  • RoamMins: Kemungkinan churn sedikit meningkat seiring bertambahnya menit roaming.
  • Biaya Bulanan: Tingkat churn yang sedikit lebih tinggi dengan peningkatan biaya bulanan.
  • OverageFee: Biaya kelebihan penggunaan yang lebih tinggi berkorelasi moderat dengan peningkatan churn.
  • DayMins: Menit harian yang lebih tinggi berkorelasi sedang dengan peningkatan churn.
  • CustServCalls: Korelasi positif yang kuat. Semakin banyak panggilan layanan pelanggan dikaitkan dengan tingkat churn yang lebih tinggi.

Berdasarkan korelasi ini, tampaknya faktor-faktor seperti perpanjangan kontrak, panggilan layanan pelanggan, menit harian, dan biaya kelebihan penggunaan lebih erat kaitannya dengan churn. Kita dapat mengeksplorasi lebih jauh faktor-faktor ini melalui analisis visual dan uji statistik, terutama untuk variabel kategori seperti ContractRenewal dan DataPlan.

Analisis Visual

 

Dari CSV hingga Menyelesaikan Laporan Analitik dengan ChatGPT dalam 5 Langkah Sederhana
 

Visualisasi ini menawarkan wawasan berharga tentang hubungan antara berbagai variabel dan churn:

Diputar oleh ContractRenewal dan DataPlan:

  • Perpanjangan Kontrak: Perbedaan signifikan dalam tingkat churn terlihat jelas. Pelanggan yang tidak memperbarui kontraknya menunjukkan tingkat churn yang lebih tinggi.
  • DataPlan: Ada perbedaan mencolok dalam tingkat churn berdasarkan apakah pelanggan memiliki paket data atau tidak, dan pelanggan yang tidak memiliki paket data menunjukkan churn yang lebih tinggi.

Variabel Numerik (CustServCalls, DayMins, MonthlyCharge, OverageFee) oleh Churn:

  • CustServCalls: Pelanggan dengan jumlah panggilan layanan pelanggan yang lebih tinggi cenderung lebih sering melakukan churn.
  • DayMins: Menit harian yang lebih tinggi dikaitkan dengan kemungkinan churn yang lebih besar.
  • Biaya Bulanan: Biaya bulanan yang lebih tinggi berkorelasi dengan peningkatan tingkat churn.
  • OverageFee: Biaya kelebihan penggunaan yang lebih tinggi juga dikaitkan dengan peningkatan churn.

Kesimpulan dari Analisis

  • Status perpanjangan kontrak dan keberadaan paket data merupakan faktor signifikan dalam churn pelanggan.
  • Penggunaan yang tinggi (dalam hitungan menit harian) dan biaya yang tinggi (biaya bulanan dan biaya kelebihan penggunaan) dikaitkan dengan tingkat churn yang lebih tinggi.
  • Jumlah panggilan layanan pelanggan yang lebih tinggi merupakan indikator kuat potensi churn.

Langkah Selanjutnya

Berdasarkan wawasan ini, strategi yang ditargetkan dapat dikembangkan untuk mengurangi churn, seperti meningkatkan layanan pelanggan, merevisi strategi harga, atau menawarkan insentif untuk perpanjangan kontrak dan berlangganan paket data.

Dengan satu perintah, kita dapat melihat seberapa baik ChatGPT dapat memberikan kita analisis data yang lengkap dan menghasilkan wawasan dari data tersebut. Anda dapat mengubah tujuan analisis dan memulai dari sana.

Visualisasi data merupakan kegiatan pendukung untuk meningkatkan analisis data dan laporan secara keseluruhan. Dengan adanya visualisasi, kita dapat memiliki laporan yang lebih komprehensif untuk memahami data kita.

Dengan menggunakan perintah berikut, kita dapat melakukan visualisasi data dengan ChatGPT.

Please perform data visualization from the data analysis to explain the data better.

Untuk meningkatkan pemahaman tentang hasil analisis data, saya akan membuat serangkaian visualisasi yang secara jelas menggambarkan temuan-temuan utama terkait churn pelanggan. Visualisasi ini akan mencakup:

  1. Plot Batang untuk Variabel Kategorikal:
  • Membandingkan tingkat churn untuk pelanggan dengan dan tanpa perpanjangan kontrak.
  • Membandingkan tingkat churn untuk pelanggan dengan dan tanpa paket data.
  • Plot Kotak untuk Variabel Numerik Utama:
  1. Panggilan Layanan Pelanggan vs Churn.
  • Menit Harian vs Churn.
  • Biaya Bulanan vs Churn.
  • Biaya Kelebihan Penggunaan vs Churn.
  1. Peta Panas Korelasi:

Untuk memvisualisasikan korelasi semua variabel dengan churn.

 

Dari CSV hingga Menyelesaikan Laporan Analitik dengan ChatGPT dalam 5 Langkah Sederhana
 

Visualisasinya akan menampilkan semua plot penting yang merangkum seluruh kumpulan data. Kami dapat meminta penjelasan lebih detail untuk setiap plot, yang dapat Anda coba secara mandiri.

Langkah terakhir adalah membuat laporan berdasarkan langkah sebelumnya. Sayangnya, ChatGPT mungkin tidak menangkap semua deskripsi dan wawasan dari analisis data, namun kami masih dapat memiliki versi laporan yang sederhana.

Gunakan perintah berikut untuk menghasilkan laporan PDF berdasarkan analisis sebelumnya.

Please provide me with the pdf report from the first step to the last step.

Anda akan mendapatkan hasil tautan PDF dengan analisis Anda sebelumnya. Coba ulangi langkah-langkah tersebut jika Anda merasa hasilnya kurang memadai atau jika ada hal yang ingin Anda ubah.

Analisis data merupakan kegiatan yang harus diketahui semua orang karena merupakan salah satu keterampilan yang paling dibutuhkan di era saat ini. Namun, mempelajari cara melakukan analisis data bisa memakan waktu lama. Dengan ChatGPT, kita bisa meminimalisir semua waktu aktivitas tersebut. 

Pada artikel ini, kita telah membahas cara menghasilkan laporan analitis lengkap dari file CSV dalam 5 langkah. ChatGPT memberi pengguna aktivitas analisis data menyeluruh, mulai dari mengimpor file hingga membuat laporan.
 
 

Cornellius Yudha Wijaya adalah asisten manajer ilmu data dan penulis data. Selama bekerja full-time di Allianz Indonesia, ia suka berbagi tips Python dan Data melalui media sosial dan media tulis.

Stempel Waktu:

Lebih dari KDnugget