Od pliku CSV do kompletnego raportu analitycznego za pomocą ChatGPT w 5 prostych krokach - KDnuggets

Opublikowane ponownie przez Plato

Obserwuje: 0

Od pliku CSV do kompletnego raportu analitycznego za pomocą ChatGPT w 5 prostych krokach
Image by rawpixel.com on Freepik

Niezależnie od tego, w jakiej branży działasz, umiejętność analizowania danych jest ważniejsza niż kiedykolwiek w erze opartej na danych. Analiza danych umożliwiłaby przedsiębiorstwom utrzymanie konkurencyjności i umożliwiłaby podejmowanie lepszych decyzji.

Znaczenie analizy danych sprawia, że każda osoba wie, jak przeprowadzić analizę danych. Czasami jednak analiza danych zajmuje zbyt dużo czasu. Dlatego mogliśmy polegać na ChatGPT, aby utworzyć pełny raport z naszego pliku danych.

W tym artykule omówiono pięć prostych kroków tworzenia kompletnych raportów analitycznych z pliku CSV. Te pięć kroków obejmuje:

Krok 1: Importowanie pliku CSV

Krok 2: Podsumowanie i wstępne przetwarzanie danych

Krok 3: Analiza danych

Krok 4: Wizualizacja danych

Krok 5: Generowanie raportu

Warunkiem wstępnym w tym artykule jest założenie, że czytelnik subskrybuje ChatGPT Plus. Mając to na uwadze, zacznijmy.

Pierwszym krokiem jest przygotowanie pliku CSV, który chcesz przeanalizować i utworzenie raportu. Ten plik może pochodzić z dowolnego wiarygodnego źródła, ale w tym artykule wykorzystany zostanie zbiór danych Telecom Churn Kaggle.

Upewnij się, że dane są uporządkowane, zorganizowane i mają przejrzysty nagłówek. Jeśli masz konkretny cel, który chcesz przeanalizować, nie zapomnij uwzględnić tych danych w pliku. W naszym przykładzie próbowalibyśmy przeprowadzić analizę dla kolumny rezygnacji.

Gdy dane będą gotowe, dołącz je do ChatGPT i pozwól modelowi wykonać swoją pracę.

Następnym krokiem jest pobranie podsumowania danych z naszego pliku CSV i wstępne ich przetworzenie. Podczas przesyłania danych wprowadź następujący monit.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Powyższy monit daje następujące wyniki:

Oto podsumowanie Twojego zbioru danych:

Liczba rzędów: 3333

Liczba kolumn: 11

Nazwy kolumn:

Maselnica

Tygodnie konta

Odnowienie umowy

DataPlan

Użycie danych

Połączenia CustServ

Dzień Min

Połączenia dzienne

Miesięczna opłata

Opłata za nadwyżkę

WędrujMin

Typy danych:

Liczba całkowita: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

Float: wykorzystanie danych, minuty dzienne, opłata miesięczna, opłata za nadwyżkę, minuty roamingu

Brakujące wartości: W żadnej kolumnie nie brakuje żadnych wartości.

ChatGPT najwyraźniej dobrze odczytał dane i był w stanie dostarczyć podany zbiór danych. Następnym rezultatem jest wstępne przetwarzanie danych z ChatGPT.

Ponieważ w zbiorze danych nie brakuje żadnych wartości, główny nacisk podczas czyszczenia i wstępnego przetwarzania danych będzie położony na:

Sprawdzanie, czy w danych nie występują wartości odstające lub anomalie.
W razie potrzeby normalizacja lub standaryzacja danych, szczególnie w przypadku kolumn z ciągłymi wartościami liczbowymi.
W razie potrzeby konwersja danych kategorycznych do formatu odpowiedniego do analizy.

Kontynuujmy te kroki.

Od pliku CSV do kompletnego raportu analitycznego za pomocą ChatGPT w 5 prostych krokach

Wykresy pudełkowe zapewniają wizualny przegląd potencjalnych wartości odstających w każdej kolumnie liczbowej zbioru danych. Oto kilka obserwacji:

AccountWeeks, CustServCalls, DayCalls: te kolumny pokazują dość normalny rozkład z kilkoma wartościami odstającymi.
DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: w tych kolumnach również znajdują się wartości odstające, ale wydają się one mieścić w rozsądnym zakresie, biorąc pod uwagę charakter danych.
Rezygnacja, Odnowienie Kontraktu, DataPlan: Ponieważ są to dane kategoryczne/binarne, kolumny te nie pokazują tradycyjnych wartości odstających.

Biorąc pod uwagę te informacje, kolejne etapy czyszczenia i wstępnego przetwarzania danych mogą obejmować:

Obsługa wartości odstających: możemy zdecydować, czy usunąć, ograniczyć lub w inny sposób zająć się wartościami odstającymi, w oparciu o Twoje konkretne potrzeby analityczne i wiedzę dziedzinową.
Transformacja danych: W razie potrzeby możemy znormalizować lub ujednolicić kolumny typu DayMins, MonthlyCharge itp., szczególnie jeśli planujesz używać algorytmów wrażliwych na skalę danych.
Kodowanie danych kategorycznych: Konwertuj dane kategoryczne do formatu odpowiedniego do analizy, jeśli wymagana jest taka transformacja.

Możesz pozwolić ChatGPT wykonać dodatkowe kroki w celu czyszczenia i wstępnego przetwarzania danych lub pozwolić, aby pozostało tak, jak jest. W tym przykładzie przejdziemy do następnych kroków.

Następnie przeprowadzilibyśmy analizę danych za pomocą ChatGPT. Analiza danych zależy od tego, co chcesz osiągnąć. W naszym przypadku chcemy przeprowadzić analizę danych z Churn POV.

Aby przeprowadzić analizę danych za pomocą ChatGPT w powyższym przypadku, używamy następującego monitu.

Please perform the data analysis based on the data above with respect to the churn data.

Analizę danych można zobaczyć w poniższym wyniku.

Aby przeprowadzić analizę danych w odniesieniu do danych o odejściach klientów, skupimy się na zrozumieniu, w jaki sposób różne czynniki odnoszą się do rezygnacji klientów. Rezygnacja, będąca zmienną binarną (0 dla braku rezygnacji, 1 dla rezygnacji), jest zazwyczaj analizowana za pomocą metod klasyfikacji i badania relacji z innymi zmiennymi. Oto plan:

Analiza korelacji: Na początek przyjrzymy się, jak każda cecha liczbowa koreluje z rezygnacją. Daje nam to wstępne pojęcie o tym, które czynniki mogą być ściślej powiązane z odejściem pracowników.

Testy statystyczne: W przypadku zmiennych kategorycznych, takich jak Odnowienie Umowy i DataPlan, możemy zastosować testy statystyczne, aby sprawdzić, czy istnieją znaczące różnice we wskaźnikach rezygnacji w różnych kategoriach.

Analiza wizualna: utworzymy kilka wizualizacji, aby dokładniej zbadać te relacje. Obejmuje to porównywanie wskaźników rezygnacji w różnych grupach i wykreślanie kluczowych zmiennych w odniesieniu do rezygnacji.

Statystyki podsumowujące: zapewnimy statystyki podsumowujące dla różnych grup w oparciu o status rezygnacji, aby sprawdzić, czy istnieją zauważalne różnice w średnich lub rozkładach.

Zacznijmy od analizy korelacji, a następnie przejdźmy do kolejnych kroków.

Analiza korelacji z rezygnacją

Korelacja różnych zmiennych z odejściem wygląda następująco (od najsilniejszej korelacji negatywnej do najsilniejszej korelacji dodatniej):

Ujemna korelacja:

Odnowienie Umowy: Najsilniejsza ujemna korelacja. Wskazuje, że klienci, którzy nie przedłużą umowy, są bardziej skłonni do rezygnacji.
DataPlan: Klienci bez planu transmisji danych są nieco bardziej skłonni do rezygnacji.
DataUsage: Większe wykorzystanie danych nieznacznie zmniejsza prawdopodobieństwo rezygnacji.

Pozytywna korelacja:

AccountWeeks, DayCalls: Bardzo słaba pozytywna korelacja, sugerująca minimalny wpływ na odpływ klientów.
RoamMins: Nieznaczny wzrost prawdopodobieństwa rezygnacji wraz ze zwiększoną liczbą minut w roamingu.
Opłata miesięczna: Nieco wyższe wskaźniki rezygnacji przy wyższych opłatach miesięcznych.
Opłata za nadwyżkę: Wyższe opłaty za nadwyżkę są umiarkowanie skorelowane ze zwiększoną rezygnacją.
DayMins: Wyższe dzienne minuty są umiarkowanie skorelowane ze zwiększoną rezygnacją.
CustServCalls: Silna dodatnia korelacja. Więcej połączeń z obsługą klienta wiąże się z wyższymi wskaźnikami rezygnacji.

Na podstawie tych korelacji wydaje się, że czynniki takie jak odnowienie umowy, rozmowy z obsługą klienta, codzienne minuty i opłaty za nadwyżki są ściślej powiązane z rezygnacją. Możemy dalej badać te czynniki poprzez analizę wizualną i testy statystyczne, szczególnie w przypadku zmiennych kategorycznych, takich jak ContractRenewal i DataPlan.

Analiza wizualna

Od pliku CSV do kompletnego raportu analitycznego za pomocą ChatGPT w 5 prostych krokach

Wizualizacje oferują cenny wgląd w związek między różnymi zmiennymi a odejściem:

Rezygnacja w wyniku odnowienia umowy i DataPlan:

Odnowienie kontraktu: Wyraźna jest znacząca różnica we wskaźnikach rezygnacji. Klienci, którzy nie przedłużyli umowy, wykazują wyższy wskaźnik rezygnacji.
DataPlan: Istnieje zauważalna różnica we wskaźnikach rezygnacji w zależności od tego, czy klienci mają plan transmisji danych, czy nie, przy czym klienci bez planu transmisji danych wykazują większą utratę.

Zmienne numeryczne (CustServCalls, DayMins, MonthlyCharge, OverageFee) według rezygnacji:

CustServCalls: Klienci z większą liczbą połączeń z obsługą klienta częściej odchodzą.
DayMins: Wyższe dzienne minuty wiążą się z większym prawdopodobieństwem rezygnacji.
Opłata miesięczna: wyższe opłaty miesięczne korelują ze zwiększonym współczynnikiem rezygnacji.
Opłata za nadwyżkę: Wyższe opłaty za nadwyżkę są również powiązane ze zwiększoną rezygnacją.

Wnioski z analizy

Status odnowienia umowy i obecność planu transmisji danych to istotne czynniki wpływające na odpływ klientów.
Wysokie wykorzystanie (w zakresie minut dziennych) i wysokie opłaty (opłaty miesięczne i opłaty za nadwyżkę) wiążą się z wyższymi wskaźnikami rezygnacji.
Większa liczba telefonów do obsługi klienta jest silnym wskaźnikiem potencjalnej rezygnacji.

Następne kroki

W oparciu o te spostrzeżenia można opracować ukierunkowane strategie mające na celu ograniczenie rezygnacji, takie jak poprawa obsługi klienta, zmiana strategii cenowych lub oferowanie zachęt za odnawianie umów i subskrypcje planów transmisji danych.

Za pomocą jednego monitu możemy zobaczyć, jak dobrze ChatGPT może zapewnić nam pełną analizę danych i wyciągnąć wnioski z danych. Możesz dostosować cele analizy i zacząć od tego.

Wizualizacja danych jest działaniem pomocniczym mającym na celu ulepszenie analizy danych i ogólnego raportu. Dzięki wizualizacji możemy uzyskać bardziej kompleksowy raport pozwalający zrozumieć nasze dane.

Korzystając z poniższego podpowiedzi, możemy wykonać wizualizację danych za pomocą ChatGPT.

Please perform data visualization from the data analysis to explain the data better.

Aby lepiej zrozumieć wyniki analizy danych, stworzę serię wizualizacji, które jasno przedstawiają kluczowe wnioski związane z odpływem klientów. Wizualizacje te będą obejmować:

Wykresy słupkowe dla zmiennych jakościowych:

Porównanie współczynników odejść klientów z przedłużeniem umowy i bez niej.
Porównanie współczynników rezygnacji klientów z planem transmisji danych i bez niego.
Wykresy pudełkowe dla kluczowych zmiennych numerycznych:

Rozmowy telefoniczne z obsługą klienta a rezygnacja.

Dzienne minuty a rezygnacja.
Opłaty miesięczne a rezygnacja.
Opłaty za nadwyżkę a rezygnacja.

Mapa cieplna korelacji:

Aby zwizualizować korelację wszystkich zmiennych z odejściem.

Od pliku CSV do kompletnego raportu analitycznego za pomocą ChatGPT w 5 prostych krokach

Wizualizacja pokaże wszystkie ważne wykresy obejmujące cały zbiór danych. Możemy poprosić o bardziej szczegółowe opisy każdej działki, które możesz wypróbować niezależnie.

Ostatnim krokiem jest wygenerowanie raportu na podstawie poprzednich kroków. Niestety ChatGPT może nie uchwycić całego opisu i wniosków z analizy danych, ale nadal możemy mieć prostą wersję raportu.

Skorzystaj z poniższego monitu, aby wygenerować raport w formacie PDF na podstawie poprzedniej analizy.

Please provide me with the pdf report from the first step to the last step.

Otrzymasz wynik łącza PDF z uwzględnioną wcześniejszą analizą. Spróbuj powtórzyć kroki, jeśli uważasz, że wynik jest niewystarczający lub jeśli są rzeczy, które chcesz zmienić.

Analiza danych to czynność, którą każdy powinien znać, gdyż jest to jedna z najbardziej wymaganych umiejętności w obecnych czasach. Jednak nauczenie się przeprowadzania analizy danych może zająć dużo czasu. Dzięki ChatGPT możemy zminimalizować cały czas aktywności.

W tym artykule omówiliśmy, jak w 5 krokach wygenerować pełny raport analityczny z plików CSV. ChatGPT zapewnia użytkownikom kompleksową analizę danych, od importu pliku po utworzenie raportu.

Cornelius Yudha Wijaya jest kierownikiem i asystentem analityka danych oraz autorem danych. Pracując na pełny etat w Allianz Indonesia, uwielbia dzielić się wskazówkami dotyczącymi Pythona i danych za pośrednictwem mediów społecznościowych i mediów.