CSV-st täieliku analüütilise aruandeni koos ChatGPT-ga viie lihtsa sammuga – KDnuggets

CSV-st täieliku analüütilise aruandeni koos ChatGPT-ga 5 lihtsa sammuga – KDnuggets

Allikasõlm: 2982942

CSV-st täieliku analüütilise aruandeni koos ChatGPT-ga viie lihtsa sammuga
Image by rawpixel.com on Freepik
 

Ükskõik, millises äris te ka ei tegele, on andmete analüüsimise teadmine andmepõhisel ajastul olulisem kui kunagi varem. Andmeanalüüs võimaldaks ettevõtetel konkurentsis püsida ja võimaldaks teha paremaid otsuseid.

Andmeanalüüsi tähtsus sunnib iga inimest teadma, kuidas andmeanalüüsi teha. Mõnikord kulub andmete analüüsimiseks aga liiga palju aega. Seetõttu võime oma andmefailist täieliku aruande loomiseks toetuda ChatGPT-le.

See artikkel uurib viit lihtsat sammu CSV-failist täielike analüütiliste aruannete loomiseks. Need viis sammu hõlmavad järgmist:

1. samm: CSV-faili importimine

2. samm: andmete kokkuvõte ja eeltöötlus

3. samm: andmete analüüs

4. samm: andmete visualiseerimine

5. samm: aruannete loomine

Eeltingimusena eeldatakse selles artiklis, et lugeja on ChatGPT Plusi tellinud. Seda silmas pidades alustame.

Esimene samm on analüüsitava CSV-faili ettevalmistamine ja aruande loomine. See fail võib pärineda mis tahes usaldusväärsest allikast, kuid see artikkel kasutaks Telecom Churni andmestikku Kaagutama.

Veenduge, et andmed oleksid struktureeritud, organiseeritud ja selge päisega. Kui teil on kindel sihtmärk, mida soovite analüüsida, ärge unustage neid andmeid faili lisada. Meie näites prooviksime läbi viia tühjendusveeru analüüsi.

Kui andmed on valmis, lisage need ChatGPT-le ja laske mudelil oma tööd teha.

Järgmine samm on hankida meie CSV-failist andmete kokkuvõte ja need eeltöödelda. Sisestage andmete üleslaadimise ajal järgmine viip.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Ülaltoodud viip annab järgmised tulemused:

Siin on teie andmestiku kokkuvõte:

Ridade arv: 3333

Veergude arv: 11

Veergude nimed:

Piimapütt

Kontonädalad

Lepingu uuendamine

DataPlan

Andmekasutus

CustServCalls

PäevMins

Päevakõned

Kuutasu

Üleealine tasu

RoamMins

Andmetüübid:

Täisarv: katkestamine, kontonädalad, lepingu uuendamine, andmeplaan, klienditeeninduskõned, päevakõned

Float: andmekasutus, päevaminutid, kuutasu, ülekasutustasu, rändlusmiinid

Puuduvad väärtused: Üheski veerus pole puuduvaid väärtusi.

ChatGPT oskas selgelt andmeid hästi lugeda ja suutis antud andmestikku pakkuda. Järgmine tulemus on andmete eeltöötlus ChatGPT-st.

Kuna andmekogumis puuduvad väärtused, keskendutakse andmete puhastamisel ja eeltöötlusel järgmisele:

  • Andmetes esinevate kõrvalekallete või kõrvalekallete kontrollimine.
  • Vajadusel andmete normaliseerimine või standardimine, eriti pidevate arvväärtustega veergude puhul.
  • Kategooriliste andmete teisendamine vajadusel analüüsiks sobivasse vormingusse.

Jätkame nende sammudega. 
 

CSV-st täieliku analüütilise aruandeni koos ChatGPT-ga viie lihtsa sammuga
 

Kastigraafikud annavad visuaalse ülevaate võimalikest kõrvalekalletest teie andmestiku igas numbrilises veerus. Siin on mõned tähelepanekud:

  • AccountWeeks, CustServCalls, DayCalls: need veerud näitavad üsna normaalset jaotust mõne kõrvalekaldega.
  • DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: need veerud näitavad ka mõningaid kõrvalekaldeid, kuid need näivad olevat andmete olemust arvestades mõistlikus vahemikus.
  • Churn, ContractRenewal, DataPlan: kuna need on kategoorilised/binaarsed andmed, ei näita need veerud traditsioonilisi kõrvalekaldeid.

Seda teavet arvesse võttes võivad andmete puhastamise ja eeltöötluse järgmised sammud hõlmata järgmist.

  • Kõrvalekalde käsitlemine: saame otsustada, kas eemaldada, piirata või muul viisil käsitleda kõrvalekaldeid, lähtudes teie konkreetsetest analüütilistest vajadustest ja domeenialaste teadmistest.
  • Andmete teisendamine: vajadusel saame normaliseerida või standardida veerge, nagu DayMins, MonthlyCharge jne, eriti kui kavatsete kasutada algoritme, mis on andmemahu suhtes tundlikud.
  • Kategooriline andmete kodeerimine: teisendage kategoorilised andmed analüüsiks sobivasse vormingusse, kui selline teisendus on vajalik.

Saate lasta ChatGPT-l teha täiendavaid samme andmete puhastamiseks ja eeltöötluseks või lasta sellel olla nii nagu see on. Selle näite puhul jätkame järgmiste sammudega.

Järgmisena teeme andmeanalüüsi ChatGPT-ga. Andmete analüüs sõltub sellest, mida soovite saavutada. Meie puhul tahame teha andmete analüüsi Churn POV-ist.

Kasutame ülaltoodud juhtumi puhul ChatGPT-ga andmeanalüüsi tegemiseks järgmist viipa.

Please perform the data analysis based on the data above with respect to the churn data.

 

Andmete analüüsi on näha järgmises tulemuses.

Andmeanalüüsi teostamiseks seoses müügist loobumise andmetega keskendume sellele, kuidas mõista, kuidas erinevad tegurid on seotud klientide vähenemisega. Tühistamist, mis on binaarne muutuja (0 korral churn, 1, churn), analüüsitakse tavaliselt klassifitseerimismeetodite ja seoste uurimisega teiste muutujatega. Siin on plaan:

  1. Korrelatsioonianalüüs: Alustuseks vaatame, kuidas iga numbriline tunnus korreleerub churn'iga. See annab meile esmase arusaama sellest, millised tegurid võivad olla katkemisega tihedamalt seotud.
  1. Statistilised testid. Kategooriliste muutujate puhul, nagu ContractRenewal ja DataPlan, saame kasutada statistilisi teste, et näha, kas eri kategooriate vahel on märkimisväärseid erinevusi loobumissageduses.
  1. Visuaalne analüüs: nende suhete edasiseks uurimiseks loome mõned visualiseeringud. See hõlmab eri rühmade loobumismäärade võrdlemist ja peamiste muutujate graafiku koostamist jaotuse suhtes.
  1. Kokkuvõtlik statistika: pakume erinevate rühmade kohta kokkuvõtvat statistikat, mis põhineb väljalangevuse olekul, et näha, kas keskmistes või jaotuses on märgatavaid erinevusi.

Alustame korrelatsioonianalüüsiga ja jätkame siis järgmiste sammudega.

Korrelatsioonianalüüs Churniga

Erinevate muutujate korrelatsioon churn'iga on järgmine (tugevaimast negatiivsest tugevaima positiivseni):

Negatiivne korrelatsioon:

  • Lepingu uuendamine: tugevaim negatiivne korrelatsioon. Näitab, et kliendid, kes oma lepingut ei pikenda, loobuvad tõenäolisemalt.
  • DataPlan: Kliendid, kellel pole andmeplaani, loobuvad veidi suurema tõenäosusega.
  • Andmekasutus: suurem andmekasutus vähendab veidi katkemise tõenäosust.

Positiivne korrelatsioon:

  • AccountWeeks, DayCalls: väga nõrk positiivne korrelatsioon, mis viitab minimaalsele mõjule katkestamisele.
  • RoamMins: rändlusminutite arvu suurenemise tõttu väheneb veidi tagasilöögi tõenäosus.
  • Kuutasu: veidi kõrgem loobumismäär koos suurenenud kuutasudega.
  • OverageFee: kõrgemad üleelamistasud on mõõdukalt korrelatsioonis suurenenud loobumisega.
  • Päevaminutid: päevased minutid on mõõdukas korrelatsioonis suurenenud tööst lahkumisega.
  • CustServCalls: tugev positiivne korrelatsioon. Rohkem klienditeeninduskõnesid on seotud suuremate katkestamismääradega.

Nende seoste põhjal näib, et sellised tegurid nagu lepingu pikendamine, klienditeeninduse kõned, päevaminutid ja ülemäärased tasud on tihedamalt seotud katkemisega. Saame neid tegureid täiendavalt uurida visuaalse analüüsi ja statistiliste testide abil, eriti selliste kategooria muutujate puhul nagu ContractRenewal ja DataPlan.

Visuaalne analüüs

 

CSV-st täieliku analüütilise aruandeni koos ChatGPT-ga viie lihtsa sammuga
 

Visualisatsioonid pakuvad väärtuslikku ülevaadet erinevate muutujate vahelisest seosest.

Tühistamine ContractRenewali ja DataPlani järgi:

  • Lepingu pikendamine: märkimisväärne erinevus loobumismäärades on ilmne. Kliendid, kes ei pikendanud oma lepingut, näitavad suuremat lepingust loobumise määra.
  • Andmeplaan: loobumismäärades on märgatav erinevus olenevalt sellest, kas klientidel on andmepakett või mitte, kusjuures neil, kellel pole andmeplaani, on suurem loobumine.

Numbrilised muutujad (CustServCalls, DayMins, Monthly Charge, OverageFee) churni järgi:

  • CustServCalls: kliendid, kellel on suurem arv klienditeeninduskõnesid, kipuvad rohkem helistama.
  • DayMins: Kõrgemad päevased minutid on seotud suurema katkemise tõenäosusega.
  • Kuutasu: kõrgemad kuutasud on korrelatsioonis suurenenud loobumismääraga.
  • OverageFee: kõrgemad ülemäärased tasud on seotud ka suurenenud loobumisega.

Analüüsi järeldused

  • Lepingu pikendamise olek ja andmeplaani olemasolu on olulised tegurid klientide katkemisel.
  • Suur kasutus (päevaminutite osas) ja kõrged tasud (kuutasud ja ülemäärased tasud) on seotud suuremate loobumismääradega.
  • Suurem klienditeeninduse kõnede arv on tugev indikaator võimalikust katkestamisest.

Järgmised sammud

Nende arusaamade põhjal saab välja töötada sihipäraseid strateegiaid katkestamise vähendamiseks, näiteks parandada klienditeenindust, vaadata läbi hinnastrateegiaid või pakkuda stiimuleid lepingute uuendamiseks ja andmeplaanide tellimiseks.

Ühe viipaga näeme, kui hästi suudab ChatGPT anda meile täieliku andmeanalüüsi ja anda andmete põhjal ülevaate. Saate analüüsi eesmärke kohandada ja sealt alustada.

Andmete visualiseerimine on toetav tegevus andmete analüüsi ja üldise aruande täiustamiseks. Visualiseerimise abil saame oma andmete mõistmiseks põhjalikuma aruande.

Kasutades järgmist viipa, saame andmete visualiseerimise läbi viia ChatGPT-ga.

Please perform data visualization from the data analysis to explain the data better.

Andmeanalüüsi tulemuste mõistmise parandamiseks loon seeria visualiseerimisi, mis kajastavad selgelt klientide vähenemisega seotud peamisi leide. Need visualiseeringud hõlmavad järgmist:

  1. Ribagraafikud kategooriliste muutujate jaoks:
  • Lepingu pikendamise ja uuendamiseta klientide loobumismäärade võrdlemine.
  • Andmeplaaniga ja ilma klientide loobumismäärade võrdlemine.
  • Peamiste arvmuutujate kastigraafikud:
  1. Klienditeeninduse kõned vs.
  • Päevased minutid vs.
  • Kuutasud vs.
  • Ülejäägitasud vs.
  1. Korrelatsiooni soojuskaart:

Visualiseerida kõigi muutujate korrelatsiooni churniga.

 

CSV-st täieliku analüütilise aruandeni koos ChatGPT-ga viie lihtsa sammuga
 

Visualiseerimine näitaks kõiki olulisi graafikuid, mis kapseldavad kogu andmestikku. Iga krundi kohta saame küsida täpsemaid kirjeldusi, mida saate iseseisvalt proovida.

Viimane samm on aruande genereerimine eelmiste sammude põhjal. Kahjuks ei pruugi ChatGPT kogu andmeanalüüsi kirjeldust ja ülevaadet koguda, kuid meil võib siiski olla aruande lihtne versioon.

Kasutage järgmist viipa, et luua eelmise analüüsi põhjal PDF-aruanne.

Please provide me with the pdf report from the first step to the last step.

Saate PDF-lingi tulemuse koos eelmise analüüsiga. Proovige samme korrata, kui teile tundub, et tulemus on ebapiisav või kui on asju, mida soovite muuta.

Andmeanalüüs on tegevus, mida kõik peaksid teadma, kuna see on praegusel ajastul üks nõutavamaid oskusi. Andmeanalüüsi tegemise õppimine võib aga võtta kaua aega. ChatGPT abil saame kogu selle tegevuse aja minimeerida. 

Selles artiklis oleme arutanud, kuidas luua CSV-failidest täielik analüütiline aruanne viie sammuga. ChatGPT pakub kasutajatele täielikku andmeanalüüsi, alates faili importimisest kuni aruande koostamiseni.
 
 

Cornelius Yudha Wijaya on andmeteaduse juhi assistent ja andmete kirjutaja. Allianz Indonesias täiskohaga töötades armastab ta sotsiaalmeedia ja kirjutamismeedia kaudu Pythoni ja Data näpunäiteid jagada.

Ajatempel:

Veel alates KDnuggets