From CSV To Complete Analytical Report With ChatGPT In 5 Simple Steps - KDnuggets

Julkaissut Platon

seuraajia: 0

CSV:stä täydelliseen analyyttiseen raporttiin ChatGPT:llä viidessä yksinkertaisessa vaiheessa
Kuva rawpixel.com on Freepik

Riippumatta siitä, millä toimialalla olet, datan analysointi on tärkeämpää kuin koskaan datalähtöisellä aikakaudella. Tietojen analysointi auttaisi yrityksiä säilyttämään kilpailukykynsä ja tarjoamaan mahdollisuuden tehdä parempia päätöksiä.

Tietojen analysoinnin tärkeys saa jokaisen yksilön tietämään, miten data-analyysi tehdään. Joskus data-analyysin tekeminen vie kuitenkin liian paljon aikaa. Siksi voimme luottaa siihen, että ChatGPT luo täydellisen raportin tietotiedostostamme.

Tässä artikkelissa tarkastellaan viittä yksinkertaista vaihetta täydellisten analyyttisten raporttien luomiseksi CSV-tiedostostasi. Nämä viisi vaihetta sisältävät:

Vaihe 1: Tuo CSV-tiedosto

Vaihe 2: Tietojen yhteenveto ja esikäsittely

Vaihe 3: Tietojen analysointi

Vaihe 4: Tietojen visualisointi

Vaihe 5: Raportin luominen

Edellytyksenä tässä artikkelissa oletetaan, että lukija on tilannut ChatGPT Plus -palvelun. Aloitetaan tämä mielessä.

Ensimmäinen vaihe on valmistella analysoitava CSV-tiedosto ja luoda raportti. Tämä tiedosto voi olla peräisin mistä tahansa luotettavasta lähteestä, mutta tässä artikkelissa käytetään Telecom Churn -tietojoukkoa Kaggle.

Varmista, että tiedot on jäsennelty, järjestetty ja niillä on selkeä otsikko. Jos sinulla on tietty kohde, jonka haluat analysoida, älä unohda sisällyttää kyseiset tiedot tiedostoon. Esimerkissämme yritämme suorittaa vaihtuvuussarakkeen analyysin.

Kun tiedot ovat valmiit, liitä ne ChatGPT:hen ja anna mallin tehdä työnsä.

Seuraava vaihe on saada tietojen yhteenveto CSV-tiedostostamme ja esikäsitellä ne. Syötä seuraava kehote, kun lataat tietoja.

Provide the data summary to this file and perform appropriate data processing for the dataset.

Yllä oleva kehote antaa seuraavat tulokset:

Tässä on yhteenveto tietojoukostasi:

Rivien määrä: 3333

Kolumnien numerot: 11

Sarakkeiden nimet:

Kirnu

Tiliviikot

Sopimuksen uusiminen

Data suunnitelma

Datan käyttö

CustServCalls

Päivämin

Päiväpuhelut

Kuukausimaksu

Yliikämaksu

RoamMins

Tietotyypit:

Kokonaisluku: Churn, AccountWeeks, ContractRenewal, DataPlan, CustServCalls, DayCalls

Float: DataUsage, DayMins, Monthly Charge, OverageFee, RoamMins

Puuttuvat arvot: Missään sarakkeessa ei ole puuttuvia arvoja.

ChatGPT pystyi selvästi lukemaan tiedot hyvin ja pystyi tarjoamaan annetun tietojoukon. Seuraava tulos on tietojen esikäsittely ChatGPT:stä.

Koska tietojoukosta ei ole puuttuvia arvoja, tietojen puhdistuksen ja esikäsittelyn pääpaino on:

Tiedoissa olevien poikkeamien tai poikkeamien tarkistaminen.
Tietojen normalisointi tai standardointi tarvittaessa, erityisesti sarakkeissa, joissa on jatkuvia numeerisia arvoja.
Kategorisen tiedon muuntaminen tarvittaessa analysoitavaksi sopivaan muotoon.

Jatketaan näillä vaiheilla.

CSV:stä täydelliseen analyyttiseen raporttiin ChatGPT:llä viidessä yksinkertaisessa vaiheessa

Laatikkokaaviot tarjoavat visuaalisen yleiskatsauksen mahdollisista poikkeavista arvoista jokaisessa tietojoukkosi numeerisessa sarakkeessa. Tässä muutamia havaintoja:

AccountWeeks, CustServCalls, DayCalls: Nämä sarakkeet näyttävät melko normaalin jakauman muutamalla poikkeavalla.
DataUsage, DayMins, MonthlyCharge, OverageFee, RoamMins: Näissä sarakkeissa on myös joitain poikkeavuuksia, mutta ne näyttävät olevan kohtuullisella alueella, kun otetaan huomioon tietojen luonne.
Churn, ContractRenewal, DataPlan: Koska nämä sarakkeet ovat kategorisia/binääritietoja, ne eivät näytä perinteisiä poikkeavia arvoja.

Näiden tietojen perusteella tietojen puhdistamisen ja esikäsittelyn seuraavat vaiheet voivat sisältää:

Poikkeamien käsittely: Voimme päättää, poistammeko, rajoittammeko tai käsittelemmekö poikkeavia arvoja muutoin erityisten analyyttisten tarpeidesi ja verkkotunnuksen tietämyksesi perusteella.
Tietojen muuntaminen: Voimme tarvittaessa normalisoida tai standardoida sarakkeita, kuten DayMins, MonthlyCharge jne., varsinkin jos aiot käyttää algoritmeja, jotka ovat herkkiä datan mittakaavalle.
Kategorinen tietojen koodaus: Muunna kategoriset tiedot analysoitavaksi sopivaan muotoon, jos sellainen muunnos on tarpeen.

Voit antaa ChatGPT:n suorittaa lisävaiheita tietojen puhdistamiseen ja esikäsittelyyn tai antaa sen olla sellaisenaan. Tässä esimerkissä jatkaisimme seuraaviin vaiheisiin.

Seuraavaksi teemme data-analyysin ChatGPT:llä. Tietojen analysointi riippuu siitä, mitä haluat saavuttaa. Meidän tapauksessamme haluamme suorittaa data-analyysin Churn POV:sta.

Käytämme seuraavaa kehotetta suorittaaksemme data-analyysin ChatGPT:llä yllä olevassa tapauksessa.

Please perform the data analysis based on the data above with respect to the churn data.

Tietojen analyysi näkyy seuraavassa tuloksessa.

Suorittaaksemme vaihtuvuustietojen data-analyysin keskitymme ymmärtämään, kuinka eri tekijät liittyvät asiakkaiden vaihtumiseen. Vaihtuvuus, joka on binäärimuuttuja (0 ei churn, 1 churn), analysoidaan tyypillisesti luokittelumenetelmillä ja tutkimalla suhteita muihin muuttujiin. Tässä on suunnitelma:

Korrelaatioanalyysi: Aluksi tarkastelemme, kuinka kukin numeerinen ominaisuus korreloi vaihtuvuuden kanssa. Tämä antaa meille alustavan käsityksen siitä, mitkä tekijät voivat liittyä läheisemmin vaihtumiseen.

Tilastolliset testit: Kategorisille muuttujille, kuten ContractRenewal ja DataPlan, voimme käyttää tilastollisia testejä nähdäksemme, onko vaihtuvuusmäärissä merkittäviä eroja eri luokkien välillä.

Visuaalinen analyysi: Luomme visualisointeja näiden suhteiden tutkimiseksi edelleen. Tähän sisältyy vaihtuvuusasteiden vertailu eri ryhmien välillä ja keskeisten muuttujien piirtäminen vaihtuvuuden mukaan.

Yhteenvetotilastot: Toimitamme yhteenvetotilastot eri ryhmille vaihtuvuuden tilan perusteella nähdäksemme, onko tuloissa tai jakaumissa havaittavia eroja.

Aloitetaan korrelaatioanalyysillä ja siirrytään sitten seuraaviin vaiheisiin.

Korrelaatioanalyysi Churnin kanssa

Eri muuttujien korrelaatio vaihtuvuuden kanssa on seuraava (voimakkaimmasta negatiivisesta vahvimpaan positiiviseen korrelaatioon):

Negatiivinen korrelaatio:

Sopimuksen uusiminen: Vahvin negatiivinen korrelaatio. Osoittaa, että asiakkaat, jotka eivät uusita sopimuksiaan, vaikeuttavat todennäköisemmin.
DataPlan: Asiakkaat, joilla ei ole datasopimusta, vaikeutuvat hieman todennäköisemmin.
DataUsage: Korkeampi tiedonsiirto vähentää hieman vaihtuvuuden todennäköisyyttä.

Positiivinen korrelaatio:

AccountWeeks, DayCalls: Erittäin heikko positiivinen korrelaatio, mikä viittaa vähäiseen vaikutukseen vaihtumiseen.
RoamMins: Vaihtuvuuden todennäköisyys kasvaa hieman ja roamingminuutit lisääntyvät.
MonthlyCharge: Hieman korkeammat vaihtuvuusprosentit korkeammilla kuukausimaksuilla.
OverageFee: Korkeammat ylikulutusmaksut korreloivat kohtalaisesti lisääntyneen vaihtuvuuden kanssa.
Päiväminuutit: Suuremmat päivittäiset minuutit korreloivat kohtalaisesti lisääntyneen vaihtuvuuden kanssa.
CustServCalls: Vahva positiivinen korrelaatio. Useammat asiakaspalvelupuhelut liittyvät korkeampiin vaihtuvuusprosentteihin.

Näiden korrelaatioiden perusteella näyttää siltä, että sellaiset tekijät kuin sopimuksen uusiminen, asiakaspalvelupuhelut, päivittäiset minuutit ja ylijäämämaksut liittyvät läheisemmin vaihtumiseen. Voimme tutkia näitä tekijöitä edelleen visuaalisen analyysin ja tilastollisten testien avulla, erityisesti kategorisille muuttujille, kuten ContractRenewal ja DataPlan.

Visuaalinen analyysi

CSV:stä täydelliseen analyyttiseen raporttiin ChatGPT:llä viidessä yksinkertaisessa vaiheessa

Visualisaatiot tarjoavat arvokkaita näkemyksiä eri muuttujien ja vaihtuvuuden välisestä suhteesta:

ContractRenewalin ja DataPlanin vaihtuvuus:

Sopimuksen uusiminen: Merkittävä ero vaihtuvuusasteessa on ilmeinen. Asiakkailla, jotka eivät uusineet sopimuksiaan, vaihtuvuus on korkeampi.
DataPlan: Vaihtuvuussuhteissa on huomattava ero sen mukaan, onko asiakkailla datasopimus vai ei. Asiakkailla, joilla ei ole datasuunnitelmaa, on suurempi vaihtuvuus.

Numeeriset muuttujat (CustServCalls, DayMins, MonthlyCharge, OverageFee) vaihtuvuuden mukaan:

CustServCalls: Asiakkaat, joilla on suurempi määrä asiakaspalvelupuheluita, vaimentavat yleensä enemmän.
DayMins: Suuremmat päivittäiset minuutit liittyvät suurempaan vaihtuvuuden todennäköisyyteen.
MonthlyCharge: Korkeammat kuukausimaksut korreloivat lisääntyneen vaihtuvuussuhteen kanssa.
OverageFee: Korkeammat ylikulutusmaksut liittyvät myös lisääntyneeseen vaihtumiseen.

Johtopäätökset analyysistä

Sopimuksen uusimisen tila ja datasuunnitelman olemassaolo ovat merkittäviä tekijöitä asiakkaiden vaihtumisessa.
Korkea käyttö (päiväminuutteina ilmaistuna) ja korkeat maksut (kuukausimaksut ja ylimääräiset maksut) liittyvät korkeampiin vaihtuvuusprosentteihin.
Asiakaspalvelupuheluiden suurempi määrä on vahva osoitus mahdollisesta vaihtumisesta.

Seuraavat vaiheet

Näiden näkemysten perusteella voidaan kehittää kohdennettuja strategioita vaihtuvuuden vähentämiseksi, kuten asiakaspalvelun parantaminen, hinnoittelustrategioiden tarkistaminen tai sopimusten uusimisen ja datapakettien tilausten kannustaminen.

Yhdellä kehotuksella voimme nähdä, kuinka hyvin ChatGPT voisi antaa meille täydellisen data-analyysin ja saada tietoa tiedoista. Voit muokata analyysin tavoitteita ja aloittaa sieltä.

Tietojen visualisointi on tukitoiminto data-analyysin ja kokonaisraportin parantamiseksi. Visualisoinnin avulla voimme saada kattavamman raportin tietojemme ymmärtämiseksi.

Seuraavan kehotteen avulla voimme suorittaa tietojen visualisoinnin ChatGPT:llä.

Please perform data visualization from the data analysis to explain the data better.

Tietojen analysoinnin tulosten ymmärtämisen parantamiseksi luon sarjan visualisointeja, jotka kuvaavat selkeästi tärkeimmät asiakasvaihtumiseen liittyvät havainnot. Näihin visualisointeihin kuuluvat:

Pylväskaaviot kategorisille muuttujille:

Vaihtuvuussuhteiden vertailu asiakkaille, joilla on sopimus uusittu ja ilman.
Vaihtuvuussuhteiden vertailu asiakkaille, joilla on ja ilman datasopimusta.
Numeeristen avainmuuttujien laatikkokaaviot:

Asiakaspalvelupuhelut vs.

Päivittäiset minuutit vs.
Kuukausimaksut vs.
Ylimääräiset maksut vs.

Korrelaation lämpökartta:

Visualisoida kaikkien muuttujien korrelaatio vaihtuvuuden kanssa.

CSV:stä täydelliseen analyyttiseen raporttiin ChatGPT:llä viidessä yksinkertaisessa vaiheessa

Visualisointi näyttäisi kaikki tärkeät kaaviot, jotka kapseloivat koko tietojoukon. Pyydämme jokaisesta tontista tarkempia kuvauksia, joita voit kokeilla itsenäisesti.

Viimeinen vaihe on luoda raportti edellisten vaiheiden perusteella. Valitettavasti ChatGPT ei välttämättä tallenna kaikkea kuvausta ja oivalluksia data-analyysistä, mutta meillä on silti yksinkertainen versio raportista.

Luo PDF-raportti edellisen analyysin perusteella seuraavan kehotteen avulla.

Please provide me with the pdf report from the first step to the last step.

Saat PDF-linkkituloksen edellisen analyysisi kanssa. Yritä toistaa vaiheet, jos tulos on mielestäsi riittämätön tai jos haluat muuttaa asioita.

Tietojen analysointi on toimintaa, joka kaikkien tulisi tietää, koska se on yksi tämän aikakauden vaadituimmista taidoista. Tietojen analysoinnin oppiminen voi kuitenkin kestää kauan. ChatGPT:n avulla voimme minimoida kaiken toiminta-ajan.

Tässä artikkelissa olemme keskustelleet siitä, kuinka täydellinen analyyttinen raportti luodaan CSV-tiedostoista viidessä vaiheessa. ChatGPT tarjoaa käyttäjille päästä päähän data-analyysitoimintaa tiedoston tuomisesta raportin tuottamiseen.

Cornelius Yudha Wijaya on datatieteen apulaisjohtaja ja tietojen kirjoittaja. Työskennellessään kokopäiväisesti Allianz Indonesiassa hän mielellään jakaa Python- ja Data-vinkkejä sosiaalisen median ja kirjoitusmedian kautta.