Neredni podatki so lepi

Izvorno vozlišče: 1092189

Neredni podatki so lepi

Ko so te vrste podatkov očiščene, naredijo več kot samo prikaz organiziranih nizov podatkov. Razkrivajo neomejene možnosti, analitika umetne inteligence pa lahko te možnosti razkrije hitreje in učinkoviteje kot kadar koli prej.


Sponzorirano objavo.

Image

Od podatkovnih znanstvenikov se je vedno pričakovalo, da bodo podatke urejali v 'aha' trenutke in pripovedovali zgodbe, ki lahko dosežejo širše poslovno občinstvo. Kakšni pa so stroški te kuracije?

Pravi signal je v šumu

Čisti podatki ne pomagajo veliko.

Vsako združevanje in vrtenje, izvedeno na naborih podatkov, zmanjša skupno količino informacij, ki so na voljo za analizo. To pametno rudarjenje tem NLP na poljih s prostim besedilom je bilo brez dvoma zelo uporabno, vendar je neobdelano besedilo bolj zanimivo. Morda so ti 'nesmiselni' neobdelani dnevniki senzorjev ravno to ali pa tudi ne.

Le nekaj primerov neurejenih podatkov, ki smo jih videli:

  • Črkovalne napake v vlogah za posojilo
  • Poročila o napakah vzdrževalcev
  • Nihajoče spremembe tlaka v vrtinah
  • Bližina pralnic in trgovin z živili
  • Nedelujoče funkcije v aplikaciji, ki povzročajo odliv strank

Ko so te vrste podatkov očiščene, naredijo več kot samo prikaz organiziranih nizov podatkov. Razkrivajo neomejene možnosti in analitika umetne inteligence lahko te možnosti razkrije hitreje in učinkoviteje kot kadar koli prej (glejte, kako v bančništvu tukaj).

Primer

Recimo, da obstajajo podatki senzorjev, ki jih je težko razumeti. Običajno niz senzorjev ustvari veliko podatkov, običajno neberljivih.

Po podrobni preiskavi je skupina za analitike opazila, da ima eden od senzorjev stalno visok odčitek in zdi se, da velika variabilnost napoveduje eno vrsto mehanske napake. Posledično se zdaj pojavljajo poročila o 3-urnem drsečem povprečju za ta senzor in 1-urni drseči varianci.

Te meritve je enostavno razložiti in vsi, od višje vodstvene ekipe do servisnih ekip, razumejo, kaj merijo. Kakšni pa so bili stroški kuriranja takšnih podatkov?

Čeprav urejeni podatki zagotavljajo lepo in razložljivo zgodbo, to storijo za ceno izključitve hipotez, ki morda nikoli niso bile upoštevane. In ravno v tem se lahko skriva dejanska osnovna težava.

Namesto tega lahko zmogljiva analitična platforma, ki jo poganja AI, uporabi množico funkcij za to in vse druge odčitke senzorjev, eksponentno drseča povprečja, korenine in FFT. Nato lahko analitik preizkusi vrsto mejnih vrednosti in jih primerja s kontekstnimi nizi podatkov, kot je vreme ali bolj prilagojeno poznavanje domene.

Zajemanje edinstvenih vpogledov in razkrivanje skritih vzorcev, zakopanih globoko v neurejenih podatkih, nam omogoča, da opazimo nastajajoče trende ter prepoznamo nova vedenja in potrebe strank.

Oglejte si, kako to deluje pri vodilnih bankah.

Vir: https://www.kdnuggets.com/2021/09/sparkbeyond-messy-data-is-beautiful.html

Časovni žig:

Več od KDnuggets