Introducing The Data Analytics Fabric Concept - DATAVERSITY

Taasavaldanud Platon

järgijaid: 0

Organisatsioonid üle kogu maailma – nii kasumit teenivad kui ka mittetulunduslikud – otsivad andmeanalüüsi võimendamist äritegevuse parandamiseks. Leiud a McKinsey uuring näitavad, et andmepõhised organisatsioonid omandavad kliente 23 korda tõenäolisemalt, säilitavad kuus korda tõenäolisemalt kliente ja on 19 korda kasumlikumad [1]. MIT-i uuring leidis, et digitaalselt küpsed ettevõtted on 26% kasumlikumad kui nende eakaaslased [2]. Kuid vaatamata andmerikkale ettevõttele on paljudel ettevõtetel raskusi andmeanalüütika rakendamisega ärivajaduste, olemasolevate võimaluste ja ressursside vastuoluliste prioriteetide tõttu. Gartneri uurimus leidis, et üle 85% andme- ja analüüsiprojektidest ebaõnnestub [3] ja a ühise aruande IBM ja Carnegie Melon näitavad, et 90% organisatsiooni andmetest ei kasutata kunagi edukalt ühelgi strateegilisel eesmärgil [4].

Selle taustaga tutvustame "andmeanalüütika struktuuri (DAF)" kontseptsiooni kui ökosüsteemi või struktuuri, mis võimaldab andmeanalüütika tõhusalt toimida, tuginedes (a) ärivajadustele või eesmärkidele, (b) olemasolevatele võimalustele, nagu inimesed/oskused. , protsessid, kultuur, tehnoloogiad, arusaamad, otsustuspädevused ja palju muud ning (c) ressursid (st komponendid, mida ettevõte vajab ettevõtte toimimiseks).

Meie peamine eesmärk andmeanalüütika struktuuri juurutamisel on vastata sellele põhiküsimusele: „Mida on vaja, et tõhusalt üles ehitada otsuste tegemise süsteem andmed Science algoritme ettevõtte tulemuslikkuse mõõtmiseks ja parandamiseks? Andmeanalüütika kangast ja selle viit peamist ilmingut näidatakse ja arutatakse allpool.

1. Mõõtmisele keskendunud

Analüütika põhiolemus seisneb andmete kasutamises, et saada teadmisi, mõõta ja parandada äritegevuse tulemuslikkust [5]. Ettevõtte toimivuse mõõtmiseks ja parandamiseks on kolm peamist tüüpi analüütikat:

Kirjeldav analüüs küsib: "Mis juhtus?" Kirjeldavat analüütikat kasutatakse ajalooliste andmete analüüsimiseks, et tuvastada mustreid, suundumusi ja seoseid, kasutades uurimuslikke, assotsiatiivseid ja järelduslikke andmeanalüüsi meetodeid. Uurimusliku andmeanalüüsi tehnikad analüüsivad ja võtavad kokku andmekogumeid. Assotsiatiivne kirjeldav analüüs selgitab muutujate vahelisi seoseid. Järelduslikku kirjeldavat andmeanalüüsi kasutatakse näidisandmekogumi põhjal suurema populatsiooni trendide järeldamiseks või järelduste tegemiseks.
Ennustav analüüs vaatab vastust küsimusele "Mis juhtub?" Põhimõtteliselt on ennustav analüütika protsess, mille käigus kasutatakse andmeid tulevaste suundumuste ja sündmuste prognoosimiseks. Ennustavat analüüsi saab läbi viia käsitsi (üldtuntud kui analüütikute juhitud ennustav analüütika) või kasutades masinõppe algoritmid (tuntud ka kui andmepõhine ennustav analüütika). Mõlemal juhul kasutatakse ajaloolisi andmeid tulevikuprognooside tegemiseks.
Ettekirjutusanalüüs aitab vastata küsimusele "Kuidas me saame selle teoks teha?" Põhimõtteliselt soovitab ettekirjutav analüütika optimeerimis- ja simulatsioonitehnikate abil edasiliikumiseks parimat tegevussuunda. Tavaliselt käivad ennustav analüüs ja ettekirjutav analüüs koos, sest ennustav analüüs aitab leida potentsiaalseid tulemusi, samas kui ettekirjutav analüüs vaatab neid tulemusi ja leiab rohkem võimalusi.

2. Muutuv-keskne

Andmeid saab analüüsida ka saadaolevate muutujate arvu põhjal. Sellega seoses võivad andmeanalüüsi tehnikad muutujate arvu põhjal olla ühe-, kahe- või mitmemõõtmelised.

Ühemõõtmeline analüüs: Ühemõõtmeline analüüs hõlmab ühes muutujas esineva mustri analüüsimist, kasutades tsentraalsuse (keskmine, mediaan, moodus jne) ja variatsiooni (standardhälve, standardviga, dispersioon ja nii edasi) mõõte.
Kahe muutuja analüüs: On kaks muutujat, mille puhul analüüs on seotud põhjuse ja kahe muutuja vahelise seosega. Need kaks muutujat võivad olla üksteisest sõltuvad või sõltumatud. Korrelatsioonitehnika on enimkasutatav kahemõõtmelise analüüsi tehnika.
Mitme muutujaga analüüs: Seda tehnikat kasutatakse enam kui kahe muutuja analüüsimiseks. Mitme muutujaga seadistuses töötame tavaliselt ennustava analüütika areenil ja enamikku tuntud masinõppe (ML) algoritme, nagu lineaarne regressioon, logistiline regressioon, regressioonipuud, tugivektori masinad ja närvivõrgud, rakendatakse tavaliselt mitme muutujaga. seadistus.

3. Supervisioonile keskendunud

Kolmandat tüüpi andmeanalüütika kangas tegeleb konkreetse väljundi (st sõltuva muutuja) jaoks märgistatud sisendandmete või sõltumatu muutuja andmete koolitamisega. Põhimõtteliselt on sõltumatu muutuja see, mida katsetaja kontrollib. Sõltuv muutuja on muutuja, mis muutub vastuseks sõltumatule muutujale. Järelevalvele keskendunud DAF võib olla üks kahest tüübist.

Põhjuslik seos: Märgistatud andmed, mis on loodud automaatselt või käsitsi, on juhendatud õppimise jaoks hädavajalikud. Märgistatud andmed võimaldavad selgelt määratleda sõltuva muutuja ja seejärel on ennustava analüütika algoritmi ülesanne luua AI/ML tööriist, mis looks seose sildi (sõltuv muutuja) ja sõltumatute muutujate komplekti vahel. Asjaolu, et sõltuva muutuja mõiste ja sõltumatute muutujate hulk on selgelt eristatavad, lubame endal seose kõige paremaks selgitamiseks kasutusele võtta termini "põhjuslikkus".
Mittepõhjuslik seos: Kui me märgime oma mõõtmena "järelevalvele keskendunud", peame silmas ka "supervisiooni puudumist" ja see toob arutelusse mittepõhjuslikud mudelid. Mainimist väärivad mittepõhjuslikud mudelid, kuna need ei vaja märgistatud andmeid. Põhitehnika on siin klasterdamine ja kõige populaarsemad meetodid on k-Means ja Hierarchical Clustering.

4. Andmetüübile keskenduv

See andmeanalüütika struktuuri mõõde või manifestatsioon keskendub kolmele erinevat tüüpi andmemuutujatele, mis on seotud nii sõltumatute kui ka sõltuvate muutujatega, mida kasutatakse andmeanalüütika tehnikates arusaamade saamiseks.

Nominaalsed andmed kasutatakse andmete märgistamiseks või kategoriseerimiseks. See ei sisalda arvväärtust ja seetõttu pole nominaalandmetega statistilisi arvutusi võimalik teha. Nominaalseteks andmeteks on näiteks sugu, tootekirjeldus, kliendi aadress jms.
Järjekorralised või järjestatud andmed on väärtuste järjekord, kuid erinevused nende vahel pole tegelikult teada. Levinud näideteks on ettevõtete järjestamine turukapitalisatsiooni, hankija maksetingimuste, klientide rahulolu skooride, tarneprioriteedi jms alusel.
Numbrilised andmed ei vaja tutvustamist ja on numbrilise väärtusega. Need muutujad on kõige põhilisemad andmetüübid, mida saab kasutada igat tüüpi algoritmide modelleerimiseks.

5. Tulemustele keskendumine

Seda tüüpi andmeanalüütikakangas vaadeldakse viise, kuidas analüütikast saadud arusaamade põhjal äriväärtust pakkuda. Äriväärtust saab analüütika juhtida kahel viisil ja need on toodete või projektide kaudu. Kuigi toodetel võib olla vaja käsitleda kasutajakogemuse ja tarkvaratehnikaga seotud täiendavaid tagajärgi, on mudeli tuletamiseks tehtud modelleerimine nii projektis kui ka tootes sarnane.

A andmeanalüütika toode on korduvkasutatav andmevara, mis teenindab ettevõtte pikaajalisi vajadusi. See kogub andmeid asjakohastest andmeallikatest, tagab andmete kvaliteedi, töötleb neid ja teeb need kättesaadavaks kõigile, kes neid vajavad. Tooted on tavaliselt mõeldud isikutele ja neil on mitu elutsükli etappi või iteratsiooni, mille käigus toote väärtus realiseerub.
A andmeanalüüsi projekt on loodud konkreetse või ainulaadse ärivajaduse rahuldamiseks ja sellel on määratletud või kitsas kasutajaskond või eesmärk. Põhimõtteliselt on projekt ajutine ettevõtmine, mille eesmärk on pakkuda lahendust kindlaksmääratud ulatuses, eelarve piires ja õigeaegselt.

Maailma majandus muutub lähiaastatel dramaatiliselt, kuna organisatsioonid kasutavad üha enam andmeid ja analüütikat, et saada teadmisi ja teha otsuseid äritegevuse tulemuslikkuse mõõtmiseks ja parandamiseks. McKinsey avastas, et ettevõtted, mis põhinevad arusaamadel, näitavad EBITDA (kasum enne intressi, makse, amortisatsiooni ja amortisatsiooni) kasvu kuni 25% [5]. Paljud organisatsioonid ei ole aga edukad andmete ja analüütika võimendamisel äritulemuste parandamiseks. Kuid andmeanalüütika edastamiseks pole ühtset standardset viisi või lähenemisviisi. Andmeanalüüsi lahenduste juurutamine või juurutamine sõltub ärieesmärkidest, võimalustest ja ressurssidest. DAF ja selle viis siin käsitletud ilmingut võimaldavad analüütikat tõhusalt kasutusele võtta, lähtudes ettevõtte vajadustest, olemasolevatest võimalustest ja ressurssidest.

viited