Opas tietotieteen projektinhallintamenetelmiin - KDnuggets

Opas tietotieteen projektinhallintamenetelmiin – KDnuggets

Lähdesolmu: 2756610

Opas tietotieteen projektinhallintamenetelmiin
Kuva tekijältä
 

Datatieteen projektissa on monia elementtejä. Prosessissa on mukana monia ihmisiä, ja matkan varrella on edessään monia haasteita. Monet yritykset näkevät datatieteen tarpeen, ja se on otettu käyttöön tämän päivän elämässämme. Jotkut kuitenkin kamppailevat sen kanssa, kuinka hyödyntää data-analytiikkaa ja mitä polkua käyttää päästäkseen perille. 

Suurin oletus, jonka yritykset tekevät käyttäessään datatieteitä, on antaa ymmärtää, että ohjelmointikielen käytöstä johtuen se jäljittelee samaa metodologiaa kuin ohjelmistosuunnittelu. Mallien sisäänrakennettu datatiede ja ohjelmisto ovat kuitenkin erilaisia. 

Datatiede vaatii ainutlaatuista elinkaariaan ja menetelmiään menestyäkseen. 

Datatieteen elinkaari voidaan jakaa 7 vaiheeseen. 

Liiketoiminnan ymmärtäminen

Jos tuotat jotain yritykselle, kysymyksesi numero 1 tulisi olla "Miksi?". Miksi meidän on tehtävä tämä? Miksi se on tärkeää yritykselle? Miksi? Miksi? Miksi?

Datatieteen tiimi vastaa mallin rakentamisesta ja data-analytiikan tuottamisesta sen mukaan, mitä liiketoiminta vaatii. Datatieteen elinkaaren tässä vaiheessa datatieteiden tiimin ja yrityksen johtajien tulee tunnistaa projektin keskeiset tavoitteet, esimerkiksi tutkia muuttujia, joita on ennakoitava. 

Mihin datatieteen projektiin tämä perustuu? Onko se regressio- tai luokittelutehtävä, klusterointi tai poikkeamien havaitseminen? Kun ymmärrät esineesi yleistavoitteen, voit jatkaa kysymistä miksi, mitä, missä, milloin ja miten! Oikeiden kysymysten esittäminen on taidetta, ja se tarjoaa datatieteen tiimille syvällisen kontekstin projektiin. 

Data Mining

Kun sinulla on kaikki projektiin tarvitsemasi liiketoimintaymmärrys, seuraava vaihe on projektin käynnistäminen keräämällä tietoja. Tiedonlouhintavaihe sisältää datan keräämisen useista lähteistä, jotka ovat projektisi tavoitteen mukaisia. 

Tässä vaiheessa esität seuraavat kysymykset: Mitä tietoja tarvitsen tätä projektia varten? Mistä saan nämä tiedot? Auttavatko nämä tiedot saavuttamaan tavoitteeni? Missä säilytän nämä tiedot? 

Tietojen puhdistus

Jotkut datatieteilijät päättävät yhdistää tiedon louhinta- ja tiedonpuhdistusvaiheet. On kuitenkin hyvä erottaa eri vaiheet työnkulun parantamiseksi. 

Tietojen puhdistaminen on datatieteen työnkulun aikaa vievin vaihe. Mitä suurempi data, sitä kauemmin se kestää. Sen suorittamiseen voi tyypillisesti mennä jopa 50–80 % datatieteilijän ajasta. Syy siihen kestää niin kauan, koska tiedot eivät ole koskaan puhtaita. Saatat käsitellä tietoja, joissa on epäjohdonmukaisuuksia, puuttuvia tietoja, virheellisiä tunnisteita, kirjoitusvirheitä ja paljon muuta. 

Ennen kuin teet mitään analyyttistä työtä, sinun on korjattava nämä virheet varmistaaksesi, että käsittelemäsi tiedot ovat oikein ja tuottavat tarkkoja tuloksia. 

Tietojen etsintä

Kun datan puhdistamiseen on käytetty paljon aikaa ja energiaa, sinulla on nyt siistiä dataa, jota voit käsitellä. Datan tutkimisen aika! Tämä vaihe on projektisi yleistavoitteen aivoriihi. Haluat sukeltaa syvälle siihen, mitä voit löytää tiedoista, piilotettuja kuvioita, luoda visualisointeja saadaksesi lisää oivalluksia ja paljon muuta. 

Näiden tietojen avulla voit luoda hypoteesin, joka on linjassa liiketoimintatavoitteesi kanssa, ja käyttää sitä vertailukohtana varmistaaksesi, että olet tehtävässäsi. 

Ominaisuuksien suunnittelu

Ominaisuussuunnittelu on uusien tietoominaisuuksien kehittämistä ja rakentamista raakatiedoista. Otat raakadatan ja luot informatiivisia ominaisuuksia, jotka ovat liiketoimintatavoitteesi mukaisia. Ominaisuuden suunnitteluvaihe koostuu ominaisuuden valinnasta ja ominaisuuden rakentamisesta.

Ominaisuuden valinta tapahtuu, kun vähennät sellaisten ominaisuuksien määrää, jotka lisäävät dataan enemmän kohinaa kuin todellista arvokasta tietoa. Liian monet ominaisuudet voivat johtaa ulottuvuuksien kiroukseen, datan lisääntyneeseen monimutkaisuuteen, jotta malli voi oppia helposti ja tehokkaasti. 

Ominaisuuden rakenne on nimessä. Se on uusien ominaisuuksien rakentamista. Tällä hetkellä käytössäsi olevien ominaisuuksien avulla voit luoda uusia ominaisuuksia, esimerkiksi jos tavoitteesi on keskittynyt vanhempiin jäseniin, voit luoda kynnyksen haluamallesi ikään.

Tämä vaihe on erittäin tärkeä, koska se vaikuttaa ennustemallisi tarkkuuteen. 

Ennakoiva mallinnus

Tästä hauskuus alkaa, ja näet, oletko saavuttanut liiketoimintatavoitteesi. Ennakoiva mallinnus koostuu tietojen harjoittamisesta, testaamisesta ja kattavien tilastollisten menetelmien käyttämisestä sen varmistamiseksi, että mallin tulokset ovat merkityksellisiä luodun hypoteesin kannalta. 

Kaikkien "Business Understanding" -vaiheessa esittämiesi kysymysten perusteella voit määrittää, mikä malli sopii käsillä olevaan tehtävään. Mallin valintasi voi olla yrityksen ja erehdyksen prosessi, mutta tämä on tärkeää varmistaaksesi, että luot onnistuneen mallin, joka tuottaa tarkkoja tuloksia. 

Kun olet rakentanut mallisi, sinun kannattaa kouluttaa se tietojoukkoasi ja arvioida sen suorituskykyä. Voit käyttää erilaisia ​​arviointimittareita, kuten k-kertaista ristiinvalidointia, mittaamaan tarkkuutta ja jatkaa näin, kunnes olet tyytyväinen tarkkuusarvoosi. 

Mallin testaaminen testaus- ja validointitietojen avulla varmistaa tarkkuuden ja sen, että mallisi toimii hyvin. Tietojen syöttäminen näkymättömillä tiedoilla on hyvä tapa nähdä, kuinka malli toimii datalla, jota sitä ei ole aiemmin koulutettu. Se saa mallisi toimimaan!

Datan visualisointi

Kun olet tyytyväinen mallisi suorituskykyyn, olet valmis palaamaan ja selittämään kaiken yrityksen johtajille. Datavisualisaatioiden luominen on hyvä tapa selittää löydösi ihmisille, jotka eivät ole teknisiä, ja se on myös hyvä tapa kertoa tarinaa tiedoista.

Datan visualisointi on yhdistelmä viestintää, tilastoja ja taidetta. On niin monia tapoja, joilla voit esittää tietosi esteettisesti miellyttävällä tavalla. Voit käyttää työkaluja mm Matplotlib-dokumentaatio, Seaborn opetusohjelmaja Plotly-kirjasto. Jos käytät Pythonia, lue tämä: Tee upeita visualisointeja Python Graph Galleryn avulla

Ja juuri niin olet elinkaaren lopussa, mutta muista, että se on sykli. Joten sinun on palattava alkuun: Business Understanding. Sinun on arvioitava mallisi onnistuminen alkuperäisen liiketoimintaymmärryksen ja tavoitteen sekä luodun hypoteesin perusteella.

Nyt olemme käyneet läpi datatieteen elinkaaren, sinun täytyy ajatella, että tämä näyttää hyvin yksinkertaiselta. Se on vain yksi askel toisensa jälkeen. Mutta me kaikki tiedämme, että asiat eivät ole niin yksiselitteisiä. Jotta se olisi mahdollisimman yksinkertainen ja tehokas, hallintamenetelmiä on otettava käyttöön. 

Datatieteen projektit eivät ole enää pelkästään datatieteilijöiden vastuulla – se on tiimityötä. Siksi projektinhallinnan standardointi on välttämätöntä, ja on olemassa menetelmiä, joilla voit varmistaa tämän. Katsotaanpa niitä.

Vesiputousmetodologia

Aivan kuten vesiputous, vesiputousmetodologia on peräkkäinen kehitysprosessi, joka kulkee läpi projektin kaikki vaiheet. Jokainen vaihe on suoritettava loppuun, jotta seuraava vaihe alkaa. Vaiheiden välillä ei ole päällekkäisyyttä, mikä tekee siitä tehokkaan menetelmän, koska siinä ei ole yhteentörmäyksiä. Jos joudut palaamaan edellisiin vaiheisiin, se tarkoittaa, että joukkue on suunnitellut huonosti. 

Se koostuu viidestä vaiheesta:

  1. vaatimukset
  2. Malli
  3. Täytäntöönpano
  4. Vahvistus (testaus)
  5. Ylläpito (käyttöönotto)

Joten milloin sinun tulisi käyttää vesiputousmetodologiaa? Koska se virtaa kuin vesi, kaiken on oltava kirkasta. Tämä tarkoittaa, että tavoite on määritelty, tiimi tuntee teknologiapinon läpikotaisin ja projektin elementit ovat paikoillaan sujuvan ja tehokkaan prosessin varmistamiseksi. 

Mutta palataanpa todellisuuteen. Virtaavatko datatieteen projektit helposti kuin vesi? Ei. Ne vaativat paljon kokeilua, vaatimusten muutoksia ja paljon muuta. Tämä ei kuitenkaan tarkoita, etteikö vesiputousmetodologian elementtejä voisi käyttää. Vesiputousmetodologia vaatii paljon suunnittelua. Jos suunnittelet kaiken, saatat silti kohdata 1 tai 2 ongelmaa matkalla, mutta haasteet ovat vähemmän eivätkä yhtä ankaria prosessissa. 

Ketterä menetelmä

- Ketterä menetelmä syntyi alkuvuodesta 2001, kun 17 henkilöä kokoontui keskustelemaan ohjelmistokehityksen tulevaisuudesta. Se perustui 4 ydinarvoon ja 12 periaatteeseen.

Ketterä metodologia vastaa paremmin tämän päivän teknologiaa, sillä se toimii nopeatempoisessa, jatkuvasti muuttuvassa teknologiateollisuudessa. Jos olet tekniikan ammattilainen, tiedät, että datatieteen tai ohjelmistoprojektin vaatimukset muuttuvat koko ajan. Siksi on tärkeää, että käytössä on oikea menetelmä, jonka avulla voit nopeasti sopeutua näihin muutoksiin.

Ketterä metodologia on täydellinen datatieteen projektinhallintamenetelmä, koska sen avulla tiimi voi jatkuvasti tarkastella projektin vaatimuksia sen kasvaessa. Johtajat ja datatieteen johtajat voivat tehdä päätöksiä muutoksista, jotka on tehtävä kehitysprosessin aikana, eikä sen lopussa, kun kaikki on valmis. 

Tämä on osoittautunut erittäin tehokkaaksi mallin kehittyessä vastaamaan käyttäjälähtöisiä tuloksia, mikä säästää aikaa, rahaa ja energiaa. 

Esimerkki ketterästä menetelmästä on Tungos. Scrum-menetelmässä käytetään viitekehystä, joka auttaa luomaan rakennetta ryhmässä käyttämällä arvoja, periaatteita ja käytäntöjä. Esimerkiksi Scrumin avulla datatiedeprojekti voi jakaa suuremman projektinsa sarjaksi pienempiä projekteja. Jokaista näistä miniprojekteista kutsutaan sprintiksi, ja se koostuu sprintin suunnittelusta, jossa määritellään tavoitteet, vaatimukset, vastuut ja paljon muuta. 

Hybridimenetelmä

Mikset käyttäisi kahta eri menetelmää yhdessä? Tätä kutsutaan hybridimenetelmäksi, jossa käytetään kahta tai useampaa menetelmää yritykselle täysin ainutlaatuisen menetelmän luomiseen. Yritykset voivat käyttää hybridimenetelmiä kaikentyyppisissä projekteissa, mutta perustelut sen taustalla ovat tuotteiden toimittamisessa. 

Esimerkiksi, jos asiakas tarvitsee tuotetta, mutta ei ole tyytyväinen tuotantoaikatauluun, joka perustuu ketterän menetelmän käyttöön. Joten näyttää siltä, ​​​​että yrityksen on tehtävä hieman enemmän suunnittelua, eikö? Millä menetelmällä on paljon suunnittelua? Kyllä, se on oikein, Waterfall. Yritys voi ottaa käyttöönsä vesiputouksen vastatakseen erityisesti asiakkaan tarpeisiin. 

Joillakin yrityksillä voi olla ristiriitaisia ​​tunteita ketterän menetelmän yhdistämisestä ei-ketteriin, kuten Waterfalliin. Nämä kaksi menetelmää voivat esiintyä rinnakkain, mutta yrityksen vastuulla on varmistaa yksinkertainen, järkevä lähestymistapa, mitata hybridimenetelmän onnistumista ja tuottavuutta. 

Tutkimus ja kehitys

Jotkut saattavat pitää tätä metodologiana, mutta uskon, että tämä on tärkeä perusta datatieteen projektiprosessille. Kuten vesiputousmetodologiassa, ei ole haittaa suunnitella ja valmistautua mahdollisimman paljon tietoa.

Mutta siitä en tässä puhu. Kyllä, on hienoa tutkia kaikkea ennen projektin aloittamista. Mutta hyvä tapa varmistaa tehokas projektinhallinta on nähdä projektisi tutkimus- ja kehitysprojektina. Se on tehokas työkalu datatieteen tiimien yhteistyöhön.

Haluat kävellä ennen kuin suoritat ja käytät datatieteen projektiasi kuin tutkimuspaperia. Joissakin datatieteen projekteissa on ankarat määräajat, mikä tekee tästä prosessista vaikean, mutta lopputuotteen kiirehtiminen tuo aina uusia haasteita. Haluat rakentaa tehokkaan ja onnistuneen mallin, joka vastaa datatieteen alkuvaihettasi: Business Understanding. 

Tutkimus ja kehitys datatiedeprojektissa pitää ovet auki innovaatioille, lisää luovuutta eikä rajoita tiimiä tyytyä johonkin, mikä voisi olla paljon suurempaa!

Vaikka valittavana on erilaisia ​​menetelmiä, se riippuu viime kädessä yrityksen toiminnasta. Jotkut menetelmät, jotka ovat suosittuja yhdessä yrityksessä, eivät välttämättä ole paras lähestymistapa toiselle yritykselle. 

Yksilöillä voi olla erilaisia ​​työskentelytapoja, joten paras tapa on luoda menetelmä, joka sopii kaikille. 

Jos haluat oppia datatieteen työnkulkusi automatisoinnista, lue tämä: Automatisointi datatieteen työnkulkuissa.
 
 
Nisha Arya on datatieteilijä, freelance-tekninen kirjoittaja ja yhteisöpäällikkö KDnuggetsissa. Hän on erityisen kiinnostunut tarjoamaan datatieteen uraneuvontaa tai opetusohjelmia ja teoriapohjaista tietoa datatieteestä. Hän haluaa myös tutkia erilaisia ​​tapoja, joilla tekoäly on/voi edistää ihmiselämän pitkää ikää. Innokas oppija, joka haluaa laajentaa teknisiä tietojaan ja kirjoitustaitojaan samalla kun hän auttaa opastamaan muita.
 

Aikaleima:

Lisää aiheesta KDnuggets