A Guide to Data Science Project Management Methodologies - KDnuggets

En guide til datavitenskapelige prosjektledelsesmetoder – KDnuggets

Kilde node: 2756610

En guide til datavitenskapelige prosjektledelsesmetoder
Bilde av forfatter
 

Et datavitenskapelig prosjekt har mange elementer. Det er mange mennesker involvert i prosessen, og mange utfordringer blir møtt underveis. Mange selskaper ser behovet for datavitenskap, og det har blitt implementert i livene våre i dag. Noen sliter imidlertid med hvordan de skal bruke dataanalysen deres og hvilken vei de skal bruke for å komme dit. 

Den største antagelsen bedrifter gjør når de bruker datavitenskap, er å antyde at på grunn av deres bruk av programmeringsspråk, imiterer det samme metodikk som programvareteknikk. Imidlertid er modellenes innebygde datavitenskap og programvare annerledes. 

Datavitenskap krever sin unike livssyklus og metodikk for å være vellykket. 

Datavitenskapens livssyklus kan deles opp i 7 trinn. 

Forståelse av virksomheten

Hvis du produserer noe for et selskap, bør nummer 1 spørsmålet ditt være 'Hvorfor?'. Hvorfor trenger vi å gjøre dette? Hvorfor er det viktig for virksomheten? Hvorfor? Hvorfor? Hvorfor?

Datavitenskapsteamet er ansvarlig for å bygge en modell og produsere dataanalyse basert på hva virksomheten krever. I løpet av denne fasen av datavitenskapens livssyklus bør datavitenskapsteamet og selskapets ledere identifisere de sentrale målene for prosjektet, for eksempel se på variablene som må forutsies. 

Hva slags datavitenskapelig prosjekt er dette basert på? Er det en regresjons- eller klassifiseringsoppgave, klynging eller deteksjon av anomalier? Når du forstår det overordnede målet med objektet ditt, kan du fortsette å spørre hvorfor, hva, hvor, når og hvordan! Å stille de riktige spørsmålene er en kunst, og vil gi datavitenskapsteamet en dyptgående kontekst til prosjektet. 

Data Mining

Når du har all forretningsforståelsen du trenger for prosjektet, vil neste trinn være å starte prosjektet ved å samle inn data. Data mining-fasen inkluderer innsamling av data fra en rekke kilder som er i tråd med prosjektmålet ditt. 

Spørsmålene du vil stille i denne fasen er: Hvilke data trenger jeg for dette prosjektet? Hvor kan jeg få disse dataene fra? Vil disse dataene bidra til å oppfylle målet mitt? Hvor skal jeg lagre disse dataene? 

Rengjøring av data

Noen dataforskere velger å blande fasene for datautvinning og datarensing sammen. Det er imidlertid greit å skille fasene for bedre arbeidsflyt. 

Datarensing er den mest tidkrevende fasen i datavitenskapens arbeidsflyt. Jo større data, jo lengre tid tar det. Det kan vanligvis ta opptil 50–80 % av en dataforskers tid å fullføre. Grunnen til at det tar så lang tid er fordi data aldri er rene. Du kan ha å gjøre med data som har inkonsekvenser, manglende data, feil etiketter, stavefeil og mer. 

Før du utfører noe analytisk arbeid, må du korrigere disse feilene for å sikre at dataene du planlegger å jobbe med er korrekte og vil gi nøyaktige utdata. 

Dataforskning

Etter mye tid og energi brukt på å rense dataene, har du nå squeaky-clean data som du kan jobbe med. Tid for datautforskning! Denne fasen er idédugnaden om det overordnede prosjektmålet ditt. Du ønsker å dykke dypt inn i hva du kan finne fra dataene, skjulte mønstre, lage visualiseringer for å finne ytterligere innsikt og mer. 

Med denne informasjonen vil du kunne lage en hypotese som er i tråd med forretningsmålet ditt og bruke den som et referansepunkt for å sikre at du er i gang med oppgaven. 

Funksjonsteknikk

Feature engineering er utvikling og konstruksjon av nye datafunksjoner fra rådata. Du tar rådataene og lager informative funksjoner som er i tråd med forretningsmålet ditt. Funksjonsteknikkfasen består av funksjonsvalg og funksjonskonstruksjon.

Funksjonsvalg er når du reduserer antallet funksjoner du har som gir mer støy til dataene enn faktisk verdifull informasjon. Å ha alt for mange funksjoner kan føre til en forbannelse av dimensjonalitet, en økt kompleksitet i dataene som modellen enkelt og effektivt kan lære av. 

Funksjonskonstruksjon ligger i navnet. Det er konstruksjonen av nye funksjoner. Ved å bruke funksjonene du har for øyeblikket kan du opprette nye funksjoner, for eksempel hvis målet ditt er konsentrert om seniormedlemmer, kan du opprette en terskel for alderen du ønsker.

Denne fasen er veldig viktig siden den vil påvirke nøyaktigheten til din prediktive modell. 

Forutsigbar modellering

Det er her moroa starter, og du vil se om du har nådd forretningsmålet ditt. Prediktiv modellering består i å trene dataene, teste dem og bruke omfattende statistiske metoder for å sikre at resultatene fra modellen er signifikante for hypotesen som er opprettet. 

Basert på alle spørsmålene du stilte i «Forretningsforståelse»-fasen, vil du kunne finne ut hvilken modell som er riktig for din oppgave. Ditt valg av modell kan være en prøve- og feilprosess, men dette er viktig for å sikre at du lager en vellykket modell som gir nøyaktige utdata. 

Når du har bygget modellen, vil du trene den på datasettet og evaluere ytelsen. Du kan bruke forskjellige evalueringsberegninger som k-fold kryssvalidering for å måle nøyaktigheten og fortsette å gjøre dette til du er fornøyd med nøyaktighetsverdien. 

Å teste modellen din ved hjelp av test- og valideringsdata sikrer nøyaktighet og at modellen din gir gode resultater. Å mate dataene dine med usynlige data er en god måte å se hvordan modellen presterer med data som den ikke har blitt trent på før. Det setter modellen din på jobb!

Datavisualisering

Når du er fornøyd med modellens ytelse, er du klar til å gå tilbake og forklare alt for lederne i selskapet. Å lage datavisualiseringer er en god måte å forklare funnene dine til folk som ikke er tekniske, og er også en god måte å fortelle en historie om dataene.

Datavisualisering er en kombinasjon av kommunikasjon, statistikk og kunst. Det er så mange måter du kan presentere datafunnene dine på en estetisk tiltalende måte. Du kan bruke verktøy som f.eks Matplotlib-dokumentasjon, Seaborn veiledningog Plotly Library. Hvis du bruker Python, les dette: Lag fantastiske visualiseringer med Python Graph Gallery

Og akkurat som det er du på slutten av livssyklusen, men husk at det er en syklus. Så du må gå tilbake til starten: Forretningsforståelse. Du må evaluere suksessen til modellen din angående den opprinnelige forretningsforståelsen og -målet, sammen med hypotesen som er opprettet.

Nå har vi gått gjennom datavitenskapens livssyklus, du må synes dette virker veldig enkelt. Det er bare ett skritt etter det andre. Men vi vet alle at ting ikke er så enkelt. For å gjøre det så enkelt og effektivt som mulig, må styringsmetodikk på plass. 

Datavitenskapsprosjekter er ikke lenger utelukkende under dataforskernes ansvar – det er en teaminnsats. Derfor er standardisering av prosjektledelse avgjørende, og det finnes metoder du kan bruke for å sikre dette. La oss se nærmere på dem.

Fossmetodikk

Akkurat som en foss er fossemetodikken en sekvensiell utviklingsprosess som flyter gjennom alle stadier av et prosjekt. Hver fase må fullføres for at neste fase skal begynne. Det er ingen overlapping mellom faser, noe som gjør det til en effektiv metode siden det ikke er noen sammenstøt. Hvis du må gå tilbake til de tidligere fasene, betyr det at teamet har planlagt dårlig. 

Den består av fem faser:

  1. Krav
  2. utforming
  3. Gjennomføring
  4. Verifisering (testing)
  5. Vedlikehold (implementering)

Så når bør du bruke fossemetoden? Siden det renner som vann, må alt være klart. Dette betyr at målet er definert, teamet kjenner teknologistabelen ut og inn, og prosjektelementene er alle på plass for å sikre en jevn og effektiv prosess. 

Men la oss komme tilbake til virkeligheten. Renner datavitenskapsprosjekter lett som vann? Nei. De krever mye eksperimentering, kravendringer og mer. Det betyr imidlertid ikke at du ikke kan bruke elementer av fossemetoden. Fossmetodikk krever mye planlegging. Hvis du planlegger alt, ja, du kan fortsatt støte på 1 eller 2 problemer på veien, men utfordringene vil være mindre og ikke like harde på prosessen. 

Agil metodikk

De Agile metodikk ble født tidlig i 2001 da 17 personer kom sammen for å diskutere fremtiden for programvareutvikling. Det ble grunnlagt på 4 kjerneverdier og 12 prinsipper.

Den smidige metodikken er mer i tråd med dagens teknologi, ettersom den fungerer i en fartsfylt, stadig skiftende teknologibransje. Hvis du er en teknisk profesjonell, vet du at kravene i et datavitenskap eller programvareprosjekt endres hele tiden. Derfor er det viktig å ha den riktige metoden på plass som gjør at du raskt kan tilpasse deg disse endringene.

Den smidige metodikken er en perfekt datavitenskapelig prosjektledelsesmetode, da den lar teamet kontinuerlig vurdere kravene til prosjektet etter hvert som det vokser. Ledere og datavitenskapsledere kan ta beslutninger om endringer som må gjøres under utviklingsprosessen, i stedet for på slutten når det hele er fullført. 

Dette har vist seg å være svært effektivt ettersom modellen utvikler seg for å reflektere brukerfokuserte resultater, noe som sparer tid, penger og energi. 

Et eksempel på en smidig metode er Scrum. Scrum-metoden bruker et rammeverk som bidrar til å skape struktur i et team ved hjelp av et sett med verdier, prinsipper og praksis. For eksempel, ved å bruke Scrum, kan et datavitenskapsprosjekt dele opp det større prosjektet i en serie med mindre prosjekter. Hvert av disse miniprosjektene vil bli kalt en sprint og vil bestå av sprintplanlegging for å definere mål, krav, ansvar og mer. 

Hybrid metodikk

Hvorfor ikke bruke to forskjellige metoder sammen? Dette kalles en hybridmetode, hvor to eller flere metoder brukes for å lage en metode som er helt unik for virksomheten. Bedrifter kan bruke hybridmetoder for alle typer prosjekter, men begrunnelsen bak det er ned til produktlevering. 

For eksempel hvis en kunde trenger et produkt, men ikke er fornøyd med tidsrammen for produksjon basert på bruk av sprints i en Agile-metode. Så det virker som om selskapet trenger å planlegge litt mer, ikke sant? Hvilken metode har mye planlegging? Ja, det stemmer, Waterfall. Selskapet kan ta i bruk fossefall i deres metode for å imøtekomme spesifikt kundens krav. 

Noen selskaper kan ha blandede følelser om å kombinere en smidig metode med en ikke-smidig metode som for eksempel Waterfall. Disse to metodene kan eksistere side om side, men det er selskapets ansvar å sikre en enkel tilnærming som gir mening, måle suksessen til hybridmetoden og gi produktivitet. 

Forskning og utvikling

Noen vil kanskje vurdere dette som en metodikk, men jeg tror at dette er et viktig grunnlag for datavitenskapsprosjektprosessen. Akkurat som fossemetoden, er det ingen skade i å planlegge og forberede deg med så mye informasjon som mulig.

Men det er ikke det jeg snakker om her. Ja, det er flott å undersøke alt før du starter et prosjekt. Men en god måte å sikre effektiv prosjektledelse på er å se prosjektet ditt som et forsknings- og utviklingsprosjekt. Det er et effektivt verktøy for datavitenskapsteamsamarbeid.

Du vil gå før du løper og driver datavitenskapsprosjektet ditt som om det er en forskningsoppgave. Noen datavitenskapelige prosjekter har tøffe tidsfrister som gjør denne prosessen vanskelig, men å forhaste sluttproduktet kommer alltid med ytterligere utfordringer. Du ønsker å bygge en effektiv og vellykket modell som oppfyller din innledende datavitenskapelige livssyklusfase: Forretningsforståelse. 

Forskning og utvikling i et datavitenskapsprosjekt holder dørene åpne for innovasjon, øker kreativiteten og begrenser ikke teamet til å ta et oppgjør med noe som kunne vært mye større!

Selv om det er forskjellige metoder å velge mellom, kommer det til syvende og sist ned på virksomhetens drift. Noen metoder som er populære i ett selskap, er kanskje ikke den beste tilnærmingen for et annet selskap. 

Enkeltpersoner kan ha ulike måter å jobbe på, så den beste tilnærmingen er å lage en metode som fungerer for alle. 

Ønsker du å lære om automatisering av datavitenskapens arbeidsflyt, les dette: Automatisering i datavitenskapelige arbeidsflyter.
 
 
Nisha Arya er dataforsker, frilans teknisk skribent og samfunnsansvarlig i KDnuggets. Hun er spesielt interessert i å gi Data Science karriereråd eller veiledninger og teoribasert kunnskap rundt Data Science. Hun ønsker også å utforske de forskjellige måtene kunstig intelligens er/kan være til nytte for menneskets levetid. En ivrig elev som søker å utvide sine tekniske kunnskaper og skriveferdigheter, samtidig som hun hjelper til med å veilede andre.
 

Tidstempel:

Mer fra KDnuggets