En guide til datavidenskabelige projektledelsesmetoder - KDnuggets

En guide til datavidenskabelige projektledelsesmetoder – KDnuggets

Kildeknude: 2756610

En guide til datavidenskabelige projektledelsesmetoder
Billede af forfatter
 

Et datavidenskabsprojekt har mange elementer i sig. Der er mange mennesker involveret i processen, og der bliver mødt mange udfordringer undervejs. Mange virksomheder ser behovet for datavidenskab, og det er blevet implementeret i vores liv i dag. Nogle kæmper dog med, hvordan de skal bruge deres dataanalyse, og hvilken vej de skal bruge for at komme dertil. 

Den største antagelse, som virksomheder gør, når de bruger datavidenskab, er at antyde, at det på grund af deres brug af programmeringssprog efterligner den samme metode som software engineering. Dog er modellernes indbyggede datavidenskab og software anderledes. 

Datavidenskab kræver dets unikke livscyklus og metoder for at være en succes. 

Datavidenskabens livscyklus kan opdeles i 7 trin. 

Forretningsforståelse

Hvis du producerer noget for en virksomhed, bør dit spørgsmål nummer 1 være 'Hvorfor?'. Hvorfor skal vi gøre dette? Hvorfor er det vigtigt for virksomheden? Hvorfor? Hvorfor? Hvorfor?

Data science-teamet er ansvarligt for at bygge en model og producere dataanalyse baseret på, hvad virksomheden efterspørger. I denne fase af datavidenskabens livscyklus bør datavidenskabsteamet og virksomhedens ledere identificere de centrale mål for projektet, for eksempel undersøge de variabler, der skal forudsiges. 

Hvilken slags datavidenskabsprojekt er dette baseret på? Er det en regressions- eller klassifikationsopgave, klyngedannelse eller påvisning af anomalier? Når du først forstår det overordnede formål med dit objekt, kan du blive ved med at spørge hvorfor, hvad, hvor, hvornår og hvordan! At stille de rigtige spørgsmål er en kunst, og det vil give datavidenskabsteamet en dybdegående kontekst til projektet. 

Data Mining

Når du har al den forretningsforståelse, du har brug for til projektet, vil dit næste skridt være at starte projektet ved at indsamle data. Data mining-fasen omfatter indsamling af data fra en række forskellige kilder, der er i overensstemmelse med dit projektmål. 

De spørgsmål, du vil stille i denne fase, er: Hvilke data har jeg brug for til dette projekt? Hvor kan jeg få disse data fra? Vil disse data hjælpe med at opfylde mit mål? Hvor gemmer jeg disse data? 

Data Rengøring

Nogle dataforskere vælger at blande datamining- og datarensningsfaserne sammen. Det er dog godt at skelne faserne for bedre arbejdsgang. 

Datarensning er den mest tidskrævende fase i datavidenskabens arbejdsgang. Jo større data du har, jo længere tid tager det. Det kan typisk tage op til 50-80 % af en dataforskers tid at gennemføre. Grunden til, at det tager så lang tid, er, at data aldrig er rene. Du kan beskæftige dig med data, der har uoverensstemmelser, manglende data, forkerte etiketter, stavefejl og meget mere. 

Før du udfører noget analytisk arbejde, skal du rette disse fejl for at sikre, at de data, du planlægger at arbejde med, er korrekte og vil producere nøjagtige output. 

Dataudforskning

Efter meget tid og energi brugt på at rense dataene, har du nu knirkende rene data, som du kan arbejde med. Dataudforskningstid! Denne fase er brainstormingen af ​​dit overordnede projektmål. Du vil dykke dybt ned i, hvad du kan finde ud af data, skjulte mønstre, skabe visualiseringer for at finde yderligere indsigt og mere. 

Med disse oplysninger vil du være i stand til at skabe en hypotese, der er i overensstemmelse med dit forretningsmål og bruge den som referencepunkt for at sikre, at du er i gang med opgaven. 

Feature Engineering

Feature engineering er udvikling og konstruktion af nye datafunktioner fra rådata. Du tager de rå data og skaber informative funktioner, der er i overensstemmelse med dit forretningsmål. Funktionskonstruktionsfasen består af funktionsvalg og funktionskonstruktion.

Funktionsvalg er, når du skærer ned på antallet af funktioner, du har, som tilføjer mere støj til dataene end faktisk værdifuld information. At have alt for mange funktioner kan føre til en forbandelse af dimensionalitet, en øget kompleksitet i dataene, som modellen nemt og effektivt kan lære af. 

Feature konstruktion er i navnet. Det er konstruktionen af ​​nye funktioner. Ved at bruge de funktioner, du har i øjeblikket, kan du oprette nye funktioner, for eksempel, hvis dit mål er koncentreret om seniormedlemmer, kan du oprette en tærskel for den alder, du ønsker.

Denne fase er meget vigtig, da den vil påvirke nøjagtigheden af ​​din prædiktive model. 

Prædiktiv modellering

Det er her det sjove starter, og du vil se, om du har nået dit forretningsmål. Prædiktiv modellering består i at træne dataene, teste dem og bruge omfattende statistiske metoder for at sikre, at resultaterne fra modellen er signifikante for den hypotese, der er skabt. 

Baseret på alle de spørgsmål, du stillede i 'Forretningsforståelse'-fasen, vil du være i stand til at afgøre, hvilken model der passer til din opgave. Dit valg af model kan være en trial and error proces, men dette er vigtigt for at sikre, at du skaber en succesfuld model, der producerer nøjagtige output. 

Når du har bygget din model, vil du gerne træne den på dit datasæt og evaluere dens ydeevne. Du kan bruge forskellige evalueringsmetrikker såsom k-fold krydsvalidering til at måle nøjagtigheden og fortsætte med at gøre dette, indtil du er tilfreds med din nøjagtighedsværdi. 

Test af din model ved hjælp af test- og valideringsdata sikrer nøjagtighed, og at din model fungerer godt. At fodre dine data med usete data er en god måde at se, hvordan modellen klarer sig med data, som den ikke er blevet trænet i før. Det sætter din model i gang!

Datavisualisering

Når du først er tilfreds med din models ydeevne, er du klar til at gå tilbage og forklare det hele for lederne i virksomheden. At skabe datavisualiseringer er en god måde at forklare dine resultater til folk, der ikke er tekniske, og er også en god måde at fortælle en historie om dataene.

Datavisualisering er en kombination af kommunikation, statistik og kunst. Der er så mange måder, at du kan præsentere dine datafund på en æstetisk tiltalende måde. Du kan bruge værktøjer som f.eks Matplotlib dokumentation, Seaborn tutorialog Plotly Bibliotek. Hvis du bruger Python, skal du læse dette: Lav fantastiske visualiseringer med Python Graph Gallery

Og ligesom det er du ved slutningen af ​​livscyklussen, men husk, det er en cyklus. Så du skal tilbage til starten: Forretningsforståelse. Du bliver nødt til at evaluere succesen af ​​din model med hensyn til den oprindelige forretningsforståelse og -mål, sammen med den oprettede hypotese.

Nu vi har gennemgået datavidenskabens livscyklus, må du tænke, at dette virker meget simpelt. Det er kun det ene skridt efter det andet. Men vi ved alle, at tingene ikke er så ligetil. For at gøre det så enkelt og effektivt som muligt, skal der indføres ledelsesmetoder. 

Data science-projekter er ikke længere alene under data scientists ansvar – det er en teamindsats. Derfor er standardisering af projektledelse bydende nødvendigt, og der er metoder, som du kan bruge til at sikre dette. Lad os se nærmere på dem.

Vandfaldsmetode

Ligesom et vandfald er vandfaldsmetodikken en sekventiel udviklingsproces, der flyder gennem alle faser af et projekt. Hver fase skal afsluttes, for at den næste fase kan begynde. Der er ingen overlapning mellem faser, hvilket gør det til en effektiv metode, da der ikke er nogen sammenstød. Hvis du skal gense de tidligere faser, betyder det, at teamet har planlagt dårligt. 

Den består af fem faser:

  1. Krav
  2. Design
  3. Implementering
  4. Bekræftelse (test)
  5. Vedligeholdelse (implementering)

Så hvornår skal du bruge vandfaldsmetoden? Da det flyder som vand, skal alt være klart. Det betyder, at målet er defineret, teamet kender teknologistakken ud og ind, og projektelementerne er alle på plads for at sikre en smidig og effektiv proces. 

Men lad os vende tilbage til virkeligheden. Flyder datavidenskabelige projekter let som vand? Nej. De kræver en masse eksperimenter, kravændringer og meget mere. Det betyder dog ikke, at du ikke kan bruge elementer fra vandfaldsmetodikken. Vandfaldsmetodik kræver meget planlægning. Hvis du planlægger alt, ja, du kan stadig støde på 1 eller 2 problemer på vejen, men udfordringerne vil være mindre og ikke så hårde for processen. 

Agile metodologi

Agile metodologi blev født i begyndelsen af ​​2001, da 17 mennesker mødtes for at diskutere fremtiden for softwareudvikling. Det blev grundlagt på 4 kerneværdier og 12 principper.

Den agile metodik er mere i tråd med nutidens teknologi, da den fungerer i en tempofyldt, konstant foranderlig teknologibranche. Hvis du er en teknisk professionel, ved du, at kravene i et datavidenskab eller softwareprojekt ændrer sig hele tiden. Derfor er det vigtigt at have den rigtige metode på plads, som giver dig mulighed for hurtigt at tilpasse dig disse ændringer.

Den agile metode er en perfekt data science projektledelsesmetode, da den giver teamet mulighed for løbende at gennemgå kravene til projektet, efterhånden som det vokser. Ledere og datavidenskabsledere kan træffe beslutninger om ændringer, der skal foretages under udviklingsprocessen, i stedet for i slutningen, når det hele er færdigt. 

Dette har vist sig at være yderst effektivt, da modellen udvikler sig til at afspejle brugerfokuserede output, hvilket sparer tid, penge og energi. 

Et eksempel på en agil metode er Scrum. Scrum-metoden bruger en ramme, der hjælper med at skabe struktur i et team ved hjælp af et sæt værdier, principper og praksis. For eksempel ved hjælp af Scrum kan et datavidenskabsprojekt opdele sit større projekt i en række mindre projekter. Hvert af disse miniprojekter vil blive kaldt et sprint og vil bestå af sprintplanlægning for at definere mål, krav, ansvar og mere. 

Hybrid metode

Hvorfor ikke bruge to forskellige metoder sammen? Dette kaldes en hybrid metode, hvor to eller flere metoder bruges til at skabe en metode, der er helt unik for virksomheden. Virksomheder kan bruge hybride metoder til alle typer projekter, men begrundelsen bag det er ned til produktlevering. 

For eksempel hvis en kunde har brug for et produkt, men ikke er tilfreds med tidsrammen for produktion baseret på brug af sprints i en Agile-metode. Så det ser ud til, at virksomheden skal planlægge lidt mere ikke? Hvilken metode har meget planlægning? Ja, det er rigtigt, Waterfall. Virksomheden kan anvende vandfald i deres metode for at imødekomme specifikt kundens krav. 

Nogle virksomheder kan have blandede følelser omkring at kombinere en agil metode med en ikke-agil metode såsom Waterfall. Disse to metoder kan eksistere side om side, men det er virksomhedens ansvar at sikre en enkel tilgang, der giver mening, måle succesen af ​​hybridmetoden og levere produktivitet. 

Forskning og Udvikling

Nogle vil måske betragte dette som en metode, men jeg mener, at dette er et vigtigt grundlag for datavidenskabsprojektprocessen. Ligesom vandfaldsmetoden er der ingen skade i at planlægge og forberede dig med så meget information som muligt.

Men det er ikke det, jeg taler om her. Ja, det er skønt at undersøge alt, inden du starter et projekt. Men en god måde at sikre en effektiv projektledelse på er at se dit projekt som et forsknings- og udviklingsprojekt. Det er et effektivt værktøj til datavidenskabsteamsamarbejde.

Du vil gerne gå, før du løber og driver dit datavidenskabelige projekt, som om det er et forskningspapir. Nogle datavidenskabelige projekter har hårde deadlines, som gør denne proces vanskelig, men at fremskynde dit slutprodukt kommer altid med yderligere udfordringer. Du ønsker at bygge en effektiv og succesfuld model, der opfylder din indledende datavidenskabelige livscyklusfase: Forretningsforståelse. 

Forskning og udvikling i et datavidenskabsprojekt holder dørene åbne for innovation, øger kreativiteten og begrænser ikke teamet til at tage stilling til noget, der kunne være meget større!

Selvom der er forskellige metoder at vælge imellem, kommer det i sidste ende ned til virksomhedens drift. Nogle metoder, der er populære i én virksomhed, er måske ikke den bedste tilgang for en anden virksomhed. 

Enkeltpersoner kan have forskellige måder at arbejde på, så den bedste tilgang er at skabe en metode, der fungerer for alle. 

Vil du lære om automatisering af din datavidenskabelige arbejdsgang, kan du læse dette: Automatisering i Data Science arbejdsgange.
 
 
Nisha Arya er dataforsker, freelance teknisk skribent og Community Manager hos KDnuggets. Hun er særligt interesseret i at give Data Science karriererådgivning eller tutorials og teoribaseret viden omkring Data Science. Hun ønsker også at udforske de forskellige måder, kunstig intelligens er/kan gavne menneskets levetid. En ivrig lærende, der søger at udvide sin tekniske viden og skrivefærdigheder, samtidig med at hun hjælper med at vejlede andre.
 

Tidsstempel:

Mere fra KDnuggets