En guide till datavetenskapliga projektledningsmetoder - KDnuggets

Återutgiven av Platon

anhängare: 0

En guide till datavetenskapliga projektledningsmetoder
Bild av författare

Ett datavetenskapligt projekt har många inslag. Det är många människor involverade i processen och många utmaningar står inför på vägen. Många företag ser behovet av datavetenskap, och det har implementerats i våra liv idag. Vissa kämpar dock med hur man använder sin dataanalys och vilken väg man ska använda för att komma dit.

Det största antagandet som företag gör när de använder datavetenskap är att antyda att det på grund av deras användning av programmeringsspråk imiterar samma metodik som mjukvaruteknik. Men modellernas inbyggda datavetenskap och mjukvara är olika.

Datavetenskap kräver sin unika livscykel och metoder för att vara framgångsrik.

Datavetenskapens livscykel kan delas upp i 7 steg.

Affärsförståelse

Om du producerar något för ett företag bör din första fråga vara "Varför?". Varför behöver vi göra detta? Varför är det viktigt för verksamheten? Varför? Varför? Varför?

Data science-teamet ansvarar för att bygga en modell och ta fram dataanalys utifrån vad verksamheten kräver. Under denna fas av datavetenskapens livscykel bör datavetenskapsteamet och företagets chefer identifiera de centrala målen för projektet, till exempel undersöka de variabler som behöver förutsägas.

Vilken typ av datavetenskapsprojekt bygger detta på? Är det en regressions- eller klassificeringsuppgift, klustring eller upptäckt av anomali? När du väl förstår det övergripande syftet med ditt objekt kan du fortsätta fråga varför, vad, var, när och hur! Att ställa de rätta frågorna är en konst och kommer att ge datavetenskapsteamet en djupgående kontext till projektet.

Data Mining

När du har all affärsförståelse som du behöver för projektet, kommer ditt nästa steg att initiera projektet genom att samla in data. Datautvinningsfasen inkluderar insamling av data från en mängd olika källor som är i linje med ditt projektmål.

Frågorna som du kommer att ställa under denna fas är: Vilken data behöver jag för detta projekt? Var kan jag få dessa uppgifter ifrån? Kommer dessa uppgifter att hjälpa till att uppfylla mitt mål? Var ska jag lagra dessa uppgifter?

Rengöring av data

Vissa dataforskare väljer att blanda datamining och datarensningsfaserna tillsammans. Det är dock bra att skilja på faserna för bättre arbetsflöde.

Datarensning är den mest tidskrävande fasen i datavetenskapens arbetsflöde. Ju större data du har, desto längre tid tar det. Det kan vanligtvis ta upp till 50-80 % av en datavetares tid att slutföra. Anledningen till att det tar så lång tid är att data aldrig är ren. Du kan hantera data som har inkonsekvenser, saknad data, felaktiga etiketter, stavfel och mer.

Innan du utför något analysarbete måste du korrigera dessa fel för att säkerställa att den data du planerar att arbeta med är korrekt och ger korrekta utdata.

Dataforskning

Efter mycket tid och energi som lagts ner på att rensa data har du nu gnistrande rena data som du kan arbeta med. Tid för datautforskning! Denna fas är brainstormingen av ditt övergripande projektmål. Du vill dyka djupt in i vad du kan hitta från data, dolda mönster, skapa visualiseringar för att hitta ytterligare insikter och mer.

Med denna information kommer du att kunna skapa en hypotes som är i linje med ditt affärsmål och använda den som en referenspunkt för att säkerställa att du är igång med uppgiften.

Funktionsteknik

Feature engineering är utveckling och konstruktion av nya datafunktioner från rådata. Du tar rådata och skapar informativa funktioner som är i linje med ditt affärsmål. Funktionskonstruktionsfasen består av funktionsval och funktionskonstruktion.

Funktionsval är när du minskar antalet funktioner du har som tillför mer brus till data än faktisk värdefull information. Att ha alldeles för många funktioner kan leda till en förbannelse av dimensionalitet, en ökad komplexitet i data för modellen att enkelt och effektivt lära av.

Funktionskonstruktion ligger i namnet. Det är konstruktionen av nya funktioner. Genom att använda de funktioner du för närvarande har kan du skapa nya funktioner, till exempel om ditt mål är koncentrerat på seniormedlemmar kan du skapa en tröskel för den ålder du vill ha.

Denna fas är mycket viktig eftersom den kommer att påverka noggrannheten i din prediktiva modell.

Prediktiv modellering

Det är här det roliga börjar, och du kommer att se om du har uppnått ditt affärsmål. Prediktiv modellering består av att träna data, testa den och använda omfattande statistiska metoder för att säkerställa att resultaten från modellen är signifikanta för den hypotes som skapas.

Baserat på alla frågor du ställde i fasen "Business Understanding" kommer du att kunna avgöra vilken modell som är rätt för din uppgift. Ditt val av modell kan vara en trial and error process, men detta är viktigt för att säkerställa att du skapar en framgångsrik modell som ger korrekta utdata.

När du har byggt din modell vill du träna den på din datauppsättning och utvärdera dess prestanda. Du kan använda olika utvärderingsmått som k-faldig korsvalidering för att mäta noggrannheten och fortsätta att göra detta tills du är nöjd med ditt noggrannhetsvärde.

Att testa din modell med hjälp av test- och valideringsdata säkerställer noggrannhet och att din modell presterar bra. Att mata din data med osynlig data är ett bra sätt att se hur modellen presterar med data som den inte har tränats på tidigare. Det sätter din modell i arbete!

Datavisualisering

När du är nöjd med din modells prestanda är du redo att gå tillbaka och förklara allt för cheferna i företaget. Att skapa datavisualiseringar är ett bra sätt att förklara dina resultat för personer som inte är tekniska, och det är också ett bra sätt att berätta en historia om datan.

Datavisualisering är en kombination av kommunikation, statistik och konst. Det finns så många sätt att du kan presentera dina dataresultat på ett estetiskt tilltalande sätt. Du kan använda verktyg som t.ex Matplotlib dokumentation, Handledning för sjöbornaoch Plotly bibliotek. Om du använder Python, läs detta: Gör fantastiska visualiseringar med Python Graph Gallery.

Och precis så är du i slutet av livscykeln, men kom ihåg att det är en cykel. Så du måste gå tillbaka till början: Affärsförståelse. Du kommer att behöva utvärdera framgången för din modell med avseende på den ursprungliga affärsförståelsen och målet, tillsammans med den skapade hypotesen.

Nu har vi gått igenom datavetenskapens livscykel, du måste tycka att detta verkar väldigt enkelt. Det är bara ett steg efter det andra. Men vi vet alla att saker och ting inte är så enkla. För att göra det så enkelt och effektivt som möjligt måste förvaltningsmetoder införas.

Datavetenskapsprojekt ligger inte enbart under datavetarnas ansvar längre – det är ett lagarbete. Därför är det absolut nödvändigt att standardisera projektledning, och det finns metoder som du kan använda för att säkerställa detta. Låt oss titta på dem.

Vattenfallsmetodik

Precis som ett vattenfall är vattenfallsmetodiken en sekventiell utvecklingsprocess som flyter genom ett projekts alla stadier. Varje fas måste slutföras för att nästa fas ska börja. Det finns ingen överlappning mellan faserna, vilket gör det till en effektiv metod eftersom det inte finns några sammandrabbningar. Om du måste se om de tidigare faserna betyder det att laget har planerat dåligt.

Den består av fem faser:

Krav
Designa
Genomförande
Verifiering (testning)
Underhåll (distribution)

Så när ska du använda vattenfallsmetoden? Eftersom det rinner som vatten måste allt vara klart. Det betyder att målet är definierat, teamet känner till teknikstacken ut och in och att projektelementen är på plats för att säkerställa en smidig och effektiv process.

Men låt oss komma tillbaka till verkligheten. Flödar datavetenskapliga projekt lätt som vatten? Nej. De kräver mycket experiment, kravändringar och mer. Det betyder dock inte att du inte kan använda delar av vattenfallsmetodiken. Vattenfallsmetodik kräver mycket planering. Om du planerar allt, ja, du kan fortfarande stöta på 1 eller 2 problem på vägen, men utmaningarna blir mindre och inte lika hårda för processen.

Smidig metod

Smakämnen Smidig metod föddes i början av 2001 när 17 personer samlades för att diskutera framtiden för mjukvaruutveckling. Den grundades på 4 kärnvärden och 12 principer.

Den agila metodiken är mer i linje med dagens teknik, eftersom den fungerar i en snabb takt, ständigt föränderlig teknikindustri. Om du är en tekniker vet du att kraven i ett datavetenskap eller programvaruprojekt förändras hela tiden. Därför är det viktigt att ha rätt metod på plats som gör att du snabbt kan anpassa dig till dessa förändringar.

Den agila metoden är en perfekt datavetenskaplig projektledningsmetod eftersom den tillåter teamet att kontinuerligt se över kraven i projektet när det växer. Chefer och datavetenskapschefer kan fatta beslut om förändringar som måste göras under utvecklingsprocessen, snarare än i slutet när allt är klart.

Detta har visat sig vara mycket effektivt eftersom modellen utvecklas för att återspegla användarfokuserade resultat, vilket sparar tid, pengar och energi.

Ett exempel på en agil metod är Scrum. Scrummetoden använder ett ramverk som hjälper till att skapa struktur i ett team med hjälp av en uppsättning värderingar, principer och praxis. Till exempel, med hjälp av Scrum, kan ett datavetenskapsprojekt dela upp sitt större projekt i en serie mindre projekt. Vart och ett av dessa miniprojekt kommer att kallas en sprint och kommer att bestå av sprintplanering för att definiera mål, krav, ansvar och mer.

Hybridmetodik

Varför inte använda två olika metoder tillsammans? Detta kallas en hybridmetod, där två eller flera metoder används för att skapa en metod som är helt unik för verksamheten. Företag kan använda hybridmetoder för alla typer av projekt, men resonemanget bakom det beror på produktleverans.

Till exempel om en kund kräver en produkt men inte är nöjd med tidsramen för produktionen baserat på att använda sprints i en Agile metod. Så det verkar som att företaget behöver göra lite mer planering eller hur? Vilken metod har mycket planering? Ja, det stämmer, Waterfall. Företaget kan använda vattenfall i sin metod för att specifikt tillgodose kundens krav.

Vissa företag kan ha blandade känslor om att kombinera en agil metod med en icke-agil metod som Waterfall. Dessa två metoder kan existera samtidigt, men det är företagets ansvar att säkerställa ett enkelt tillvägagångssätt som är vettigt, mäta framgången för hybridmetoden och ge produktivitet.

Forskning och utveckling

Vissa kan betrakta detta som en metodik, men jag tror att detta är en viktig grund för datavetenskapsprojektprocessen. Precis som vattenfallsmetodiken är det ingen skada att planera och förbereda sig med så mycket information som möjligt.

Men det är inte det jag pratar om här. Ja, det är bra att undersöka allt innan du startar ett projekt. Men ett bra sätt att säkerställa effektiv projektledning är att se ditt projekt som ett forsknings- och utvecklingsprojekt. Det är ett effektivt verktyg för teamsamarbete inom datavetenskap.

Du vill gå innan du springer och driver ditt datavetenskapliga projekt som om det är en forskningsartikel. Vissa datavetenskapliga projekt har hårda deadlines som gör denna process svår, men att skynda på din slutprodukt kommer alltid med ytterligare utmaningar. Du vill bygga en effektiv och framgångsrik modell som möter din initiala datavetenskapliga livscykelfas: Affärsförståelse.

Forskning och utveckling i ett datavetenskapligt projekt håller dörrarna öppna för innovation, ökar kreativiteten och begränsar inte teamet att göra upp med något som skulle kunna vara mycket större!

Även om det finns olika metoder att välja mellan, beror det i slutändan på verksamhetens verksamhet. Vissa metoder som är populära i ett företag, kanske inte är den bästa metoden för ett annat företag.

Individer kan ha olika sätt att arbeta, så det bästa sättet är att skapa en metod som fungerar för alla.

Vill du lära dig mer om hur du automatiserar ditt datavetenskapliga arbetsflöde, läs detta: Automatisering i Data Science Workflows.

Nisha Arya är en datavetare, frilansande teknisk skribent och Community Manager på KDnuggets. Hon är särskilt intresserad av att ge Data Science karriärråd eller handledning och teoribaserad kunskap kring Data Science. Hon vill också utforska de olika sätten artificiell intelligens är/kan gynna människans livslängd. En angelägen lärande som vill bredda sina tekniska kunskaper och skrivförmåga, samtidigt som hon hjälper andra att vägleda.