A Guide To Data Science Project Management Methodologies - KDnuggets

Heruitgegeven door Plato

volgers: 0

Een gids voor data science-projectmanagementmethodologieën
Afbeelding door auteur

Een data science-project bevat veel elementen. Er zijn veel mensen bij het proces betrokken en er komen onderweg veel uitdagingen voor. Veel bedrijven zien de noodzaak van datawetenschap in, en deze is vandaag de dag in ons leven geïmplementeerd. Sommigen worstelen echter met de vraag hoe ze gebruik kunnen maken van hun data-analyse en welk pad ze moeten volgen om daar te komen.

De grootste veronderstelling die bedrijven maken bij het gebruik van data science, is te impliceren dat het door hun gebruik van programmeertaal dezelfde methodologie imiteert als software-engineering. De ingebouwde datawetenschap en software van de modellen zijn echter verschillend.

Datawetenschap vereist een unieke levenscyclus en methodologieën om succesvol te zijn.

De data science-levenscyclus kan worden opgedeeld in zeven stappen.

Zakelijk begrip

Als u iets voor een bedrijf produceert, zou uw nummer 1 vraag moeten zijn: 'Waarom?'. Waarom moeten we dit doen? Waarom is het belangrijk voor het bedrijf? Waarom? Waarom? Waarom?

Het data science-team is verantwoordelijk voor het bouwen van een model en het produceren van data-analyses op basis van wat het bedrijf nodig heeft. Tijdens deze fase van de data science-levenscyclus moeten het data science-team en de leidinggevenden van het bedrijf de centrale doelstellingen van het project identificeren, bijvoorbeeld door te kijken naar de variabelen die moeten worden voorspeld.

Op welk soort data science-project is dit gebaseerd? Is het een regressie- of classificatietaak, clustering of anomaliedetectie? Zodra u het algemene doel van uw object begrijpt, kunt u zich blijven afvragen waarom, wat, waar, wanneer en hoe! Het stellen van de juiste vragen is een kunst en zal het data science-team een diepgaande context voor het project bieden.

Data Mining

Zodra u alle zakelijke inzichten heeft die u nodig heeft voor het project, is uw volgende stap het starten van het project door gegevens te verzamelen. De dataminingfase omvat het verzamelen van gegevens uit verschillende bronnen die in lijn zijn met uw projectdoelstelling.

De vragen die je in deze fase stelt zijn: Welke gegevens heb ik nodig voor dit project? Waar kan ik deze gegevens vandaan halen? Zullen deze gegevens helpen mijn doel te bereiken? Waar sla ik deze gegevens op?

Gegevens opschonen

Sommige datawetenschappers kiezen ervoor om de datamining- en dataopschoningsfasen samen te voegen. Voor een betere workflow is het echter goed om de fasen te onderscheiden.

Het opschonen van gegevens is de meest tijdrovende fase in de data science-workflow. Hoe groter uw gegevens, hoe langer het duurt. Het kan doorgaans 50-80% van de tijd van een datawetenschapper in beslag nemen om dit te voltooien. De reden dat het zo lang duurt, is omdat gegevens nooit schoon zijn. U kunt te maken krijgen met gegevens die inconsistenties bevatten, ontbrekende gegevens, onjuiste labels, spelfouten en meer.

Voordat u enig analytisch werk uitvoert, moet u deze fouten corrigeren om ervoor te zorgen dat de gegevens waarmee u wilt werken correct zijn en nauwkeurige resultaten opleveren.

Gegevensverkenning

Nadat er veel tijd en energie is besteed aan het opschonen van de gegevens, beschikt u nu over brandschone gegevens waarmee u kunt werken. Tijd voor gegevensonderzoek! Deze fase is het brainstormen over uw algemene projectdoelstelling. Je wilt diep duiken in wat je kunt vinden uit de gegevens, verborgen patronen, visualisaties maken om verdere inzichten te vinden en meer.

Met deze informatie kunt u een hypothese opstellen die in lijn is met uw bedrijfsdoelstelling en deze als referentiepunt gebruiken om ervoor te zorgen dat u op de goede weg bent.

Functie-engineering

Feature engineering is de ontwikkeling en constructie van nieuwe datafuncties op basis van onbewerkte data. U neemt de onbewerkte gegevens en creëert informatieve functies die in lijn zijn met uw bedrijfsdoelstelling. De feature-engineeringfase bestaat uit featureselectie en featureconstructie.

Functieselectie houdt in dat u het aantal functies vermindert die meer ruis aan de gegevens toevoegen dan daadwerkelijk waardevolle informatie. Het hebben van veel te veel functies kan leiden tot een vloek van dimensionaliteit, een grotere complexiteit van de gegevens waar het model gemakkelijk en effectief van kan leren.

Functieconstructie zit in de naam. Het is de constructie van nieuwe functies. Met behulp van de functies die u momenteel heeft, kunt u nieuwe functies creëren. Als uw doelstelling bijvoorbeeld is geconcentreerd op senioren, kunt u een drempel instellen voor de gewenste leeftijd.

Deze fase is erg belangrijk omdat deze de nauwkeurigheid van uw voorspellende model zal beïnvloeden.

Voorspellende modellen

Dit is waar het plezier begint en u zult zien of u uw bedrijfsdoelstelling heeft bereikt. Voorspellende modellering bestaat uit het trainen van de gegevens, het testen ervan en het gebruik van uitgebreide statistische methoden om ervoor te zorgen dat de uitkomsten van het model significant zijn voor de gecreëerde hypothese.

Op basis van alle vragen die u in de fase 'Business Understanding' heeft gesteld, kunt u bepalen welk model het beste bij uw taak past. Uw modelkeuze kan een proces van vallen en opstaan zijn, maar dit is belangrijk om ervoor te zorgen dat u een succesvol model creëert dat nauwkeurige resultaten oplevert.

Nadat u uw model heeft gebouwd, wilt u het op uw dataset trainen en de prestaties ervan evalueren. U kunt verschillende evaluatiestatistieken gebruiken, zoals k-voudige kruisvalidatie, om de nauwkeurigheid te meten en dit blijven doen totdat u tevreden bent met uw nauwkeurigheidswaarde.

Het testen van uw model met behulp van test- en validatiegegevens zorgt voor nauwkeurigheid en zorgt ervoor dat uw model goed presteert. Het voeden van uw gegevens met onzichtbare gegevens is een goede manier om te zien hoe het model presteert met gegevens waarop het nog niet eerder is getraind. Het zet uw model aan het werk!

Gegevensvisualisatie

Als u eenmaal tevreden bent met de prestaties van uw model, bent u klaar om terug te gaan en alles uit te leggen aan de leidinggevenden in het bedrijf. Het maken van datavisualisaties is een goede manier om uw bevindingen uit te leggen aan mensen die niet technisch zijn, en het is ook een goede manier om een verhaal over de data te vertellen.

Datavisualisatie is een combinatie van communicatie, statistiek en kunst. Er zijn zoveel manieren waarop u uw gegevensbevindingen op een esthetisch aantrekkelijke manier kunt presenteren. U kunt hulpmiddelen gebruiken zoals Matplotlib-documentatie, Seaborn-zelfstudie en Plotly-bibliotheek. Als je Python gebruikt, lees dan dit: Maak verbluffende visualisaties met Python Graph Gallery.

En zomaar ben je aan het einde van de levenscyclus, maar onthoud dat het een cyclus is. Je moet dus terug naar het begin: Business Understanding. U zult het succes van uw model moeten evalueren met betrekking tot het oorspronkelijke zakelijke inzicht en de oorspronkelijke doelstelling, samen met de gecreëerde hypothese.

Nu we de data science-levenscyclus hebben doorlopen, denk je vast dat dit heel eenvoudig lijkt. Het is gewoon de ene stap na de andere. Maar we weten allemaal dat de dingen niet zo eenvoudig zijn. Om het zo eenvoudig en effectief mogelijk te maken, moeten managementmethodologieën worden ingevoerd.

Datawetenschapsprojecten vallen niet meer alleen onder de verantwoordelijkheid van datawetenschappers – het zijn teaminspanningen. Daarom is het standaardiseren van projectmanagement absoluut noodzakelijk, en er zijn methoden die u kunt gebruiken om dit te garanderen. Laten we ze eens bekijken.

Waterval Methodologie

Net als een waterval is de watervalmethodologie een opeenvolgend ontwikkelingsproces dat door alle fasen van een project stroomt. Elke fase moet worden voltooid voordat de volgende fase kan beginnen. Er is geen overlap tussen fasen, waardoor het een effectieve methode is omdat er geen botsingen zijn. Als je de voorgaande fasen opnieuw moet bekijken, betekent dit dat het team slecht heeft gepland.

Het bestaat uit vijf fasen:

Voorwaarden
Design
Implementatie
Verificatie (testen)
Onderhoud (implementatie)

Dus wanneer moet je de watervalmethodologie gebruiken? Omdat het stroomt als water, moet alles helder zijn. Dit betekent dat het doel is gedefinieerd, dat het team de technologie door en door kent en dat de projectelementen allemaal aanwezig zijn om een soepel en effectief proces te garanderen.

Maar laten we terugkeren naar de realiteit. Lopen data science-projecten gemakkelijk als water? Nee. Ze vereisen veel experimenteren, wijzigingen in vereisten en meer. Dat betekent echter niet dat je geen gebruik kunt maken van elementen uit de watervalmethodiek. Watervalmethodologie vereist veel planning. Als je alles plant, kun je onderweg nog steeds 1 of 2 problemen tegenkomen, maar de uitdagingen zullen minder zijn en niet zo zwaar voor het proces.

Agile methodologie

De Agile Werkmethode werd begin 2001 geboren toen 17 mensen samenkwamen om de toekomst van softwareontwikkeling te bespreken. Het is gebaseerd op 4 kernwaarden en 12 principes.

De agile methodologie sluit beter aan bij de technologie van vandaag, omdat deze werkt in een snelle, steeds veranderende technologie-industrie. Als u een tech-professional bent, weet u dat de vereisten in een data science- of softwareproject voortdurend veranderen. Daarom is het belangrijk om over de juiste methode te beschikken waarmee u zich snel aan deze veranderingen kunt aanpassen.

De agile methodologie is een perfecte data science-projectmanagementmethode, omdat het team hierdoor voortdurend de vereisten van het project kan beoordelen naarmate het groeit. Leidinggevenden en datawetenschapsmanagers kunnen beslissingen nemen over veranderingen die moeten worden doorgevoerd tijdens het ontwikkelingsproces, in plaats van aan het einde als het allemaal voltooid is.

Dit is zeer effectief gebleken naarmate het model evolueert om gebruikersgerichte resultaten weer te geven, waardoor tijd, geld en energie worden bespaard.

Een voorbeeld van een agile methode is Worsteling om de bal. De scrummethode maakt gebruik van een raamwerk dat helpt structuur in een team te creëren met behulp van een reeks waarden, principes en praktijken. Met Scrum kan een data science-project bijvoorbeeld zijn grotere project opsplitsen in een reeks kleinere projecten. Elk van deze miniprojecten wordt een sprint genoemd en zal bestaan uit een sprintplanning om doelstellingen, vereisten, verantwoordelijkheden en meer te definiëren.

Hybride methodologie

Waarom niet twee verschillende methoden samen gebruiken? Dit wordt een hybride methode genoemd, waarbij twee of meer methodieken worden gebruikt om een methode te creëren die volledig uniek is voor het bedrijf. Bedrijven kunnen hybride methoden gebruiken voor alle soorten projecten, maar de redenering hierachter heeft te maken met de levering van producten.

Bijvoorbeeld als een klant een product nodig heeft, maar niet tevreden is met het tijdsbestek van de productie op basis van het gebruik van sprints in een Agile-methode. Het lijkt er dus op dat het bedrijf wat meer planning moet doen, toch? Welke methode heeft veel planning? Ja, dat klopt, Waterval. Het bedrijf kan waterval in zijn werkwijze opnemen om specifiek aan de eisen van de klant te voldoen.

Sommige bedrijven hebben gemengde gevoelens over het combineren van een agile methode met een niet-agile methode zoals Waterfall. Deze twee methoden kunnen naast elkaar bestaan, maar het is de verantwoordelijkheid van het bedrijf om te zorgen voor een eenvoudige aanpak die zinvol is, het succes van de hybride methode te meten en voor productiviteit te zorgen.

Research and Development

Sommigen beschouwen dit misschien als een methodologie, maar ik geloof dat dit een belangrijke basis is voor het data science-projectproces. Net als bij de watervalmethodologie kan het geen kwaad om jezelf te plannen en voor te bereiden met zoveel mogelijk informatie.

Maar dat is niet waar ik het hier over heb. Ja, het is geweldig om alles te onderzoeken voordat je aan een project begint. Maar een goede manier om effectief projectmanagement te garanderen, is door uw project te zien als een onderzoeks- en ontwikkelingsproject. Het is een effectief hulpmiddel voor de samenwerking tussen datawetenschapsteams.

U wilt eerst lopen voordat u begint en uw datawetenschapsproject uitvoeren alsof het een onderzoekspaper is. Sommige data science-projecten hebben harde deadlines die dit proces lastig maken. Het haasten van je eindproduct brengt echter altijd nog meer uitdagingen met zich mee. U wilt een effectief en succesvol model bouwen dat voldoet aan uw initiële data science-levenscyclusfase: Business Understanding.

Onderzoek en ontwikkeling in een data science-project houdt de deur open voor innovatie, vergroot de creativiteit en beperkt het team niet om genoegen te nemen met iets dat veel groter zou kunnen zijn!

Hoewel er verschillende methodologieën zijn waaruit u kunt kiezen, komt het uiteindelijk neer op de bedrijfsvoering van het bedrijf. Sommige methoden die bij het ene bedrijf populair zijn, zijn voor een ander bedrijf misschien niet de beste aanpak.

Individuen kunnen verschillende manieren van werken hebben, dus de beste aanpak is om een methode te creëren die voor iedereen werkt.

Wilt u meer weten over het automatiseren van uw data science-workflow, lees dan dit: Automatisering in Data Science-workflows.

Nisha Arja is een datawetenschapper, freelance technisch schrijver en communitymanager bij KDnuggets. Ze is met name geïnteresseerd in het geven van loopbaanadvies of tutorials over Data Science en op theorie gebaseerde kennis rond Data Science. Ze wil ook de verschillende manieren onderzoeken waarop kunstmatige intelligentie de levensduur van de mens ten goede komt/kan komen. Een enthousiaste leerling, die haar technische kennis en schrijfvaardigheid wil verbreden, terwijl ze anderen helpt te begeleiden.