Ein Leitfaden zu Data Science-Projektmanagementmethoden – KDnuggets

Neuauflage von Plato

Verfolger: 0

Ein Leitfaden zu Data Science-Projektmanagementmethoden
Bild vom Autor

Ein Data-Science-Projekt besteht aus vielen Elementen. An dem Prozess sind viele Menschen beteiligt, und auf dem Weg dorthin stehen viele Herausforderungen an. Viele Unternehmen erkennen die Notwendigkeit von Data Science und sie ist heute in unserem Leben implementiert. Einige haben jedoch Schwierigkeiten damit, wie sie ihre Datenanalysen nutzen und welchen Weg sie einschlagen sollen, um dorthin zu gelangen.

Die größte Annahme, die Unternehmen beim Einsatz von Data Science machen, besteht darin, zu implizieren, dass sie aufgrund der Verwendung von Programmiersprachen dieselbe Methodik wie Software-Engineering imitiert. Allerdings unterscheiden sich die integrierte Datenwissenschaft und Software der Modelle.

Für den Erfolg der Datenwissenschaft sind ein einzigartiger Lebenszyklus und einzigartige Methoden erforderlich.

Der Data-Science-Lebenszyklus kann in sieben Schritte unterteilt werden.

Geschäftsverständnis

Wenn Sie etwas für ein Unternehmen produzieren, sollte Ihre Frage Nummer 1 „Warum?“ lauten. Warum müssen wir das tun? Warum ist es für das Unternehmen wichtig? Warum? Warum? Warum?

Das Data-Science-Team ist für die Erstellung eines Modells und die Erstellung von Datenanalysen verantwortlich, die auf den Anforderungen des Unternehmens basieren. In dieser Phase des Data-Science-Lebenszyklus sollten das Data-Science-Team und die Führungskräfte des Unternehmens die zentralen Ziele des Projekts identifizieren und beispielsweise die Variablen untersuchen, die vorhergesagt werden müssen.

Auf welcher Art von Data-Science-Projekt basiert das? Handelt es sich um eine Regressions- oder Klassifizierungsaufgabe, ein Clustering oder eine Anomalieerkennung? Sobald Sie das Gesamtziel Ihres Objekts verstanden haben, können Sie immer wieder nach dem Warum, Was, Wo, Wann und Wie fragen! Die richtigen Fragen zu stellen ist eine Kunst und liefert dem Data-Science-Team einen detaillierten Kontext zum Projekt.

Data Mining

Sobald Sie über das gesamte Geschäftsverständnis verfügen, das Sie für das Projekt benötigen, besteht Ihr nächster Schritt darin, das Projekt durch das Sammeln von Daten zu initiieren. Die Data-Mining-Phase umfasst das Sammeln von Daten aus verschiedenen Quellen, die Ihrem Projektziel entsprechen.

Die Fragen, die Sie sich in dieser Phase stellen werden, sind: Welche Daten benötige ich für dieses Projekt? Woher bekomme ich diese Daten? Helfen diese Daten dabei, mein Ziel zu erreichen? Wo werde ich diese Daten speichern?

Datenreinigung

Einige Datenwissenschaftler entscheiden sich dafür, die Phasen des Data Mining und der Datenbereinigung zu vermischen. Für einen besseren Arbeitsablauf ist es jedoch sinnvoll, die Phasen zu unterscheiden.

Die Datenbereinigung ist die zeitaufwändigste Phase im Data-Science-Workflow. Je größer Ihre Daten, desto länger dauert es. Es kann in der Regel bis zu 50–80 % der Zeit eines Datenwissenschaftlers in Anspruch nehmen. Der Grund dafür, dass es so lange dauert, ist, dass die Daten nie sauber sind. Möglicherweise haben Sie es mit Daten zu tun, die Inkonsistenzen, fehlende Daten, falsche Beschriftungen, Rechtschreibfehler und mehr aufweisen.

Bevor Sie analytische Arbeiten durchführen, müssen Sie diese Fehler korrigieren, um sicherzustellen, dass die Daten, mit denen Sie arbeiten möchten, korrekt sind und genaue Ergebnisse liefern.

Datenexploration

Nachdem Sie viel Zeit und Energie in die Bereinigung der Daten investiert haben, verfügen Sie nun über blitzsaubere Daten, mit denen Sie arbeiten können. Zeit für die Datenerkundung! In dieser Phase erfolgt das Brainstorming Ihres Gesamtprojektziels. Sie möchten tief in die Daten eintauchen, versteckte Muster erkennen, Visualisierungen erstellen, um weitere Erkenntnisse zu gewinnen und mehr.

Mit diesen Informationen können Sie eine Hypothese erstellen, die mit Ihrem Geschäftsziel übereinstimmt, und diese als Bezugspunkt nutzen, um sicherzustellen, dass Sie Ihren Aufgaben nachkommen.

Feature-Entwicklung

Unter Feature Engineering versteht man die Entwicklung und Konstruktion neuer Datenfeatures aus Rohdaten. Sie nutzen die Rohdaten und erstellen informative Features, die Ihrem Geschäftsziel entsprechen. Die Feature-Engineering-Phase besteht aus der Feature-Auswahl und der Feature-Konstruktion.

Bei der Merkmalsauswahl reduzieren Sie die Anzahl der vorhandenen Merkmale, die den Daten mehr Rauschen als tatsächlich wertvolle Informationen hinzufügen. Zu viele Features können zu einem Fluch der Dimensionalität führen, also zu einer erhöhten Komplexität der Daten, aus denen das Modell einfach und effektiv lernen kann.

Feature-Konstruktion steckt im Namen. Es ist die Konstruktion neuer Funktionen. Mit den Funktionen, die Sie derzeit haben, können Sie neue Funktionen erstellen. Wenn sich Ihr Ziel beispielsweise auf ältere Mitglieder konzentriert, können Sie einen Schwellenwert für das gewünschte Alter festlegen.

Diese Phase ist sehr wichtig, da sie die Genauigkeit Ihres Vorhersagemodells beeinflusst.

Vorausschauende Modellierung

Hier beginnt der Spaß und Sie werden sehen, ob Sie Ihr Geschäftsziel erreicht haben. Die prädiktive Modellierung besteht darin, die Daten zu trainieren, zu testen und umfassende statistische Methoden zu verwenden, um sicherzustellen, dass die Ergebnisse des Modells für die erstellte Hypothese von Bedeutung sind.

Anhand aller Fragen, die Sie in der Phase „Business Understanding“ gestellt haben, können Sie ermitteln, welches Modell für Ihre Aufgabenstellung das richtige ist. Die Wahl des Modells kann ein Versuch-und-Irrtum-Prozess sein, aber dies ist wichtig, um sicherzustellen, dass Sie ein erfolgreiches Modell erstellen, das genaue Ergebnisse liefert.

Sobald Sie Ihr Modell erstellt haben, möchten Sie es anhand Ihres Datensatzes trainieren und seine Leistung bewerten. Sie können verschiedene Bewertungsmetriken wie die k-fache Kreuzvalidierung verwenden, um die Genauigkeit zu messen, und dies so lange tun, bis Sie mit Ihrem Genauigkeitswert zufrieden sind.

Das Testen Ihres Modells mithilfe von Test- und Validierungsdaten gewährleistet Genauigkeit und eine gute Leistung Ihres Modells. Das Füttern Ihrer Daten mit unsichtbaren Daten ist eine gute Möglichkeit, zu sehen, wie das Modell mit Daten funktioniert, mit denen es zuvor noch nicht trainiert wurde. Es bringt Ihr Modell zum Laufen!

Datenvisualisierung

Sobald Sie mit der Leistung Ihres Modells zufrieden sind, können Sie den Führungskräften im Unternehmen alles erklären. Das Erstellen von Datenvisualisierungen ist eine gute Möglichkeit, Ihre Ergebnisse auch technisch nicht versierten Personen zu erklären und eine Geschichte über die Daten zu erzählen.

Datenvisualisierung ist eine Kombination aus Kommunikation, Statistik und Kunst. Es gibt so viele Möglichkeiten, Ihre Datenergebnisse auf ästhetisch ansprechende Weise zu präsentieren. Sie können Tools wie verwenden Matplotlib-Dokumentation, Seaborn-Tutorial und Plotly-Bibliothek. Wenn Sie Python verwenden, lesen Sie Folgendes: Erstellen Sie beeindruckende Visualisierungen mit der Python Graph Gallery.

Und plötzlich sind Sie am Ende des Lebenszyklus, aber denken Sie daran, es ist ein Zyklus. Sie müssen also zum Anfang zurückkehren: Business Understanding. Sie müssen den Erfolg Ihres Modells anhand des ursprünglichen Geschäftsverständnisses und -ziels sowie der erstellten Hypothese bewerten.

Nachdem wir nun den Lebenszyklus der Datenwissenschaft durchlaufen haben, denken Sie bestimmt, dass dies sehr einfach erscheint. Es ist nur ein Schritt nach dem anderen. Aber wir alle wissen, dass die Dinge nicht so einfach sind. Um es so einfach und effektiv wie möglich zu gestalten, müssen Managementmethoden eingeführt werden.

Data-Science-Projekte liegen nicht mehr allein in der Verantwortung der Data Scientists – sie sind eine Teamleistung. Daher ist eine Standardisierung des Projektmanagements unabdingbar und es gibt Methoden, mit denen Sie dies sicherstellen können. Schauen wir sie uns an.

Wasserfallmethodik

Genau wie ein Wasserfall ist die Wasserfallmethodik ein sequenzieller Entwicklungsprozess, der alle Phasen eines Projekts durchläuft. Jede Phase muss abgeschlossen sein, damit die nächste Phase beginnen kann. Da es keine Überschneidungen zwischen den Phasen gibt, handelt es sich um eine effektive Methode, da es keine Konflikte gibt. Wenn Sie die vorherigen Phasen noch einmal durchgehen müssen, bedeutet das, dass das Team schlecht geplant hat.

Es besteht aus fünf Phasen:

Voraussetzungen:
Design
Sytemimplementierung
Verifizierung (Testen)
Wartung (Bereitstellung)

Wann sollten Sie also die Wasserfallmethode anwenden? Da es wie Wasser fließt, muss alles klar sein. Das bedeutet, dass das Ziel definiert ist, das Team den Technologie-Stack in- und auswendig kennt und alle Projektelemente vorhanden sind, um einen reibungslosen und effektiven Prozess zu gewährleisten.

Aber kommen wir zurück zur Realität. Fließen Data-Science-Projekte reibungslos wie Wasser? Nein. Sie erfordern viel Experimentieren, Anforderungsänderungen und mehr. Das bedeutet jedoch nicht, dass Sie Elemente der Wasserfallmethodik nicht verwenden können. Die Wasserfallmethode erfordert viel Planung. Wenn Sie alles planen, kann es sein, dass Sie auf dem Weg immer noch auf ein oder zwei Probleme stoßen, aber die Herausforderungen werden geringer und der Prozess nicht so hart sein.

Agile Methodologie

Das Agile Methodik wurde Anfang 2001 ins Leben gerufen, als 17 Menschen zusammenkamen, um über die Zukunft der Softwareentwicklung zu diskutieren. Es basiert auf 4 Grundwerten und 12 Prinzipien.

Die agile Methodik entspricht eher der heutigen Technologie, da sie in einer schnelllebigen, sich ständig verändernden Technologiebranche funktioniert. Wenn Sie ein Technikprofi sind, wissen Sie, dass sich die Anforderungen in einem Datenwissenschafts- oder Softwareprojekt ständig ändern. Daher ist es wichtig, über die richtige Methode zu verfügen, die es Ihnen ermöglicht, sich schnell an diese Veränderungen anzupassen.

Die agile Methodik ist eine perfekte Data-Science-Projektmanagementmethode, da sie es dem Team ermöglicht, die Anforderungen des Projekts kontinuierlich zu überprüfen, während es wächst. Führungskräfte und Data-Science-Manager können Entscheidungen über Änderungen treffen, die während des Entwicklungsprozesses vorgenommen werden müssen, und nicht erst am Ende, wenn alles abgeschlossen ist.

Dies hat sich als äußerst effektiv erwiesen, da sich das Modell weiterentwickelt, um benutzerorientierte Ergebnisse widerzuspiegeln und Zeit, Geld und Energie zu sparen.

Ein Beispiel für eine agile Methode ist Gedränge. Die Scrum-Methode verwendet ein Framework, das dabei hilft, mithilfe einer Reihe von Werten, Prinzipien und Praktiken eine Struktur in einem Team zu schaffen. Mit Scrum kann beispielsweise ein Data-Science-Projekt sein größeres Projekt in eine Reihe kleinerer Projekte aufteilen. Jedes dieser Miniprojekte wird als Sprint bezeichnet und besteht aus einer Sprintplanung zur Definition von Zielen, Anforderungen, Verantwortlichkeiten und mehr.

Hybride Methodik

Warum nicht zwei verschiedene Methoden zusammen verwenden? Dies wird als Hybridmethode bezeichnet, bei der zwei oder mehr Methoden verwendet werden, um eine Methode zu erstellen, die für das Unternehmen völlig einzigartig ist. Unternehmen können Hybridmethoden für alle Arten von Projekten nutzen, der Grund dafür liegt jedoch in der Produktbereitstellung.

Wenn beispielsweise ein Kunde ein Produkt benötigt, aber mit dem Zeitrahmen der Produktion aufgrund der Verwendung von Sprints in einer agilen Methode nicht zufrieden ist. Es sieht also so aus, als müsste das Unternehmen etwas mehr planen, oder? Welche Methode erfordert viel Planung? Ja, genau, Wasserfall. Das Unternehmen kann die Wasserfallmethode in seine Methode integrieren, um gezielt auf die Anforderungen des Kunden einzugehen.

Einige Unternehmen haben möglicherweise gemischte Gefühle hinsichtlich der Kombination einer agilen Methode mit einer nicht-agilen Methode wie Waterfall. Diese beiden Methoden können nebeneinander bestehen. Es liegt jedoch in der Verantwortung des Unternehmens, einen einfachen, sinnvollen Ansatz sicherzustellen, den Erfolg der Hybridmethode zu messen und Produktivität zu gewährleisten.

Forschung und Entwicklung

Manche halten dies vielleicht für eine Methodik, ich glaube jedoch, dass dies eine wichtige Grundlage für den Data-Science-Projektprozess ist. Genau wie bei der Wasserfallmethode kann es nicht schaden, sich mit möglichst vielen Informationen zu planen und vorzubereiten.

Aber das ist nicht das, worüber ich hier spreche. Ja, es ist großartig, alles zu recherchieren, bevor Sie ein Projekt starten. Eine gute Möglichkeit, ein effektives Projektmanagement sicherzustellen, besteht jedoch darin, Ihr Projekt als Forschungs- und Entwicklungsprojekt zu betrachten. Es ist ein effektives Werkzeug für die Zusammenarbeit im Data-Science-Team.

Bevor Sie Ihr Data-Science-Projekt wie eine Forschungsarbeit starten und betreiben, möchten Sie einen Spaziergang machen. Für einige Data-Science-Projekte gelten strenge Fristen, die diesen Prozess erschweren. Wenn Sie jedoch Ihr Endprodukt überstürzen, bringt dies immer weitere Herausforderungen mit sich. Sie möchten ein effektives und erfolgreiches Modell aufbauen, das Ihrer ersten Lebenszyklusphase der Datenwissenschaft gerecht wird: Geschäftsverständnis.

Forschung und Entwicklung in einem Data-Science-Projekt halten die Türen für Innovationen offen, steigern die Kreativität und hindern das Team nicht daran, sich mit etwas zufrieden zu geben, das viel größer sein könnte!

Obwohl verschiedene Methoden zur Auswahl stehen, kommt es letztendlich auf die Abläufe des Unternehmens an. Einige Methoden, die in einem Unternehmen beliebt sind, sind für ein anderes Unternehmen möglicherweise nicht der beste Ansatz.

Da jeder Mensch unterschiedliche Arbeitsweisen haben kann, besteht der beste Ansatz darin, eine Methode zu entwickeln, die für alle funktioniert.

Wenn Sie mehr über die Automatisierung Ihres Data-Science-Workflows erfahren möchten, lesen Sie Folgendes: Automatisierung in Data Science-Workflows.

Nisha Arya ist Data Scientist, freiberuflicher technischer Redakteur und Community Manager bei KDnuggets. Sie ist besonders daran interessiert, Data Science Karriereberatung oder Tutorials und theoriebasiertes Wissen rund um Data Science anzubieten. Sie möchte auch die verschiedenen Möglichkeiten untersuchen, wie künstliche Intelligenz der Langlebigkeit des menschlichen Lebens zugute kommt/kann. Eine begeisterte Lernende, die ihr technisches Wissen und ihre Schreibfähigkeiten erweitern möchte, während sie anderen hilft, sie zu führen.