Warum und wie sollte man „Productive Data Science“ lernen?

= Der vorherige Eintrag

Der nächste Eintrag =>

Stichworte: Bücher , Career Advice, Kurse, Daten Wissenschaft, Python

Was ist Productive Data Science und was sind einige ihrer Komponenten?

By Tirthajyoti Sarkar, Adaptdix Corp.

Bemerkungen

Bild-Quelle: Pixabay (Freies Bild)

Effizienz im Data-Science-Workflow

Data Science und Machine Learning können mit unterschiedlicher Effizienz und Produktivität praktiziert werden. Unabhängig vom Anwendungsbereich oder der Spezialisierung sollte ein Data Scientist – Anfänger oder erfahrener Profi – danach streben, seine/ihre Leistungsfähigkeit steigern bei allen Aspekten typischer Data-Science-Aufgaben,

statistische Analyse,
Visualisierung,
Modellauswahl, Feature Engineering,
Codequalitätsprüfung, Modularisierung,
Parallelverarbeitung,
einfache Bereitstellung von Web-Apps

Bild-Quelle: Pixabay (Freies Bild)

Dies bedeutet, dass Sie all diese Aufgaben erfüllen,

bei höherer Geschwindigkeit
mit schnellerem Debugging
synchron
indem Sie alle verfügbaren Hardwareressourcen voll ausschöpfen

Was können Sie in diesem Prozess erwarten?

Stellen wir uns vor, jemand unterrichtet ein „Produktive Datenwissenschaft“-Kurs oder ein Buch darüber schreiben – mit Python als Sprachframework. Was sollten die typischen Erwartungen an einen solchen Kurs oder ein solches Buch sein?

Bild-Quelle: Pixabay (Freies Bild)

Der Kurs/das Buch sollte für diejenigen bestimmt sein, die es wünschen überspringen über den Standardweg hinaus der Durchführung von Data-Science- und Machine-Learning-Aufgaben und nutzen das gesamte Spektrum des Python-Data-Science-Ökosystems für eine viel höhere Produktivität.

Den Lesern soll beigebracht werden, Ineffizienzen und Engpässe im Standardprozess zu erkennen und über den Tellerrand hinaus zu denken.

Automatisierung repetitiver Data-Science-Aufgaben ist eine wichtige Denkweise, die die Leser durch die Lektüre dieses Buches entwickeln werden. In vielen Fällen lernen sie auch, die bestehende Codierungspraxis zu erweitern, um mit Hilfe fortschrittlicher Softwaretools, die bereits im Python-Ökosystem vorhanden sind, aber in keiner Standard-Data Science gelehrt werden, größere Datensätze mit hoher Effizienz zu verarbeiten.

Dies sollte kein normales Python-Kochbuch sein, das Standardbibliotheken wie Numpy oder Pandas lehrt.

Vielmehr sollte es sich auf nützliche Techniken konzentrieren, wie z Messen Sie den Speicherbedarf und die Ausführungsgeschwindigkeit von ML-Modellen, Qualitätsprüfung eine Data-Science-Pipeline, modularisieren eine Data-Science-Pipeline für die App-Entwicklung usw. Sie sollte auch Python-Bibliotheken abdecken, die sehr praktisch sind für automatisieren und Beschleunigen die täglichen Aufgaben eines jeden Data Scientists.

Darüber hinaus sollten Tools und Pakete angesprochen werden, die einem Datenwissenschaftler helfen Umgang mit großen und komplexen Datensätzen auf eine weitaus optimalere Weise, als es möglich gewesen wäre, wenn man der üblichen Weisheit der Python-Data-Science-Technologie folgte.

Einige spezifische Fähigkeiten, die es zu meistern gilt

Bild-Quelle: Pixabay (Freies Bild)

Um die Dinge konkret zu fassen, lassen Sie uns einige spezifische Fähigkeiten zusammenfassen, die es zum Lernen und Üben zu meistern gilt Produktive Datenwissenschaft. Ich habe auch versucht, die Links zu einigen repräsentativen Artikeln zu jeder Fertigkeit als Referenz hinzuzufügen.

So erreichen Schnellen und effizienten Code für Data Science schreiben/ML und wie man ihre Geschwindigkeit und Effizienz misst (In diesem Artikel finden)
Wie man modularisierte und ausdrucksstarke Data-Science-Pipelines erstellt, um die Produktivität zu verbessern (In diesem Artikel finden)
So schreiben Sie Testmodule für Data Science- und ML-Modelle (In diesem Artikel finden)
Wie man große und komplexe Datensätze effizient handhabt (was mit herkömmlichen DS-Tools schwierig gewesen wäre)
Wie Sie GPU- und Multi-Core-Prozessoren für alle Arten von Data-Science- und Analytics-Aufgaben voll ausnutzen und nicht nur für spezielle Deep-Learning-Modellierung (In diesem Artikel finden)
So erstellen Sie schnelle GUI-Apps für die Demo einer Data Science/ML-Idee oder Modelloptimierung (In diesem Artikel finden) oder wie Sie ML-Modelle und Datenanalysecode einfach (und schnell) auf App-Ebene bereitstellen (In diesem Artikel finden)

Ein ideales Buch zu diesem Thema wird…

Bild-Quelle: Pixabay (Freies Bild)

Lehren Sie, wie man aufpasst Ineffizienzen und Engpässe im Standard-Data-Science-Code und wie man über den Tellerrand hinausdenkt, um diese Probleme zu lösen.
Lehren Sie, wie Sie modularisierten, effizienten Datenanalyse- und Machine-Learning-Code schreiben, um die Produktivität in einer Vielzahl von Situationen zu verbessern – explorative Datenanalyse, Visualisierung, Deep Learning usw.
Decken Sie ein breites Spektrum an Nebenthemen wie Softwaretest, Modulentwicklung, GUI-Programmierung, Bereitstellung von ML-Modellen als Web-App, die für angehende Data Scientists unschätzbare Fähigkeiten sind und die in keinem Standard-Data-Science-Buch zusammenfassend zu finden sind.
Paralleles Rechnen abdecken (z. B. Dask, Ray), Skalierbarkeit (z. B. Väx, Modin) und einen GPU-gestützten Data-Science-Stack (SCHNELLE) mit praktischen Beispielen.
Stellen Sie den Lesern ein größeres und ständig wachsendes Python-Ökosystem von Data-Science-Tools vor, das mit den breiteren Aspekten von . verbunden ist Softwareentwicklung und Bereitstellung auf Produktionsebene.

Ein konkretes Beispiel: GPU-gestützte und verteilte Datenwissenschaft

Während der Einsatz von GPUs und verteiltem Computing in akademischen und geschäftlichen Kreisen für zentrale KI/ML-Aufgaben breit diskutiert wird, haben sie in ihrem Nutzen für reguläre Data Science- und Data-Engineering-Aufgaben weniger Abdeckung gefunden. Der Einsatz von GPUs für regelmäßige tägliche statistische Analysen oder andere Data-Science-Aufgaben kann jedoch viel dazu beitragen, das sprichwörtliche zu werden „Produktiver Datenwissenschaftler“".

So befasst sich beispielsweise die RAPIDS-Suite von Softwarebibliotheken und APIs Ihnen – einem regulären Data Scientist (und nicht unbedingt einem Deep-Learning-Praktiker) – die Möglichkeit und Flexibilität bei der Durchführung zu geben End-to-End-Pipelines für Data Science und Analyse vollständig auf GPUs.

Bild-Quelle: Autor hat Collage erstellt

Selbst bei Verwendung mit einer bescheidenen GPU zeigen diese Bibliotheken eine bemerkenswerte Geschwindigkeitsverbesserung gegenüber ihren regulären Python-Pendants. Natürlich sollten wir diese umarmen, wann immer wir können, denn Produktive Datenwissenschaft Arbeitsablauf.

In ähnlicher Weise gibt es hervorragende Open-Source-Möglichkeiten, die Grenzen der Single-Core-Natur der Python-Sprache zu überschreiten und das Paradigma des parallelen Computings zu übernehmen, ohne sich von der typisch datenwissenschaftlichen Person abzulösen.

Bild-Quelle: Autor hat Collage erstellt

Zusammenfassung

Wir diskutierten die Dienstprogramme und Kernkomponenten von a Produktive Datenwissenschaft Arbeitsablauf. Wir stellten uns vor, was ein idealer Kurs oder ein ideales Buch zu diesem Thema den Lesern bieten würde. Wir haben einige konkrete Beispiele angesprochen und die Vorteile aufgezeigt. Einige verwandte Ressourcen wurden auch im Zusammenhang mit zu beherrschenden Fähigkeiten bereitgestellt.

Sie können die des Autors überprüfen GitHub Repositories für Code, Ideen und Ressourcen im Bereich maschinelles Lernen und Datenwissenschaft. Wenn Sie wie ich eine Leidenschaft für KI / maschinelles Lernen / Datenwissenschaft haben, wenden Sie sich bitte an füge mich auf LinkedIn hinzu or folge mir auf Twitter.

Original. Mit Genehmigung erneut veröffentlicht.

Related: