Opublikowane ponownie przez Plato

Obserwuje: 0

Dlaczego i jak powinieneś uczyć się „produktywnej nauki o danych”?

= Poprzedni post

Następny post =>

tagi: Książki, Poradnik kariery, Kursy, Nauka danych, Python

Czym jest Productive Data Science i jakie są niektóre z jego elementów?

By Tirthadźjoti Sarkar, Adapdix Corp.

komentarze

Źródło zdjęcia: Pixabay (Darmowy obraz)

Wydajność w przepływie pracy w analizie danych

Naukę o danych i uczenie maszynowe można praktykować z różnym stopniem wydajności i produktywności. Niezależnie od obszaru zastosowania lub specjalizacji, data scientist — początkujący lub doświadczony profesjonalista — powinien dążyć do: zwiększyć jego/jej efektywność we wszystkich aspektach typowych zadań data science,

Analiza statystyczna,
wyobrażanie sobie,
dobór modelu, inżynieria funkcji,
testowanie jakości kodu, modularyzacja,
przetwarzanie równoległe,
łatwe wdrażanie aplikacji internetowych

Źródło zdjęcia: Pixabay (Darmowy obraz)

Oznacza to wykonanie wszystkich tych zadań,

przy większej prędkości
z szybszym debugowaniem
w sposób zsynchronizowany
wykorzystując w pełni wszelkie dostępne zasoby sprzętowe

Czego powinieneś się spodziewać w tym procesie?

Wyobraźmy sobie, że ktoś uczy „Produktywna nauka o danych” kurs lub napisanie książki na ten temat — używając Pythona jako frameworka językowego. Jakie powinny być typowe oczekiwania wobec takiego kursu lub książki?

Źródło zdjęcia: Pixabay (Darmowy obraz)

Kurs/książka powinna być przeznaczona dla tych, którzy chcą: skacz poza standardowy sposób wykonywania zadań związanych z nauką danych i uczeniem maszynowym oraz wykorzystania pełnego spektrum ekosystemu nauki danych w Pythonie, aby uzyskać znacznie wyższy poziom produktywności.

Czytelników należy nauczyć, jak zwracać uwagę na nieefektywności i wąskie gardła w standardowym procesie oraz jak myśleć nieszablonowo.

Automatyzacja powtarzalnych zadań data science to kluczowy sposób myślenia, który czytelnicy rozwiną po przeczytaniu tej książki. W wielu przypadkach nauczą się również, jak rozszerzyć istniejącą praktykę kodowania, aby obsługiwać większe zbiory danych z wysoką wydajnością za pomocą zaawansowanych narzędzi programowych, które już istnieją w ekosystemie Pythona, ale nie są nauczane w żadnej standardowej nauce o danych.

Nie powinna to być zwykła książka kucharska Pythona, ucząca standardowych bibliotek, takich jak Numpy czy Pandas.

Powinien raczej koncentrować się na przydatnych technikach, takich jak: zmierzyć zużycie pamięci i szybkość wykonywania; modeli ML, test jakości potok data science, modularyzować potok data science do tworzenia aplikacji itp. Powinien również obejmować biblioteki Pythona, które są bardzo przydatne dla automatyzacja i przyspieszać codzienne zadania każdego analityka danych.

Ponadto powinna dotyczyć narzędzi i pakietów, które pomagają naukowcom danych radzenie sobie z dużymi i złożonymi zbiorami danych w znacznie bardziej optymalny sposób niż byłoby to możliwe, gdyby stosowano się do standardowej mądrości technologii data science Pythona.

Niektóre konkretne umiejętności do opanowania

Źródło zdjęcia: Pixabay (Darmowy obraz)

Mówiąc konkretnie, podsumujmy kilka konkretnych umiejętności do opanowania w celu uczenia się i ćwiczenia Produktywna nauka o danych. Próbowałem również wrzucić linki do niektórych reprezentatywnych artykułów, aby znaleźć odniesienie do każdej umiejętności.

jak pisać szybki i wydajny kod do nauki o danych/ML i jak mierzyć ich szybkość i wydajność (zobacz ten artykuł)
Jak budować modularne i ekspresyjne potoki analizy danych w celu poprawy produktywności (zobacz ten artykuł)
Jak pisać moduły testowe dla data science i modeli ML (zobacz ten artykuł)
Jak skutecznie obsługiwać duże i złożone zbiory danych (co byłoby trudne w przypadku tradycyjnych narzędzi DS)
Jak w pełni wykorzystać GPU i procesory wielordzeniowe do wszelkiego rodzaju zadań związanych z nauką o danych i analizą, a nie tylko do specjalistycznego modelowania głębokiego uczenia (zobacz ten artykuł)
Jak przygotować szybkie aplikacje GUI do demonstracji pomysłu na naukę danych / ML lub dostrojenia modelu (zobacz ten artykuł) lub jak łatwo (i szybko) wdrożyć modele ML i kod analizy danych na poziomie aplikacji (zobacz ten artykuł)

Idealna książka na ten temat…

Źródło zdjęcia: Pixabay (Darmowy obraz)

Naucz jak uważać nieefektywności i wąskie gardła w standardowym kodzie data science i jak myśleć nieszablonowo, aby rozwiązać te problemy.
Naucz, jak pisać zmodularyzowaną, wydajną analizę danych i kod uczenia maszynowego, aby zwiększyć produktywność w różnych sytuacjach — eksploracyjna analiza danych, wizualizacja, głębokie uczenie itp.
Obejmuje szeroki zakres tematów pobocznych, takich jak testowanie oprogramowania, tworzenie modułów, Programowanie GUI, Wdrożenie modelu ML jako aplikacja internetowa, która jest nieocenionym zestawem umiejętności dla początkujących naukowców zajmujących się danymi i które trudno znaleźć zbiorczo w jednej standardowej książce o nauce danych.
Obejmuje przetwarzanie równoległe (np. Dask, Ray), skalowalność (np. Vaex, Modin) i stos analizy danych oparty na procesorze GPU (KATARAKTY NA RZECE) z praktycznymi przykładami.
Ujawnij i poprowadź czytelników do większego i stale rozwijającego się ekosystemu Pythona narzędzi do nauki o danych, które są połączone z szerszymi aspektami Inżynieria oprogramowania i wdrożenie na poziomie produkcyjnym.

Konkretny przykład: oparta na GPU i rozproszona nauka o danych

Chociaż wykorzystanie procesorów graficznych i obliczeń rozproszonych jest szeroko dyskutowane w kręgach akademickich i biznesowych w przypadku podstawowych zadań AI/ML, okazało się, że ich użyteczność jest mniejsza w przypadku regularnych zadań związanych z analizą danych i inżynierią danych. Jednak używanie procesorów graficznych do regularnych codziennych analiz statystycznych lub innych zadań związanych z badaniem danych może znacznie przyczynić się do tego, aby stać się przysłowiowym „Produktywny analityk danych".

Na przykład, Pakiet bibliotek oprogramowania i interfejsów API RAPIDS daje Tobie — zwykłemu naukowcowi danych (i niekoniecznie praktykowi głębokiego uczenia) — możliwość i elastyczność wykonania kompleksowe potoki do nauki i analizy danych w całości na procesorach GPU.

Źródło zdjęcia: Autor stworzył kolaż

Gdy są używane nawet ze skromnym procesorem graficznym, biblioteki te wykazują znaczną poprawę szybkości w porównaniu ze zwykłymi odpowiednikami w Pythonie. Oczywiście powinniśmy je przyjąć, kiedy tylko możemy Produktywna nauka o danych workflow.

Podobnie, istnieją doskonałe możliwości open source, aby wyjść poza ograniczenia jednordzeniowej natury języka Python i przyjąć paradygmat obliczeń równoległych bez odchodzenia od typowej osobowości naukowca danych.

Źródło zdjęcia: Autor stworzył kolaż

Podsumowanie

Omówiliśmy narzędzia i podstawowe elementy Produktywna nauka o danych przepływ pracy. Wyobraziliśmy sobie, co zaoferuje czytelnikom idealny kurs lub książka na ten temat. Dotknęliśmy kilku konkretnych przykładów i zilustrowaliśmy korzyści. Dostarczono również pewne powiązane zasoby w kontekście umiejętności do opanowania.

Możesz sprawdzić autora GitHub repozytoria dla kodu, pomysłów i zasobów w uczeniu maszynowym i analizie danych. Jeśli, podobnie jak ja, pasjonujesz się sztuczną inteligencją / uczeniem maszynowym / nauką danych, nie krępuj się dodaj mnie na LinkedIn or Obserwuj mnie na Twitterze.

Oryginalny. Przesłane za zgodą.

Związane z:

= Poprzedni post

Następny post =>

Najważniejsze artykuły z ostatnich 30 dni

Najbardziej popularne posty
6 najlepszych kursów online z zakresu nauki o danych w 2021 r. Naukowcy zajmujący się danymi i inżynierowie ML to luksusowi pracownicy Porady dyrektora ds. badań Google dotyczące uczenia się o danych naukowych Alternatywy GitHub Copilot Open Source Geometryczne podstawy Deep Learning

Najczęściej udostępniane
Dlaczego i jak powinieneś uczyć się „produktywnej nauki o danych”? Nie tylko do głębokiego uczenia: jak procesory GPU przyspieszają analizę danych i analizę danych Bootstrapuj nowoczesny stos danych w 5 minut dzięki Terraform Nauka o danych w oparciu o GPU (NIE Deep Learning) z RAPIDS Zostań inżynierem analityki w 90 dni