poloniex-zgadza się-na-rozliczenie-z-sekundą-za-ponad-10m.png

Dlaczego i jak powinieneś uczyć się „produktywnej nauki o danych”?

Węzeł źródłowy: 1858780

Złoty blogDlaczego i jak powinieneś uczyć się „produktywnej nauki o danych”?

Czym jest Productive Data Science i jakie są niektóre z jego elementów?




Źródło zdjęciaPixabay (Darmowy obraz)

Wydajność w przepływie pracy w analizie danych

 
Naukę o danych i uczenie maszynowe można praktykować z różnym stopniem wydajności i produktywności. Niezależnie od obszaru zastosowania lub specjalizacji, data scientist — początkujący lub doświadczony profesjonalista — powinien dążyć do: zwiększyć jego/jej efektywność we wszystkich aspektach typowych zadań data science,

  • Analiza statystyczna,
  • wyobrażanie sobie,
  • dobór modelu, inżynieria funkcji,
  • testowanie jakości kodu, modularyzacja,
  • przetwarzanie równoległe,
  • łatwe wdrażanie aplikacji internetowych



Źródło zdjęciaPixabay (Darmowy obraz)

 

Oznacza to wykonanie wszystkich tych zadań,

  • przy większej prędkości
  • z szybszym debugowaniem
  • w sposób zsynchronizowany
  • wykorzystując w pełni wszelkie dostępne zasoby sprzętowe

Czego powinieneś się spodziewać w tym procesie?

 
Wyobraźmy sobie, że ktoś uczy „Produktywna nauka o danych” kurs lub napisanie książki na ten temat — używając Pythona jako frameworka językowego. Jakie powinny być typowe oczekiwania wobec takiego kursu lub książki?



Źródło zdjęciaPixabay (Darmowy obraz)

 

Kurs/książka powinna być przeznaczona dla tych, którzy chcą: skacz poza standardowy sposób wykonywania zadań związanych z nauką danych i uczeniem maszynowym oraz wykorzystania pełnego spektrum ekosystemu nauki danych w Pythonie, aby uzyskać znacznie wyższy poziom produktywności.

Czytelników należy nauczyć, jak zwracać uwagę na nieefektywności i wąskie gardła w standardowym procesie oraz jak myśleć nieszablonowo.

Automatyzacja powtarzalnych zadań data science to kluczowy sposób myślenia, który czytelnicy rozwiną po przeczytaniu tej książki. W wielu przypadkach nauczą się również, jak rozszerzyć istniejącą praktykę kodowania, aby obsługiwać większe zbiory danych z wysoką wydajnością za pomocą zaawansowanych narzędzi programowych, które już istnieją w ekosystemie Pythona, ale nie są nauczane w żadnej standardowej nauce o danych.

Nie powinna to być zwykła książka kucharska Pythona, ucząca standardowych bibliotek, takich jak Numpy czy Pandas.

Powinien raczej koncentrować się na przydatnych technikach, takich jak: zmierzyć zużycie pamięci i szybkość wykonywania; modeli ML, test jakości potok data science, modularyzować potok data science do tworzenia aplikacji itp. Powinien również obejmować biblioteki Pythona, które są bardzo przydatne dla automatyzacja i przyspieszać codzienne zadania każdego analityka danych.

Ponadto powinna dotyczyć narzędzi i pakietów, które pomagają naukowcom danych radzenie sobie z dużymi i złożonymi zbiorami danych w znacznie bardziej optymalny sposób niż byłoby to możliwe, gdyby stosowano się do standardowej mądrości technologii data science Pythona.

Niektóre konkretne umiejętności do opanowania

 



Źródło zdjęciaPixabay (Darmowy obraz)

 

Mówiąc konkretnie, podsumujmy kilka konkretnych umiejętności do opanowania w celu uczenia się i ćwiczenia Produktywna nauka o danych. Próbowałem również wrzucić linki do niektórych reprezentatywnych artykułów, aby znaleźć odniesienie do każdej umiejętności.

  1. jak pisać szybki i wydajny kod do nauki o danych/ML i jak mierzyć ich szybkość i wydajność (zobacz ten artykuł)
  2. Jak budować modularne i ekspresyjne potoki analizy danych w celu poprawy produktywności (zobacz ten artykuł)
  3. Jak pisać moduły testowe dla data science i modeli ML (zobacz ten artykuł)
  4. Jak skutecznie obsługiwać duże i złożone zbiory danych (co byłoby trudne w przypadku tradycyjnych narzędzi DS)
  5. Jak w pełni wykorzystać GPU i procesory wielordzeniowe do wszelkiego rodzaju zadań związanych z nauką o danych i analizą, a nie tylko do specjalistycznego modelowania głębokiego uczenia (zobacz ten artykuł)
  6. Jak przygotować szybkie aplikacje GUI do demonstracji pomysłu na naukę danych / ML lub dostrojenia modelu (zobacz ten artykuł) lub jak łatwo (i szybko) wdrożyć modele ML i kod analizy danych na poziomie aplikacji (zobacz ten artykuł)

Idealna książka na ten temat…

 



Źródło zdjęciaPixabay (Darmowy obraz)

 

  1. Naucz jak uważać nieefektywności i wąskie gardła w standardowym kodzie data science i jak myśleć nieszablonowo, aby rozwiązać te problemy.
  2. Naucz, jak pisać zmodularyzowaną, wydajną analizę danych i kod uczenia maszynowego, aby zwiększyć produktywność w różnych sytuacjach — eksploracyjna analiza danych, wizualizacja, głębokie uczenie itp.
  3. Obejmuje szeroki zakres tematów pobocznych, takich jak testowanie oprogramowania, tworzenie modułów, Programowanie GUIWdrożenie modelu ML jako aplikacja internetowa, która jest nieocenionym zestawem umiejętności dla początkujących naukowców zajmujących się danymi i które trudno znaleźć zbiorczo w jednej standardowej książce o nauce danych.
  4. Obejmuje przetwarzanie równoległe (np. Dask, Ray), skalowalność (np. Vaex, Modin) i stos analizy danych oparty na procesorze GPU (KATARAKTY NA RZECE) z praktycznymi przykładami.
  5. Ujawnij i poprowadź czytelników do większego i stale rozwijającego się ekosystemu Pythona narzędzi do nauki o danych, które są połączone z szerszymi aspektami Inżynieria oprogramowania i wdrożenie na poziomie produkcyjnym.

Konkretny przykład: oparta na GPU i rozproszona nauka o danych

 
Chociaż wykorzystanie procesorów graficznych i obliczeń rozproszonych jest szeroko dyskutowane w kręgach akademickich i biznesowych w przypadku podstawowych zadań AI/ML, okazało się, że ich użyteczność jest mniejsza w przypadku regularnych zadań związanych z analizą danych i inżynierią danych. Jednak używanie procesorów graficznych do regularnych codziennych analiz statystycznych lub innych zadań związanych z badaniem danych może znacznie przyczynić się do tego, aby stać się przysłowiowym „Produktywny analityk danych".

Na przykład, Pakiet bibliotek oprogramowania i interfejsów API RAPIDS daje Tobie — zwykłemu naukowcowi danych (i niekoniecznie praktykowi głębokiego uczenia) — możliwość i elastyczność wykonania kompleksowe potoki do nauki i analizy danych w całości na procesorach GPU.



Źródło zdjęcia: Autor stworzył kolaż

 

Gdy są używane nawet ze skromnym procesorem graficznym, biblioteki te wykazują znaczną poprawę szybkości w porównaniu ze zwykłymi odpowiednikami w Pythonie. Oczywiście powinniśmy je przyjąć, kiedy tylko możemy Produktywna nauka o danych workflow.


 

Podobnie, istnieją doskonałe możliwości open source, aby wyjść poza ograniczenia jednordzeniowej natury języka Python i przyjąć paradygmat obliczeń równoległych bez odchodzenia od typowej osobowości naukowca danych.



Źródło zdjęcia: Autor stworzył kolaż

Podsumowanie

 
Omówiliśmy narzędzia i podstawowe elementy Produktywna nauka o danych przepływ pracy. Wyobraziliśmy sobie, co zaoferuje czytelnikom idealny kurs lub książka na ten temat. Dotknęliśmy kilku konkretnych przykładów i zilustrowaliśmy korzyści. Dostarczono również pewne powiązane zasoby w kontekście umiejętności do opanowania.

Możesz sprawdzić autora GitHub repozytoria dla kodu, pomysłów i zasobów w uczeniu maszynowym i analizie danych. Jeśli, podobnie jak ja, pasjonujesz się sztuczną inteligencją / uczeniem maszynowym / nauką danych, nie krępuj się dodaj mnie na LinkedIn or Obserwuj mnie na Twitterze.

 
Oryginalny. Przesłane za zgodą.

Związane z:

Źródło: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

Znak czasu:

Więcej z Knuggety