Dlaczego i jak powinieneś uczyć się „produktywnej nauki o danych”?
Czym jest Productive Data Science i jakie są niektóre z jego elementów?
Źródło zdjęcia: Pixabay (Darmowy obraz)
Wydajność w przepływie pracy w analizie danych
Naukę o danych i uczenie maszynowe można praktykować z różnym stopniem wydajności i produktywności. Niezależnie od obszaru zastosowania lub specjalizacji, data scientist — początkujący lub doświadczony profesjonalista — powinien dążyć do: zwiększyć jego/jej efektywność we wszystkich aspektach typowych zadań data science,
- Analiza statystyczna,
- wyobrażanie sobie,
- dobór modelu, inżynieria funkcji,
- testowanie jakości kodu, modularyzacja,
- przetwarzanie równoległe,
- łatwe wdrażanie aplikacji internetowych
Źródło zdjęcia: Pixabay (Darmowy obraz)
Oznacza to wykonanie wszystkich tych zadań,
- przy większej prędkości
- z szybszym debugowaniem
- w sposób zsynchronizowany
- wykorzystując w pełni wszelkie dostępne zasoby sprzętowe
Czego powinieneś się spodziewać w tym procesie?
Wyobraźmy sobie, że ktoś uczy „Produktywna nauka o danych” kurs lub napisanie książki na ten temat — używając Pythona jako frameworka językowego. Jakie powinny być typowe oczekiwania wobec takiego kursu lub książki?
Źródło zdjęcia: Pixabay (Darmowy obraz)
Kurs/książka powinna być przeznaczona dla tych, którzy chcą: skacz poza standardowy sposób wykonywania zadań związanych z nauką danych i uczeniem maszynowym oraz wykorzystania pełnego spektrum ekosystemu nauki danych w Pythonie, aby uzyskać znacznie wyższy poziom produktywności.
Czytelników należy nauczyć, jak zwracać uwagę na nieefektywności i wąskie gardła w standardowym procesie oraz jak myśleć nieszablonowo.
Automatyzacja powtarzalnych zadań data science to kluczowy sposób myślenia, który czytelnicy rozwiną po przeczytaniu tej książki. W wielu przypadkach nauczą się również, jak rozszerzyć istniejącą praktykę kodowania, aby obsługiwać większe zbiory danych z wysoką wydajnością za pomocą zaawansowanych narzędzi programowych, które już istnieją w ekosystemie Pythona, ale nie są nauczane w żadnej standardowej nauce o danych.
Nie powinna to być zwykła książka kucharska Pythona, ucząca standardowych bibliotek, takich jak Numpy czy Pandas.
Powinien raczej koncentrować się na przydatnych technikach, takich jak: zmierzyć zużycie pamięci i szybkość wykonywania; modeli ML, test jakości potok data science, modularyzować potok data science do tworzenia aplikacji itp. Powinien również obejmować biblioteki Pythona, które są bardzo przydatne dla automatyzacja i przyspieszać codzienne zadania każdego analityka danych.
Ponadto powinna dotyczyć narzędzi i pakietów, które pomagają naukowcom danych radzenie sobie z dużymi i złożonymi zbiorami danych w znacznie bardziej optymalny sposób niż byłoby to możliwe, gdyby stosowano się do standardowej mądrości technologii data science Pythona.
Niektóre konkretne umiejętności do opanowania
Źródło zdjęcia: Pixabay (Darmowy obraz)
Mówiąc konkretnie, podsumujmy kilka konkretnych umiejętności do opanowania w celu uczenia się i ćwiczenia Produktywna nauka o danych. Próbowałem również wrzucić linki do niektórych reprezentatywnych artykułów, aby znaleźć odniesienie do każdej umiejętności.
- jak pisać szybki i wydajny kod do nauki o danych/ML i jak mierzyć ich szybkość i wydajność (zobacz ten artykuł)
- Jak budować modularne i ekspresyjne potoki analizy danych w celu poprawy produktywności (zobacz ten artykuł)
- Jak pisać moduły testowe dla data science i modeli ML (zobacz ten artykuł)
- Jak skutecznie obsługiwać duże i złożone zbiory danych (co byłoby trudne w przypadku tradycyjnych narzędzi DS)
- Jak w pełni wykorzystać GPU i procesory wielordzeniowe do wszelkiego rodzaju zadań związanych z nauką o danych i analizą, a nie tylko do specjalistycznego modelowania głębokiego uczenia (zobacz ten artykuł)
- Jak przygotować szybkie aplikacje GUI do demonstracji pomysłu na naukę danych / ML lub dostrojenia modelu (zobacz ten artykuł) lub jak łatwo (i szybko) wdrożyć modele ML i kod analizy danych na poziomie aplikacji (zobacz ten artykuł)
Idealna książka na ten temat…
Źródło zdjęcia: Pixabay (Darmowy obraz)
- Naucz jak uważać nieefektywności i wąskie gardła w standardowym kodzie data science i jak myśleć nieszablonowo, aby rozwiązać te problemy.
- Naucz, jak pisać zmodularyzowaną, wydajną analizę danych i kod uczenia maszynowego, aby zwiększyć produktywność w różnych sytuacjach — eksploracyjna analiza danych, wizualizacja, głębokie uczenie itp.
- Obejmuje szeroki zakres tematów pobocznych, takich jak testowanie oprogramowania, tworzenie modułów, Programowanie GUI, Wdrożenie modelu ML jako aplikacja internetowa, która jest nieocenionym zestawem umiejętności dla początkujących naukowców zajmujących się danymi i które trudno znaleźć zbiorczo w jednej standardowej książce o nauce danych.
- Obejmuje przetwarzanie równoległe (np. Dask, Ray), skalowalność (np. Vaex, Modin) i stos analizy danych oparty na procesorze GPU (KATARAKTY NA RZECE) z praktycznymi przykładami.
- Ujawnij i poprowadź czytelników do większego i stale rozwijającego się ekosystemu Pythona narzędzi do nauki o danych, które są połączone z szerszymi aspektami Inżynieria oprogramowania i wdrożenie na poziomie produkcyjnym.
Konkretny przykład: oparta na GPU i rozproszona nauka o danych
Chociaż wykorzystanie procesorów graficznych i obliczeń rozproszonych jest szeroko dyskutowane w kręgach akademickich i biznesowych w przypadku podstawowych zadań AI/ML, okazało się, że ich użyteczność jest mniejsza w przypadku regularnych zadań związanych z analizą danych i inżynierią danych. Jednak używanie procesorów graficznych do regularnych codziennych analiz statystycznych lub innych zadań związanych z badaniem danych może znacznie przyczynić się do tego, aby stać się przysłowiowym „Produktywny analityk danych".
Na przykład, Pakiet bibliotek oprogramowania i interfejsów API RAPIDS daje Tobie — zwykłemu naukowcowi danych (i niekoniecznie praktykowi głębokiego uczenia) — możliwość i elastyczność wykonania kompleksowe potoki do nauki i analizy danych w całości na procesorach GPU.
Źródło zdjęcia: Autor stworzył kolaż
Gdy są używane nawet ze skromnym procesorem graficznym, biblioteki te wykazują znaczną poprawę szybkości w porównaniu ze zwykłymi odpowiednikami w Pythonie. Oczywiście powinniśmy je przyjąć, kiedy tylko możemy Produktywna nauka o danych workflow.
Podobnie, istnieją doskonałe możliwości open source, aby wyjść poza ograniczenia jednordzeniowej natury języka Python i przyjąć paradygmat obliczeń równoległych bez odchodzenia od typowej osobowości naukowca danych.
Źródło zdjęcia: Autor stworzył kolaż
Podsumowanie
Omówiliśmy narzędzia i podstawowe elementy Produktywna nauka o danych przepływ pracy. Wyobraziliśmy sobie, co zaoferuje czytelnikom idealny kurs lub książka na ten temat. Dotknęliśmy kilku konkretnych przykładów i zilustrowaliśmy korzyści. Dostarczono również pewne powiązane zasoby w kontekście umiejętności do opanowania.
Możesz sprawdzić autora GitHub repozytoria dla kodu, pomysłów i zasobów w uczeniu maszynowym i analizie danych. Jeśli, podobnie jak ja, pasjonujesz się sztuczną inteligencją / uczeniem maszynowym / nauką danych, nie krępuj się dodaj mnie na LinkedIn or Obserwuj mnie na Twitterze.
Oryginalny. Przesłane za zgodą.
Związane z:
Najważniejsze artykuły z ostatnich 30 dni | |||
---|---|---|---|
|
Źródło: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html
- "
- &
- Korzyść
- Wszystkie kategorie
- analiza
- analityka
- Aplikacja
- Rozwój aplikacji
- Zastosowanie
- mobilne i webowe
- POWIERZCHNIA
- towary
- Blog
- Pudełko
- budować
- biznes
- Etui
- kod
- Kodowanie
- computing
- Corp
- dane
- analiza danych
- nauka danych
- naukowiec danych
- głęboka nauka
- rozwijać
- oprogramowania
- Dyrektor
- przetwarzanie rozproszone
- Ekosystem
- efektywność
- inżynier
- Inżynieria
- Inżynierowie
- itp
- egzekucja
- FAST
- Cecha
- Elastyczność
- Skupiać
- Framework
- Darmowy
- pełny
- Złoto
- GPU
- GPU
- poprowadzi
- poręczny
- sprzęt komputerowy
- Wysoki
- W jaki sposób
- How To
- HTTPS
- Setki
- pomysł
- obraz
- IT
- Klawisz
- język
- duży
- UCZYĆ SIĘ
- nauka
- poziom
- długo
- uczenie maszynowe
- zmierzyć
- średni
- ML
- model
- modelowanie
- oferta
- Online
- koncepcja
- open source
- Szanse
- Option
- Inne
- paradygmat
- Wiadomości
- wydajność
- Python
- jakość
- zasięg
- czytelnicy
- Czytający
- Zasoby
- Skalowalność
- nauka
- Naukowcy
- umiejętności
- Tworzenie
- Testowanie oprogramowania
- ROZWIĄZANIA
- prędkość
- historie
- Nauczanie
- Technologia
- Testowanie
- Top
- tematy
- Kontakt
- us
- Użytkowe
- użyteczność
- wyobrażanie sobie
- Co to jest
- KIM
- workflow
- pisanie
- X
- lat