Miért és hogyan érdemes megtanulni a „termelő adattudományt”?
Mi az a produktív adattudomány, és milyen összetevői vannak?
Képforrás: pixabay (Ingyenes kép)
Hatékonyság az adattudományi munkafolyamatban
Az adattudomány és a gépi tanulás különböző mértékű hatékonysággal és termelékenységgel gyakorolható. Az alkalmazási területtől vagy a szakterülettől függetlenül egy adattudósnak – kezdő vagy tapasztalt szakembernek – törekednie kell erre fokozza a hatékonyságát a tipikus adattudományi feladatok minden területén,
- Statisztikai analízis,
- megjelenítés,
- modellválasztás, jellemzők tervezése,
- kódminőség tesztelés, modularizálás,
- párhuzamos feldolgozás,
- egyszerű webalkalmazás-telepítés
Képforrás: pixabay (Ingyenes kép)
Ez azt jelenti, hogy mindezen feladatokat el kell végezni,
- nagyobb sebességgel
- gyorsabb hibakereséssel
- szinkronizált módon
- az összes elérhető hardvererőforrás teljes kihasználásával
Mit kell megtanulnia ebben a folyamatban?
Képzeljük el, hogy valaki egy "Produktív adattudomány” tanfolyamot, vagy könyvet írunk róla – a Python nyelvi keretrendszer használatával. Mik legyenek a tipikus elvárások egy ilyen tanfolyammal vagy könyvvel szemben?
Képforrás: pixabay (Ingyenes kép)
A tanfolyam/könyv azoknak szóljon, akik szeretnék ugrik túl a szokásos módon adattudományi és gépi tanulási feladatok elvégzésére, és a Python adattudományi ökoszisztéma teljes spektrumának felhasználására a sokkal magasabb szintű termelékenység érdekében.
Az olvasókat meg kell tanítani arra, hogyan figyeljenek a szabványos folyamat hatékonyságának hiányosságaira és szűk keresztmetszeti pontjaira, és hogyan gondolkodjanak túl a kereteken.
Ismétlődő adattudományi feladatok automatizálása kulcsfontosságú gondolkodásmód, amelyet az olvasók e könyv olvasása során alakítanak ki. Sok esetben azt is megtanulják, hogyan lehet kiterjeszteni a meglévő kódolási gyakorlatot nagyobb adathalmazok nagy hatékonyságú kezelésére olyan fejlett szoftvereszközök segítségével, amelyek már léteznek a Python ökoszisztémában, de nem tanítják semmilyen szabványos adattudományban.
Ez nem lehet egy szokásos Python szakácskönyv, amely olyan szabványkönyvtárakat tanít, mint a Numpy vagy a Pandas.
Inkább olyan hasznos technikákra kell összpontosítania, mint például a hogyan kell mérje meg a memória lábnyomát és a végrehajtási sebességet ML modellek, minőségi teszt adattudományi csővezeték, modularizálni egy adattudományi folyamat az alkalmazásfejlesztéshez stb. Le kell fednie a Python-könyvtárakat is, amelyek nagyon hasznosak automatizálás és a felpörgetés bármely adattudós napi feladatai.
Ezenkívül érintenie kell azokat az eszközöket és csomagokat, amelyek segítik az adatkutatót nagy és összetett adatkészletek kezelése sokkal optimálisabb módon, mint ami a Python adattudományi technológiai bölcsességeinek követésével lehetséges lett volna.
Néhány speciális készség, amelyet el kell sajátítani
Képforrás: pixabay (Ingyenes kép)
Hogy konkrétan fogalmazzuk meg a dolgokat, hadd foglaljunk össze néhány speciális képességet, amelyeket el kell sajátítani a tanuláshoz és a gyakorláshoz Produktív adattudomány. Megpróbáltam néhány reprezentatív cikk linkjét is bedobni, hogy referenciaként menjen az egyes készségekhez.
- Hogyan gyors és hatékony kód írása az adattudományhoz/ML és hogyan mérjük sebességüket és hatékonyságukat (lásd ezt a cikket)
- Hogyan építsünk moduláris és kifejező adattudományi folyamatokat a termelékenység javítása érdekében (lásd ezt a cikket)
- Hogyan írjunk tesztelési modulokat adattudományhoz és ML modellekhez (lásd ezt a cikket)
- Nagy és összetett adatkészletek hatékony kezelése (ami a hagyományos DS-eszközökkel nehéz lett volna)
- Hogyan lehet teljes mértékben kihasználni a GPU-t és a többmagos processzorokat mindenféle adattudományi és elemzési feladathoz, nem csak a speciális mélytanulási modellezéshez (lásd ezt a cikket)
- Hogyan készítsünk gyors GUI-alkalmazásokat egy adattudományi/ML-ötlet demójához vagy a modellhangoláshoz (lásd ezt a cikket), vagy hogyan lehet egyszerűen (és gyorsan) telepíteni az ML modelleket és az adatelemző kódot alkalmazásszinten (lásd ezt a cikket)
Egy ideális könyv ebben a témában…
Képforrás: pixabay (Ingyenes kép)
- Tanítsd meg, hogyan kell vigyázni hiányosságok és szűk keresztmetszetek a szabványos adattudományi kódban, és hogyan gondolkodjunk túl azon, hogy megoldjuk ezeket a problémákat.
- Tanítsa meg, hogyan írjon moduláris, hatékony adatelemzési és gépi tanulási kódot a termelékenység javítása érdekében különféle helyzetekben – feltáró adatelemzés, vizualizáció, mély tanulás stb.
- A melléktémák széles skáláját fedje le, mint például szoftvertesztelés, modulfejlesztés, GUI programozás, ML modell telepítése webalkalmazásként, amelyek felbecsülhetetlen értékű készségkészletek a kezdő adattudósok számára, és amelyeket nehéz együttesen megtalálni egyetlen szabványos adattudományi könyvben sem.
- Fedezze fel a párhuzamos számításokat (pl. Dask, Ray), méretezhetőség (pl. Vaex, Modin), és GPU-val hajtott adattudományi verem (ZUHATAG) gyakorlati példákkal.
- Ismertesse meg és vezesse az olvasókat az adattudományi eszközök nagyobb és folyamatosan bővülő Python ökoszisztémájába, amelyek a tágabb értelemben vett vonatkozásaihoz kapcsolódnak. szoftverfejlesztés és termelési szintű telepítés.
Egy konkrét példa: GPU-val hajtott és elosztott adattudomány
Míg a GPU-k és az elosztott számítástechnika használatát széles körben vitatják a tudományos és üzleti körökben az alapvető AI/ML-feladatokhoz, a rendszeres adattudományi és adatmérnöki feladatokhoz kevesebb lefedettséget találtak a hasznosságukban. A GPU-k használata azonban rendszeres napi statisztikai elemzésekhez vagy egyéb adattudományi feladatokhoz nagyban hozzájárulhat ahhoz, hogy közmondássá váljon. „Produktív adatkutató".
Például a RAPIDS szoftverkönyvtárak és API-k lehetőséget és rugalmasságot biztosít a végrehajtáshoz – egy rendszeres adattudósnak (és nem feltétlenül mély tanulással foglalkozó szakembernek) végpontok közötti adattudományi és elemzési folyamatok teljes egészében GPU-kon.
Képforrás: A szerző kollázst készített
Még szerény GPU-val is használva ezek a könyvtárak figyelemre méltó sebességnövekedést mutatnak a szokásos Python társaikhoz képest. Természetesen, amikor csak lehet, magunkévá kell tennünk ezeket Produktív adattudomány munkafolyamat.
Hasonlóképpen kiváló nyílt forráskódú lehetőségek kínálkoznak arra, hogy túllépjünk a Python nyelv egymagos természetének korlátain, és a párhuzamos számítástechnikai paradigmát alkalmazzuk anélkül, hogy eltávolodnánk az alapvető adattudós személyétől.
Képforrás: A szerző kollázst készített
Összegzésként
Megbeszéltük a segédprogramokat és a fő összetevőket Produktív adattudomány munkafolyamat. Elképzeltük, mit kínálna az olvasóknak egy ideális tanfolyam vagy könyv ebben a témában. Érintettünk néhány konkrét példát, és bemutattuk az előnyöket. Néhány kapcsolódó forrást is biztosítottak az elsajátítandó készségek összefüggésében.
Ellenőrizheti a szerzőt GitHub tárolók kódhoz, ötletekhez és erőforrásokhoz a gépi tanulásban és az adattudományban. Ha hozzám hasonlóan szenvedélyes az AI/gépi tanulás/adattudomány iránt, kérjük, tegye meg add hozzá a LinkedIn-hez or Kövess a Twitteren.
eredeti. Engedéllyel újra közzétéve.
Kapcsolódó:
Legnépszerűbb történetek az elmúlt 30 napból | |||
---|---|---|---|
|
Forrás: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html
- "
- &
- Előny
- Minden termék
- elemzés
- analitika
- app
- App fejlesztés
- Alkalmazás
- alkalmazások
- TERÜLET
- cikkek
- Blog
- Doboz
- épít
- üzleti
- esetek
- kód
- Kódolás
- számítástechnika
- Corp
- dátum
- adatelemzés
- adat-tudomány
- adattudós
- mély tanulás
- Fejleszt
- Fejlesztés
- Igazgató
- elosztott számítástechnika
- ökoszisztéma
- hatékonyság
- mérnök
- Mérnöki
- Mérnökök
- stb.
- végrehajtás
- GYORS
- Funkció
- Rugalmasság
- Összpontosít
- Keretrendszer
- Ingyenes
- Tele
- Arany
- GPU
- GPU
- útmutató
- ügyes
- hardver
- Magas
- Hogyan
- How To
- HTTPS
- Több száz
- ötlet
- kép
- IT
- Kulcs
- nyelv
- nagy
- TANUL
- tanulás
- szint
- Hosszú
- gépi tanulás
- intézkedés
- közepes
- ML
- modell
- modellezés
- ajánlat
- online
- nyitva
- nyílt forráskódú
- Lehetőségek
- opció
- Más
- paradigma
- Hozzászólások
- termelékenység
- Piton
- világítás
- hatótávolság
- olvasók
- Olvasás
- Tudástár
- skálázhatóság
- Tudomány
- tudósok
- készségek
- szoftver
- Szoftvertesztelés
- SOLVE
- sebesség
- TÖRTÉNETEK
- Tanítási
- Technológia
- Tesztelés
- felső
- Témakörök
- érintse
- us
- segédprogramok
- hasznosság
- megjelenítés
- Mi
- WHO
- munkafolyamat
- írás
- X
- év