Újra kiadta Platón

Követő: 0

Miért és hogyan érdemes megtanulni a „termelő adattudományt”?

= Előző üzenet

Következő üzenet =>

Címkék: Könyvek, karriertanácsadás, Tanfolyamok, Data Science, Piton

Mi az a produktív adattudomány, és milyen összetevői vannak?

By Tirthajyoti Sarkar, Adapdix Corp.

Hozzászólások

Képforrás: pixabay (Ingyenes kép)

Hatékonyság az adattudományi munkafolyamatban

Az adattudomány és a gépi tanulás különböző mértékű hatékonysággal és termelékenységgel gyakorolható. Az alkalmazási területtől vagy a szakterülettől függetlenül egy adattudósnak – kezdő vagy tapasztalt szakembernek – törekednie kell erre fokozza a hatékonyságát a tipikus adattudományi feladatok minden területén,

Statisztikai analízis,
megjelenítés,
modellválasztás, jellemzők tervezése,
kódminőség tesztelés, modularizálás,
párhuzamos feldolgozás,
egyszerű webalkalmazás-telepítés

Képforrás: pixabay (Ingyenes kép)

Ez azt jelenti, hogy mindezen feladatokat el kell végezni,

nagyobb sebességgel
gyorsabb hibakereséssel
szinkronizált módon
az összes elérhető hardvererőforrás teljes kihasználásával

Mit kell megtanulnia ebben a folyamatban?

Képzeljük el, hogy valaki egy "Produktív adattudomány” tanfolyamot, vagy könyvet írunk róla – a Python nyelvi keretrendszer használatával. Mik legyenek a tipikus elvárások egy ilyen tanfolyammal vagy könyvvel szemben?

Képforrás: pixabay (Ingyenes kép)

A tanfolyam/könyv azoknak szóljon, akik szeretnék ugrik túl a szokásos módon adattudományi és gépi tanulási feladatok elvégzésére, és a Python adattudományi ökoszisztéma teljes spektrumának felhasználására a sokkal magasabb szintű termelékenység érdekében.

Az olvasókat meg kell tanítani arra, hogyan figyeljenek a szabványos folyamat hatékonyságának hiányosságaira és szűk keresztmetszeti pontjaira, és hogyan gondolkodjanak túl a kereteken.

Ismétlődő adattudományi feladatok automatizálása kulcsfontosságú gondolkodásmód, amelyet az olvasók e könyv olvasása során alakítanak ki. Sok esetben azt is megtanulják, hogyan lehet kiterjeszteni a meglévő kódolási gyakorlatot nagyobb adathalmazok nagy hatékonyságú kezelésére olyan fejlett szoftvereszközök segítségével, amelyek már léteznek a Python ökoszisztémában, de nem tanítják semmilyen szabványos adattudományban.

Ez nem lehet egy szokásos Python szakácskönyv, amely olyan szabványkönyvtárakat tanít, mint a Numpy vagy a Pandas.

Inkább olyan hasznos technikákra kell összpontosítania, mint például a hogyan kell mérje meg a memória lábnyomát és a végrehajtási sebességet ML modellek, minőségi teszt adattudományi csővezeték, modularizálni egy adattudományi folyamat az alkalmazásfejlesztéshez stb. Le kell fednie a Python-könyvtárakat is, amelyek nagyon hasznosak automatizálás és a felpörgetés bármely adattudós napi feladatai.

Ezenkívül érintenie kell azokat az eszközöket és csomagokat, amelyek segítik az adatkutatót nagy és összetett adatkészletek kezelése sokkal optimálisabb módon, mint ami a Python adattudományi technológiai bölcsességeinek követésével lehetséges lett volna.

Néhány speciális készség, amelyet el kell sajátítani

Képforrás: pixabay (Ingyenes kép)

Hogy konkrétan fogalmazzuk meg a dolgokat, hadd foglaljunk össze néhány speciális képességet, amelyeket el kell sajátítani a tanuláshoz és a gyakorláshoz Produktív adattudomány. Megpróbáltam néhány reprezentatív cikk linkjét is bedobni, hogy referenciaként menjen az egyes készségekhez.

Hogyan gyors és hatékony kód írása az adattudományhoz/ML és hogyan mérjük sebességüket és hatékonyságukat (lásd ezt a cikket)
Hogyan építsünk moduláris és kifejező adattudományi folyamatokat a termelékenység javítása érdekében (lásd ezt a cikket)
Hogyan írjunk tesztelési modulokat adattudományhoz és ML modellekhez (lásd ezt a cikket)
Nagy és összetett adatkészletek hatékony kezelése (ami a hagyományos DS-eszközökkel nehéz lett volna)
Hogyan lehet teljes mértékben kihasználni a GPU-t és a többmagos processzorokat mindenféle adattudományi és elemzési feladathoz, nem csak a speciális mélytanulási modellezéshez (lásd ezt a cikket)
Hogyan készítsünk gyors GUI-alkalmazásokat egy adattudományi/ML-ötlet demójához vagy a modellhangoláshoz (lásd ezt a cikket), vagy hogyan lehet egyszerűen (és gyorsan) telepíteni az ML modelleket és az adatelemző kódot alkalmazásszinten (lásd ezt a cikket)

Egy ideális könyv ebben a témában…

Képforrás: pixabay (Ingyenes kép)

Tanítsd meg, hogyan kell vigyázni hiányosságok és szűk keresztmetszetek a szabványos adattudományi kódban, és hogyan gondolkodjunk túl azon, hogy megoldjuk ezeket a problémákat.
Tanítsa meg, hogyan írjon moduláris, hatékony adatelemzési és gépi tanulási kódot a termelékenység javítása érdekében különféle helyzetekben – feltáró adatelemzés, vizualizáció, mély tanulás stb.
A melléktémák széles skáláját fedje le, mint például szoftvertesztelés, modulfejlesztés, GUI programozás, ML modell telepítése webalkalmazásként, amelyek felbecsülhetetlen értékű készségkészletek a kezdő adattudósok számára, és amelyeket nehéz együttesen megtalálni egyetlen szabványos adattudományi könyvben sem.
Fedezze fel a párhuzamos számításokat (pl. Dask, Ray), méretezhetőség (pl. Vaex, Modin), és GPU-val hajtott adattudományi verem (ZUHATAG) gyakorlati példákkal.
Ismertesse meg és vezesse az olvasókat az adattudományi eszközök nagyobb és folyamatosan bővülő Python ökoszisztémájába, amelyek a tágabb értelemben vett vonatkozásaihoz kapcsolódnak. szoftverfejlesztés és termelési szintű telepítés.

Egy konkrét példa: GPU-val hajtott és elosztott adattudomány

Míg a GPU-k és az elosztott számítástechnika használatát széles körben vitatják a tudományos és üzleti körökben az alapvető AI/ML-feladatokhoz, a rendszeres adattudományi és adatmérnöki feladatokhoz kevesebb lefedettséget találtak a hasznosságukban. A GPU-k használata azonban rendszeres napi statisztikai elemzésekhez vagy egyéb adattudományi feladatokhoz nagyban hozzájárulhat ahhoz, hogy közmondássá váljon. „Produktív adatkutató".

Például a RAPIDS szoftverkönyvtárak és API-k lehetőséget és rugalmasságot biztosít a végrehajtáshoz – egy rendszeres adattudósnak (és nem feltétlenül mély tanulással foglalkozó szakembernek) végpontok közötti adattudományi és elemzési folyamatok teljes egészében GPU-kon.

Képforrás: A szerző kollázst készített

Még szerény GPU-val is használva ezek a könyvtárak figyelemre méltó sebességnövekedést mutatnak a szokásos Python társaikhoz képest. Természetesen, amikor csak lehet, magunkévá kell tennünk ezeket Produktív adattudomány munkafolyamat.

Hasonlóképpen kiváló nyílt forráskódú lehetőségek kínálkoznak arra, hogy túllépjünk a Python nyelv egymagos természetének korlátain, és a párhuzamos számítástechnikai paradigmát alkalmazzuk anélkül, hogy eltávolodnánk az alapvető adattudós személyétől.

Képforrás: A szerző kollázst készített

Összegzésként

Megbeszéltük a segédprogramokat és a fő összetevőket Produktív adattudomány munkafolyamat. Elképzeltük, mit kínálna az olvasóknak egy ideális tanfolyam vagy könyv ebben a témában. Érintettünk néhány konkrét példát, és bemutattuk az előnyöket. Néhány kapcsolódó forrást is biztosítottak az elsajátítandó készségek összefüggésében.

Ellenőrizheti a szerzőt GitHub tárolók kódhoz, ötletekhez és erőforrásokhoz a gépi tanulásban és az adattudományban. Ha hozzám hasonlóan szenvedélyes az AI/gépi tanulás/adattudomány iránt, kérjük, tegye meg add hozzá a LinkedIn-hez or Kövess a Twitteren.

eredeti. Engedéllyel újra közzétéve.

Kapcsolódó:

= Előző üzenet

Következő üzenet =>

Legnépszerűbb történetek az elmúlt 30 napból

Legnepszerubb
A 6 legjobb adattudományi online kurzus 2021-ben Az adattudósok és az ML mérnökök luxusalkalmazottak Tanácsok az adattudomány tanulásához a Google kutatási igazgatójától GitHub másodpilóta nyílt forráskódú alternatívák A Deep Learning geometriai alapjai

Leginkább megosztott
Miért és hogyan érdemes megtanulni a „termelő adattudományt”? Nem csak a mély tanuláshoz: Hogyan gyorsítják fel a GPU-k az adattudományt és az adatelemzést Bootstrap egy Modern Data Stack 5 perc alatt Terraform GPU-alapú adattudomány (NEM mélytanulás) RAPIDS-szel Legyen Analytics mérnök 90 nap alatt