A poloniex beleegyezik, hogy 10 m-nél-többre leszámol a másodperccel.png

Miért és hogyan érdemes megtanulni a „termelő adattudományt”?

Forrás csomópont: 1858780

Arany BlogMiért és hogyan érdemes megtanulni a „termelő adattudományt”?

Mi az a produktív adattudomány, és milyen összetevői vannak?




Képforráspixabay (Ingyenes kép)

Hatékonyság az adattudományi munkafolyamatban

 
Az adattudomány és a gépi tanulás különböző mértékű hatékonysággal és termelékenységgel gyakorolható. Az alkalmazási területtől vagy a szakterülettől függetlenül egy adattudósnak – kezdő vagy tapasztalt szakembernek – törekednie kell erre fokozza a hatékonyságát a tipikus adattudományi feladatok minden területén,

  • Statisztikai analízis,
  • megjelenítés,
  • modellválasztás, jellemzők tervezése,
  • kódminőség tesztelés, modularizálás,
  • párhuzamos feldolgozás,
  • egyszerű webalkalmazás-telepítés



Képforráspixabay (Ingyenes kép)

 

Ez azt jelenti, hogy mindezen feladatokat el kell végezni,

  • nagyobb sebességgel
  • gyorsabb hibakereséssel
  • szinkronizált módon
  • az összes elérhető hardvererőforrás teljes kihasználásával

Mit kell megtanulnia ebben a folyamatban?

 
Képzeljük el, hogy valaki egy "Produktív adattudomány” tanfolyamot, vagy könyvet írunk róla – a Python nyelvi keretrendszer használatával. Mik legyenek a tipikus elvárások egy ilyen tanfolyammal vagy könyvvel szemben?



Képforráspixabay (Ingyenes kép)

 

A tanfolyam/könyv azoknak szóljon, akik szeretnék ugrik túl a szokásos módon adattudományi és gépi tanulási feladatok elvégzésére, és a Python adattudományi ökoszisztéma teljes spektrumának felhasználására a sokkal magasabb szintű termelékenység érdekében.

Az olvasókat meg kell tanítani arra, hogyan figyeljenek a szabványos folyamat hatékonyságának hiányosságaira és szűk keresztmetszeti pontjaira, és hogyan gondolkodjanak túl a kereteken.

Ismétlődő adattudományi feladatok automatizálása kulcsfontosságú gondolkodásmód, amelyet az olvasók e könyv olvasása során alakítanak ki. Sok esetben azt is megtanulják, hogyan lehet kiterjeszteni a meglévő kódolási gyakorlatot nagyobb adathalmazok nagy hatékonyságú kezelésére olyan fejlett szoftvereszközök segítségével, amelyek már léteznek a Python ökoszisztémában, de nem tanítják semmilyen szabványos adattudományban.

Ez nem lehet egy szokásos Python szakácskönyv, amely olyan szabványkönyvtárakat tanít, mint a Numpy vagy a Pandas.

Inkább olyan hasznos technikákra kell összpontosítania, mint például a hogyan kell mérje meg a memória lábnyomát és a végrehajtási sebességet ML modellek, minőségi teszt adattudományi csővezeték, modularizálni egy adattudományi folyamat az alkalmazásfejlesztéshez stb. Le kell fednie a Python-könyvtárakat is, amelyek nagyon hasznosak automatizálás és a felpörgetés bármely adattudós napi feladatai.

Ezenkívül érintenie kell azokat az eszközöket és csomagokat, amelyek segítik az adatkutatót nagy és összetett adatkészletek kezelése sokkal optimálisabb módon, mint ami a Python adattudományi technológiai bölcsességeinek követésével lehetséges lett volna.

Néhány speciális készség, amelyet el kell sajátítani

 



Képforráspixabay (Ingyenes kép)

 

Hogy konkrétan fogalmazzuk meg a dolgokat, hadd foglaljunk össze néhány speciális képességet, amelyeket el kell sajátítani a tanuláshoz és a gyakorláshoz Produktív adattudomány. Megpróbáltam néhány reprezentatív cikk linkjét is bedobni, hogy referenciaként menjen az egyes készségekhez.

  1. Hogyan gyors és hatékony kód írása az adattudományhoz/ML és hogyan mérjük sebességüket és hatékonyságukat (lásd ezt a cikket)
  2. Hogyan építsünk moduláris és kifejező adattudományi folyamatokat a termelékenység javítása érdekében (lásd ezt a cikket)
  3. Hogyan írjunk tesztelési modulokat adattudományhoz és ML modellekhez (lásd ezt a cikket)
  4. Nagy és összetett adatkészletek hatékony kezelése (ami a hagyományos DS-eszközökkel nehéz lett volna)
  5. Hogyan lehet teljes mértékben kihasználni a GPU-t és a többmagos processzorokat mindenféle adattudományi és elemzési feladathoz, nem csak a speciális mélytanulási modellezéshez (lásd ezt a cikket)
  6. Hogyan készítsünk gyors GUI-alkalmazásokat egy adattudományi/ML-ötlet demójához vagy a modellhangoláshoz (lásd ezt a cikket), vagy hogyan lehet egyszerűen (és gyorsan) telepíteni az ML modelleket és az adatelemző kódot alkalmazásszinten (lásd ezt a cikket)

Egy ideális könyv ebben a témában…

 



Képforráspixabay (Ingyenes kép)

 

  1. Tanítsd meg, hogyan kell vigyázni hiányosságok és szűk keresztmetszetek a szabványos adattudományi kódban, és hogyan gondolkodjunk túl azon, hogy megoldjuk ezeket a problémákat.
  2. Tanítsa meg, hogyan írjon moduláris, hatékony adatelemzési és gépi tanulási kódot a termelékenység javítása érdekében különféle helyzetekben – feltáró adatelemzés, vizualizáció, mély tanulás stb.
  3. A melléktémák széles skáláját fedje le, mint például szoftvertesztelés, modulfejlesztés, GUI programozásML modell telepítése webalkalmazásként, amelyek felbecsülhetetlen értékű készségkészletek a kezdő adattudósok számára, és amelyeket nehéz együttesen megtalálni egyetlen szabványos adattudományi könyvben sem.
  4. Fedezze fel a párhuzamos számításokat (pl. Dask, Ray), méretezhetőség (pl. Vaex, Modin), és GPU-val hajtott adattudományi verem (ZUHATAG) gyakorlati példákkal.
  5. Ismertesse meg és vezesse az olvasókat az adattudományi eszközök nagyobb és folyamatosan bővülő Python ökoszisztémájába, amelyek a tágabb értelemben vett vonatkozásaihoz kapcsolódnak. szoftverfejlesztés és termelési szintű telepítés.

Egy konkrét példa: GPU-val hajtott és elosztott adattudomány

 
Míg a GPU-k és az elosztott számítástechnika használatát széles körben vitatják a tudományos és üzleti körökben az alapvető AI/ML-feladatokhoz, a rendszeres adattudományi és adatmérnöki feladatokhoz kevesebb lefedettséget találtak a hasznosságukban. A GPU-k használata azonban rendszeres napi statisztikai elemzésekhez vagy egyéb adattudományi feladatokhoz nagyban hozzájárulhat ahhoz, hogy közmondássá váljon. „Produktív adatkutató".

Például a RAPIDS szoftverkönyvtárak és API-k lehetőséget és rugalmasságot biztosít a végrehajtáshoz – egy rendszeres adattudósnak (és nem feltétlenül mély tanulással foglalkozó szakembernek) végpontok közötti adattudományi és elemzési folyamatok teljes egészében GPU-kon.



Képforrás: A szerző kollázst készített

 

Még szerény GPU-val is használva ezek a könyvtárak figyelemre méltó sebességnövekedést mutatnak a szokásos Python társaikhoz képest. Természetesen, amikor csak lehet, magunkévá kell tennünk ezeket Produktív adattudomány munkafolyamat.


 

Hasonlóképpen kiváló nyílt forráskódú lehetőségek kínálkoznak arra, hogy túllépjünk a Python nyelv egymagos természetének korlátain, és a párhuzamos számítástechnikai paradigmát alkalmazzuk anélkül, hogy eltávolodnánk az alapvető adattudós személyétől.



Képforrás: A szerző kollázst készített

Összegzésként

 
Megbeszéltük a segédprogramokat és a fő összetevőket Produktív adattudomány munkafolyamat. Elképzeltük, mit kínálna az olvasóknak egy ideális tanfolyam vagy könyv ebben a témában. Érintettünk néhány konkrét példát, és bemutattuk az előnyöket. Néhány kapcsolódó forrást is biztosítottak az elsajátítandó készségek összefüggésében.

Ellenőrizheti a szerzőt GitHub tárolók kódhoz, ötletekhez és erőforrásokhoz a gépi tanulásban és az adattudományban. Ha hozzám hasonlóan szenvedélyes az AI/gépi tanulás/adattudomány iránt, kérjük, tegye meg add hozzá a LinkedIn-hez or Kövess a Twitteren.

 
eredeti. Engedéllyel újra közzétéve.

Kapcsolódó:

Forrás: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

Időbélyeg:

Még több KDnuggets