poloniex-syöttyy-settle-the-sec-for-more-than-10m.png

Miksi ja miten sinun pitäisi oppia "tuottava datatiede"?

Lähdesolmu: 1858780

KultablogiMiksi ja miten sinun pitäisi oppia "tuottava datatiede"?

Mikä on tuottava tietotiede ja mitä sen osia on?




Kuvan lähdePixabay (Ilmainen kuva)

Datatieteen työnkulun tehokkuus

 
Datatiedettä ja koneoppimista voidaan harjoitella vaihtelevalla tehokkuudella ja tuottavuudella. Sovellusalueesta tai erikoistumisesta riippumatta datatieteilijän - aloittelijan tai kokeneen ammattilaisen - tulisi pyrkiä siihen parantaa hänen tehokkuuttaan kaikilla tyypillisten datatietehtävien osa -alueilla,

  • Tilastollinen analyysi,
  • visualisointi,
  • mallivalinta, ominaisuuksien suunnittelu,
  • koodin laadun testaus, modulaarisuus,
  • rinnakkaiskäsittely,
  • helppo web-sovelluksen käyttöönotto



Kuvan lähdePixabay (Ilmainen kuva)

 

Tämä tarkoittaa kaikkien näiden tehtävien suorittamista,

  • suuremmalla nopeudella
  • nopeamman virheenkorjauksen avulla
  • synkronoidusti
  • hyödyntämällä täysimääräisesti kaikkia saatavilla olevia laitteistoresursseja

Mitä sinun pitäisi odottaa oppivan tässä prosessissa?

 
Kuvitellaan, että joku opettaa "Tuottava datatiede”Kurssilla tai kirjoittamalla siitä kirjan - käyttämällä Pythonia kielirakenteena. Mitä tyypillisiä odotuksia tällaiselta kurssilta tai kirjalta odotetaan?



Kuvan lähdePixabay (Ilmainen kuva)

 

Kurssi/kirja on tarkoitettu niille, jotka haluavat harppaus yli tavanomaisen tavan suorittamaan datatieteen ja koneoppimisen tehtäviä ja hyödyntämään Python -datatieteen ekosysteemin kaikkia kirjoja tuottavuuden parantamiseksi.

Lukijoille tulisi opettaa, kuinka vakioprosessissa tulee huomioida tehottomuudet ja pullonkaulat ja ajatella laatikon ulkopuolelle.

Toistuvien tietojenkäsittelytehtävien automatisointi on keskeinen ajattelutapa, jota lukijat kehittävät lukiessaan tätä kirjaa. Monissa tapauksissa he oppivat myös laajentamaan olemassa olevaa koodauskäytäntöä käsittelemään suurempia tietojoukkoja tehokkaasti käyttämällä kehittyneitä ohjelmistotyökaluja, jotka ovat jo olemassa Python -ekosysteemissä, mutta joita ei opeteta missään standardissa datatieteessä.

Tämän ei pitäisi olla tavallinen Python -keittokirja, joka opettaa vakiokirjastoja, kuten Numpy tai Pandas.

Sen pitäisi keskittyä pikemminkin hyödyllisiin tekniikoihin, kuten miten mittaa muistin jalanjälki ja suoritusnopeus ML -malleista, laatutesti tietotieteen putki, moduloida tietotekniikkaputki sovellusten kehittämiseen jne. Sen pitäisi kattaa myös Python -kirjastot, jotka ovat erittäin käteviä automatisointi ja nopeuttaa minkä tahansa datatieteilijän päivittäiset tehtävät.

Lisäksi sen tulisi koskea työkaluja ja paketteja, jotka auttavat datatieteilijää käsitellä suuria ja monimutkaisia ​​tietojoukkoja paljon optimaalisemmalla tavalla kuin mikä olisi ollut mahdollista noudattamalla Pythonin tietotekniikan standardin viisautta.

Joitakin erityisiä taitoja hallita

 



Kuvan lähdePixabay (Ilmainen kuva)

 

Asioiden konkreettiseksi ilmaisemiseksi kerromme yhteen joitakin erityisiä taitoja, jotka on opittava oppimiseen ja harjoitteluun Tuottava datatiede. Olen myös yrittänyt heittää linkkejä joihinkin edustaviin artikkeleihin viittaamaan jokaiseen taitoon.

  1. Miten kirjoittaa nopean ja tehokkaan koodin tietotieteelle/ML ja niiden nopeuden ja tehokkuuden mittaaminen (katso tämä artikkeli)
  2. Miten rakentaa modulaarisia ja ilmeikkäitä tietotekniikkaputkia tuottavuuden parantamiseksi (katso tämä artikkeli)
  3. Testausmoduulien kirjoittaminen datatieteen ja ML -malleille (katso tämä artikkeli)
  4. Suurten ja monimutkaisten tietojoukkojen tehokas käsittely (mikä olisi ollut vaikeaa perinteisillä DS -työkaluilla)
  5. GPU: n ja moniydinprosessorien täysimääräinen hyödyntäminen kaikenlaisissa datatieteen ja analytiikan tehtävissä, ei vain erikoistuneessa syvän oppimisen mallinnuksessa (katso tämä artikkeli)
  6. Nopeiden graafisten käyttöliittymien luominen datatieteen/ML -idean tai mallin virityksen esittelyä varten (katso tämä artikkeli) tai kuinka helposti (ja nopeasti) ottaa käyttöön ML-malleja ja data-analyysikoodia sovellustasolla (katso tämä artikkeli)

Ihanteellinen kirja tästä aiheesta…

 



Kuvan lähdePixabay (Ilmainen kuva)

 

  1. Opettele huolehtimaan tehottomuutta ja pullonkauloja standarditiedetieteellisessä koodissa ja kuinka ajatella laatikon ulkopuolelle näiden ongelmien ratkaisemiseksi.
  2. Opettele kirjoittamaan modulaarinen, tehokas data -analyysi ja koneoppimiskoodi tuottavuuden parantamiseksi eri tilanteissa - tutkiva tietojen analysointi, visualisointi, syväoppiminen jne.
  3. Kattaa laajan valikoiman sivuteemoja, kuten ohjelmistotestaus, moduulikehitys, GUI-ohjelmointiML -mallin käyttöönotto web-sovelluksina, jotka ovat korvaamattomia taitoja aloittelevalle datatieteilijälle ja joita on vaikea löytää yhdessä mistään tavallisesta datatieteen kirjasta.
  4. Peitä rinnakkaislaskenta (esim. Dask, Ray), skaalautuvuus (esim. Vaex, Modin) ja GPU-käyttöinen datatiedon pino (NOPEA) käytännön esimerkein.
  5. Paljasta ja opasta lukijoita laajempaan ja jatkuvasti laajenevaan tietojenkäsittelytyökalujen ekosysteemiin, joka on yhteydessä laajempaan ohjelmistotuotanto ja tuotantotason käyttöönotto.

Konkreettinen esimerkki: GPU-käyttöinen ja hajautettu datatiede

 
Vaikka grafiikkasuorittimien ja hajautetun tietojenkäsittelyn käytöstä keskustellaan laajasti akateemisissa ja liike -elämän piireissä AI/ML -ydintehtävissä, he ovat löytäneet vähemmän hyödyllisyyttä kattavuudesta säännöllisiin datatieteen ja tietotekniikan tehtäviin. GPU: iden käyttäminen säännöllisiin päivittäisiin tilastollisiin analyyseihin tai muihin tietotieteellisiin tehtäviin voi kuitenkin johtaa pitkälle kohti sananlaskua "Tuottava datatieteilijä".

Esimerkiksi RAPIDS -ohjelmistokirjastot ja sovellusliittymät antaa sinulle - tavalliselle datatieteilijälle (eikä välttämättä syvän oppimisen harjoittajalle) - mahdollisuuden ja joustavuuden suorittaa päästä päähän datatiede- ja analytiikkaputket kokonaan grafiikkasuorittimilla.



Kuvan lähde: Tekijä loi kollaasin

 

Näitä kirjastoja käytettäessä jopa vaatimattomalla grafiikkasuorittimella nopeus on parantunut huomattavasti verrattuna tavallisiin Python -vastaaviin. Meidän on luonnollisesti otettava nämä omaksumme aina kun voimme Tuottava datatiede työnkulku.


 

Samoin on olemassa erinomaisia ​​avoimen lähdekoodin mahdollisuuksia ylittää Python-kielen yhden ytimen luonteen rajat ja omaksua rinnakkaislaskennan paradigma siirtymättä pois olennaisen datatieteilijän persoonasta.



Kuvan lähde: Tekijä loi kollaasin

Yhteenveto

 
Keskustelimme a: n apuohjelmista ja ydinkomponenteista Tuottava datatiede työnkulku. Mietimme, mitä ihanteellinen kurssi tai kirja tästä aiheesta tarjoaisi lukijoille. Käsittelimme joitain konkreettisia esimerkkejä ja havainnollistimme etuja. Joitakin asiaan liittyviä resursseja annettiin myös hallittavien taitojen yhteydessä.

Voit tarkistaa kirjoittajan GitHub arkistot koodille, ideoille ja resursseille koneoppimisessa ja tietojenkäsittelyssä. Jos olet kuten minä, intohimoisesti AI / koneoppiminen / tietotekniikka, ota rohkeasti yhteyttä lisää minut LinkedIniin or seuraa minua Twitterissä.

 
Alkuperäinen. Postitettu luvalla.

Related:

Lähde: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

Aikaleima:

Lisää aiheesta KDnuggets