poloniex-stemt-in-een-schikking-met-de-sec-voor-meer-dan-10m.png

Waarom en hoe moet je "Productive Data Science" leren?

Bronknooppunt: 1858780

Gouden blogWaarom en hoe moet je "Productive Data Science" leren?

Wat is Productive Data Science en wat zijn enkele componenten ervan?




BeeldbronPixabay (Gratis afbeelding)

Efficiëntie in de datawetenschap-workflow

 
Datawetenschap en machine learning kunnen met verschillende mate van efficiëntie en productiviteit worden beoefend. Ongeacht het toepassingsgebied of de specialisatie moet een datawetenschapper - beginner of ervaren professional - ernaar streven om: zijn/haar efficiëntie verbeteren bij alle aspecten van typische datawetenschapstaken,

  • statistische analyse,
  • visualisatie,
  • modelselectie, feature engineering,
  • code kwaliteit testen, modularisatie,
  • parallelle verwerking,
  • eenvoudige web-app-implementatie



BeeldbronPixabay (Gratis afbeelding)

 

Dit betekent het uitvoeren van al deze taken,

  • bij hogere snelheid
  • met snellere foutopsporing
  • op een gesynchroniseerde manier
  • door volledig gebruik te maken van alle beschikbare hardwarebronnen

Wat mag je verwachten te leren in dit proces?

 
Laten we ons voorstellen dat iemand een “Productieve datawetenschap” cursus of er een boek over schrijven — met Python als taalkader. Wat moeten de typische verwachtingen zijn van zo'n cursus of boek?



BeeldbronPixabay (Gratis afbeelding)

 

De cursus/het boek moet bedoeld zijn voor degenen die dat willen haasje-over voorbij de standaardmanier van het uitvoeren van datawetenschaps- en machine learning-taken en het volledige spectrum van het Python-datawetenschapsecosysteem gebruiken voor een veel hoger productiviteitsniveau.

Lezers moeten worden geleerd hoe ze kunnen letten op inefficiënties en knelpunten in het standaardproces en hoe ze buiten de gebaande paden kunnen denken.

Automatisering van repetitieve datawetenschapstaken is een belangrijke mentaliteit die de lezers zullen ontwikkelen door het lezen van dit boek. In veel gevallen zullen ze ook leren hoe ze de bestaande codeerpraktijk kunnen uitbreiden om grotere datasets met hoge efficiëntie te verwerken met behulp van geavanceerde softwaretools die al bestaan ​​in het Python-ecosysteem, maar die in geen enkele standaard datawetenschap worden onderwezen.

Dit zou geen gewoon Python-kookboek moeten zijn dat standaardbibliotheken zoals Numpy of Panda's leert.

In plaats daarvan zou het zich moeten concentreren op nuttige technieken, zoals hoe meet de geheugenvoetafdruk en uitvoeringssnelheid van ML-modellen, kwaliteitstest een datawetenschapspijplijn, modulariseren een datawetenschapspijplijn voor app-ontwikkeling, enz. Het zou ook Python-bibliotheken moeten dekken, wat erg handig is voor automatiseren en versnellen de dagelijkse taken van elke datawetenschapper.

Bovendien moet het ingaan op tools en pakketten die een datawetenschapper helpen het aanpakken van grote en complexe datasets op een veel meer optimale manier dan mogelijk zou zijn geweest door de standaard wijsheid van Python-gegevenswetenschap te volgen.

Enkele specifieke vaardigheden om onder de knie te krijgen

 



BeeldbronPixabay (Gratis afbeelding)

 

Laten we, om dingen concreet te maken, een aantal specifieke vaardigheden samenvatten die je moet beheersen om te leren en te oefenen Productieve datawetenschap. Ik heb ook geprobeerd de links naar enkele representatieve artikelen in te voeren om bij elke vaardigheid als referentie te passen.

  1. Hoe werkt het? schrijf snelle en efficiënte code voor datawetenschap/ML en hoe hun snelheid en efficiëntie te meten (zie dit artikel)
  2. Hoe gemodulariseerde en expressieve data science-pipelines te bouwen om de productiviteit te verbeteren (zie dit artikel)
  3. Hoe testmodules voor datawetenschap en ML-modellen te schrijven (zie dit artikel)
  4. Efficiënt omgaan met grote en complexe datasets (wat moeilijk zou zijn geweest met traditionele DS-tools)
  5. Hoe GPU en multi-coreprocessors volledig te gebruiken voor allerlei soorten datawetenschaps- en analysetaken, en niet alleen voor gespecialiseerde deep learning-modellering (zie dit artikel)
  6. Hoe u snelle GUI-apps kunt maken voor de demo van een datawetenschap/ML-idee of modelafstemming (zie dit artikel), of hoe u eenvoudig (en snel) ML-modellen en gegevensanalysecode op app-niveau implementeert (zie dit artikel)

Een ideaal boek over dit onderwerp zal…

 



BeeldbronPixabay (Gratis afbeelding)

 

  1. Leer hoe u op moet letten inefficiënties en knelpunten in de standaard data science-code en hoe je buiten de gebaande paden kunt denken om die problemen op te lossen.
  2. Leer hoe u gemodulariseerde, efficiënte gegevensanalyse en machine learning-code schrijft om de productiviteit in verschillende situaties te verbeteren - verkennende gegevensanalyse, visualisatie, diep leren, enz.
  3. Behandel een breed scala aan nevenonderwerpen, zoals softwaretesten, moduleontwikkeling, GUI-programmeringImplementatie van ML-model als web-app, die onschatbare vaardigheden zijn voor beginnende datawetenschappers om te bezitten en die moeilijk samen te vinden zijn in een enkel standaard datawetenschapsboek.
  4. Behandel parallel computergebruik (bijv. Das, Ray), schaalbaarheid (bijv. Vaex, Modin) en GPU-aangedreven datawetenschapstack (VERSNELLINGEN) met praktijkvoorbeelden.
  5. Bloot en begeleid de lezers naar een groter en steeds groter wordend Python-ecosysteem van datawetenschapstools die zijn verbonden met de bredere aspecten van software engineering en implementatie op productieniveau.

Een concreet voorbeeld: GPU-aangedreven en gedistribueerde datawetenschap

 
Hoewel het gebruik van GPU's en gedistribueerde computing veel wordt besproken in academische en zakelijke kringen voor de belangrijkste AI/ML-taken, hebben ze minder dekking gevonden in hun hulpprogramma voor reguliere datawetenschaps- en data-engineeringtaken. Het gebruik van GPU's voor reguliere dagelijkse statistische analyses of andere datawetenschapstaken kan er echter toe bijdragen dat het spreekwoordelijke "Productieve datawetenschapper"'.

Bijvoorbeeld, de RAPIDS-suite met softwarebibliotheken en API's u - een vaste datawetenschapper (en niet noodzakelijk een deep learning-beoefenaar) - de mogelijkheid en flexibiliteit geven om uit te voeren end-to-end datawetenschap en analysepijplijnen volledig op GPU's.



Beeldbron: Auteur gemaakte collage

 

Zelfs wanneer ze worden gebruikt met een bescheiden GPU, laten deze bibliotheken een opmerkelijke snelheidsverbetering zien ten opzichte van hun reguliere Python-tegenhangers. Natuurlijk moeten we deze omarmen wanneer we kunnen voor Productieve datawetenschap workflow.


 

Evenzo zijn er uitstekende open-sourcemogelijkheden om de grenzen van de single-core aard van Python-taal te overstijgen en het paradigma van parallelle computing te omarmen zonder af te wijken van de typische datawetenschapper-persona.



Beeldbron: Auteur gemaakte collage

Samengevat

 
We bespraken de hulpprogramma's en kerncomponenten van a Productieve datawetenschap werkstroom. We stelden ons voor wat een ideale cursus of boek over dit onderwerp de lezers zou bieden. We hebben enkele concrete voorbeelden aangestipt en de voordelen geïllustreerd. Sommige gerelateerde bronnen werden ook verstrekt in het kader van vaardigheden die moeten worden beheerst.

U kunt de auteur controleren GitHub repositories voor code, ideeën en bronnen in machine learning en data science. Als je, net als ik, gepassioneerd bent door AI / machine learning / data science, voel je dan vrij om dat te doen voeg me toe op LinkedIn or Volg me op Twitter.

 
ORIGINELE. Met toestemming opnieuw gepost.

Zie ook:

Bron: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

Tijdstempel:

Meer van KDnuggets