Genudgivet af Platon

Abonnenter: 0

Hvorfor og hvordan skal du lære "Produktiv datavidenskab"?

= Forrige indlæg

Næste indlæg =>

tags: Bøger, Karriererådgivning, Kurser, data, Science, Python

Hvad er Productive Data Science, og hvad er nogle af dets komponenter?

By Tirthajyoti Sarkar, Adapdix Corp.

kommentarer

Billede kilde: Pixabay (Gratis billede)

Effektivitet i data science workflow

Datavidenskab og maskinlæring kan praktiseres med varierende grader af effektivitet og produktivitet. Uanset anvendelsesområde eller specialisering bør en dataforsker - nybegynder eller erfaren professionel - stræbe efter at øge hans/hendes effektivitet i alle aspekter af typiske datavidenskabelige opgaver,

Statistisk analyse,
visualisering,
modelvalg, funktionsteknik,
kodekvalitetstest, modularisering,
parallel behandling,
nem webapp-implementering

Billede kilde: Pixabay (Gratis billede)

Det betyder at udføre alle disse opgaver,

ved højere hastighed
med hurtigere debugging
på en synkroniseret måde
ved at udnytte alle tilgængelige hardwareressourcer fuldt ud

Hvad skal du forvente at lære i denne proces?

Lad os forestille os, at nogen underviser en "Produktiv datavidenskab” kursus eller skrive en bog om det — ved at bruge Python som sprogramme. Hvad skal de typiske forventninger være til sådan et kursus eller en bog?

Billede kilde: Pixabay (Gratis billede)

Kurset/bogen skal være tiltænkt dem, der har lyst springe ud over standardmåden at udføre datavidenskab og maskinlæringsopgaver og udnytte hele spektret af Python datavidenskabs-økosystemet til et meget højere produktivitetsniveau.

Læsere bør læres, hvordan man holder øje med ineffektivitet og flaskehalse i standardprocessen, og hvordan man tænker ud over boksen.

Automatisering af gentagne datavidenskabelige opgaver er en central tankegang, som læserne vil udvikle ved at læse denne bog. I mange tilfælde vil de også lære at udvide den eksisterende kodningspraksis til at håndtere større datasæt med høj effektivitet ved hjælp af avancerede softwareværktøjer, der allerede findes i Python-økosystemet, men som ikke undervises i nogen standard datavidenskab.

Dette bør ikke være en almindelig Python-kogebog, der underviser i standardbiblioteker som Numpy eller Pandas.

Det bør snarere fokusere på nyttige teknikker, såsom hvordan måle hukommelsesfodaftrykket og udførelseshastigheden af ML-modeller, kvalitetstest en datavidenskabspipeline, modularisere en data science pipeline til app-udvikling osv. Den bør også dække Python-biblioteker, som er meget praktiske til Automatisering , fremskynder enhver dataforskers daglige opgaver.

Desuden bør den berøre værktøjer og pakker, som hjælper en dataforsker håndtering af store og komplekse datasæt på en langt mere optimal måde end hvad der ville have været muligt ved at følge standard Python data science teknologisk visdom.

Nogle specifikke færdigheder at mestre

Billede kilde: Pixabay (Gratis billede)

For at sætte tingene i konkrete termer, lad os opsummere nogle specifikke færdigheder til at mestre for at lære og øve Produktiv datavidenskab. Jeg har også forsøgt at smide links til nogle repræsentative artikler, der passer til hver færdighed som reference.

Hvordan man skrive hurtig og effektiv kode til datavidenskab/ML og hvordan man måler deres hastighed og effektivitet (se denne artikel)
Hvordan man bygger modulariserede og ekspressive datavidenskabspipelines for at forbedre produktiviteten (se denne artikel)
Sådan skriver du testmoduler til datavidenskab og ML-modeller (se denne artikel)
Hvordan man håndterer store og komplekse datasæt effektivt (hvilket ville have været svært med traditionelle DS-værktøjer)
Hvordan man fuldt ud udnytter GPU og multi-core processorer til alle former for datavidenskab og analyseopgaver, og ikke kun til specialiseret dyb læringsmodellering (se denne artikel)
Sådan laver du hurtige GUI-apps til demoen af en datavidenskab/ML-idé eller modeljustering (se denne artikel), eller hvordan man nemt (og hurtigt) implementerer ML-modeller og dataanalysekode på app-niveau (se denne artikel)

En ideel bog om dette emne vil...

Billede kilde: Pixabay (Gratis billede)

Lær hvordan du skal passe på ineffektivitet og flaskehalse i standarddata science-koden, og hvordan man tænker ud over boksen for at løse disse problemer.
Lær, hvordan man skriver modulariseret, effektiv dataanalyse og maskinlæringskode for at forbedre produktiviteten i en række forskellige situationer - undersøgende dataanalyse, visualisering, dyb læring osv.
Dæk en bred vifte af sideemner såsom softwaretest, moduludvikling, GUI programmering, ML model implementering som web-app, som er uvurderlige færdigheder for spirende dataforskere at besidde, og som er svære at finde samlet i en standard datavidenskabsbog.
Dæk parallel computing (f.eks. Dask, Ray), skalerbarhed (f.eks. Vaex, Modin), og GPU-drevet data science stak (HURTIGE) med praktiske eksempler.
Udsæt og guide læserne til et større og stadigt ekspanderende Python-økosystem af datavidenskabelige værktøjer, der er forbundet med de bredere aspekter af software Engineering og implementering på produktionsniveau.

Et konkret eksempel: GPU-drevet og distribueret datavidenskab

Mens brugen af GPU'er og distribueret computing diskuteres bredt i de akademiske kredse og erhvervslivet til kerne AI/ML-opgaver, har de fundet mindre dækning i deres nytte til almindelige datavidenskab og dataingeniøropgaver. Brug af GPU'er til almindelige daglige statistiske analyser eller andre datavidenskabelige opgaver kan imidlertid gå langt hen imod at blive det ordsproglige "Produktiv dataforsker".

For eksempel RAPIDS suite af softwarebiblioteker og API'er give dig - en almindelig dataforsker (og ikke nødvendigvis en deep learning practitioner) - muligheden og fleksibiliteten til at udføre end-to-end datavidenskab og analysepipelines udelukkende på GPU'er.

Billede kilde: Forfatteren har lavet collage

Når de bruges selv med en beskeden GPU, viser disse biblioteker en bemærkelsesværdig forbedring i hastighed i forhold til deres almindelige Python-modstykker. Naturligvis bør vi omfavne disse, når vi kan Produktiv datavidenskab workflow.

På samme måde er der fremragende open source-muligheder for at gå ud over grænserne for Python-sprogets enkeltkernenatur og omfavne det parallelle computing-paradigme uden at flytte væk fra den typiske dataforsker-persona.

Billede kilde: Forfatteren har lavet collage

Resumé

Vi diskuterede hjælpeprogrammerne og kernekomponenterne i en Produktiv datavidenskab workflow. Vi forestillede os, hvad et ideelt kursus eller en ideel bog om dette emne ville tilbyde læserne. Vi kom ind på nogle konkrete eksempler og illustrerede fordelene. Nogle relaterede ressourcer blev også stillet til rådighed i forbindelse med færdigheder til at mestre.

Du kan tjekke forfatterens GitHub repositories for kode, ideer og ressourcer inden for maskinlæring og datavidenskab. Hvis du ligesom jeg brænder for AI/machine learning/datavidenskab, er du velkommen til at gøre det tilføje mig på LinkedIn or Følg mig på Twitter.

Original. Genopslået med tilladelse.

Relateret:

= Forrige indlæg

Næste indlæg =>

Tophistorier de seneste 30 dage

Mest Populære
Top 6 Data Science Online-kurser i 2021 Data Scientists og ML Engineers er luksusmedarbejdere Råd til at lære datavidenskab fra Googles forskningsdirektør GitHub Copilot Open Source-alternativer Geometriske grundlag for Deep Learning

Mest delt
Hvorfor og hvordan skal du lære "Produktiv datavidenskab"? Ikke kun til dyb læring: Hvordan GPU'er accelererer datavidenskab og dataanalyse Bootstrap en moderne datastak på 5 minutter med Terraform GPU-drevet datavidenskab (IKKE Deep Learning) med RAPIDS Bliv Analytics-ingeniør på 90 dage