Återutgiven av Platon

anhängare: 0

Varför och hur ska du lära dig "Produktiv datavetenskap"?

= Tidigare inlägg

Nästa inlägg =>

Taggar: Böcker, karriärrådgivning, Kurser, Data Science, Python

Vad är Productive Data Science och vilka är några av dess komponenter?

By Tirthajyoti Sarkar, Adaptix Corp.

kommentarer

Bildkälla: Pixabay (Gratis bild)

Effektivitet i arbetsflödet för datavetenskap

Datavetenskap och maskininlärning kan utövas med olika grader av effektivitet och produktivitet. Oavsett applikationsområde eller specialisering bör en datavetare – nybörjare eller rutinerad proffs – sträva efter att förbättra hans/hennes effektivitet i alla aspekter av typiska datavetenskapliga uppgifter,

Statistisk analys,
visualisering,
modellval, funktionsteknik,
kodkvalitetstestning, modularisering,
parallell bearbetning,
enkel implementering av webbappar

Bildkälla: Pixabay (Gratis bild)

Detta innebär att utföra alla dessa uppgifter,

vid högre hastighet
med snabbare felsökning
på ett synkroniserat sätt
genom att dra full nytta av alla tillgängliga hårdvaruresurser

Vad bör du förvänta dig att lära dig i denna process?

Låt oss föreställa oss att någon lär ut en "Produktiv datavetenskap” kurs eller skriva en bok om det — med Python som språkramverk. Vad bör de typiska förväntningarna vara på en sådan kurs eller bok?

Bildkälla: Pixabay (Gratis bild)

Kursen/boken ska vara avsedd för dig som önskar hoppa över det vanliga sättet att utföra uppgifter inom datavetenskap och maskininlärning och utnyttja hela spektrumet av Pythons datavetenskapliga ekosystem för en mycket högre produktivitetsnivå.

Läsare bör läras hur man ser upp för ineffektivitet och flaskhalsar i standardprocessen och hur man tänker utanför ramarna.

Automatisering av repetitiva datavetenskapliga uppgifter är ett nyckeltänkande som läsarna kommer att utveckla genom att läsa den här boken. I många fall kommer de också att lära sig hur man utökar den befintliga kodningspraxisen till att hantera större datamängder med hög effektivitet med hjälp av avancerade mjukvaruverktyg som redan finns i Python-ekosystemet men som inte lärs ut i någon standard datavetenskap.

Detta bör inte vara en vanlig Python-kokbok som lär ut standardbibliotek som Numpy eller Pandas.

Snarare bör det fokusera på användbara tekniker som hur mäta minnesfotavtrycket och exekveringshastigheten av ML-modeller, kvalitetstest en pipeline för datavetenskap, modularisera en datavetenskapspipeline för apputveckling etc. Den bör också täcka Python-bibliotek som är väldigt praktiska för automatisera och ökar farten alla datavetares dagliga uppgifter.

Dessutom bör den beröra verktyg och paket som hjälper en datavetare hantera stora och komplexa datauppsättningar på ett mycket mer optimalt sätt än vad som skulle ha varit möjligt genom att följa standard Python datavetenskapsteknologisk visdom.

Vissa specifika färdigheter att behärska

Bildkälla: Pixabay (Gratis bild)

För att uttrycka saker i konkreta termer, låt oss sammanfatta några specifika färdigheter att bemästra för att lära och öva Produktiv datavetenskap. Jag har också försökt lägga in länkarna till några representativa artiklar som passar varje färdighet som referens.

Hur man skriva snabb och effektiv kod för datavetenskap/ML och hur man mäter deras hastighet och effektivitet (se den här artikeln)
Hur man bygger modulariserade och uttrycksfulla pipelines för datavetenskap för att förbättra produktiviteten (se den här artikeln)
Hur man skriver testmoduler för datavetenskap och ML-modeller (se den här artikeln)
Hur man hanterar stora och komplexa datauppsättningar effektivt (vilket skulle ha varit svårt med traditionella DS-verktyg)
Hur man fullt ut använder GPU och multi-core processorer för alla typer av datavetenskap och analysuppgifter, och inte bara för specialiserad djupinlärningsmodellering (se den här artikeln)
Hur man skapar snabba GUI-appar för demo av en datavetenskap/ML-idé eller modellinställning (se den här artikeln), eller hur man enkelt (och snabbt) distribuerar ML-modeller och dataanalyskod på appnivå (se den här artikeln)

En idealisk bok om detta ämne kommer...

Bildkälla: Pixabay (Gratis bild)

Lär dig att se upp för ineffektivitet och flaskhalsar i standardkoden för datavetenskap och hur man tänker bortom boxen för att lösa dessa problem.
Lär dig hur man skriver modulariserad, effektiv dataanalys och maskininlärningskod för att förbättra produktiviteten i en mängd olika situationer - utforskande dataanalys, visualisering, djupinlärning, etc.
Täck ett brett utbud av sidoämnen som mjukvarutestning, modulutveckling, GUI-programmering, ML-modellinstallation som webbapp, som är ovärderliga färdigheter för blivande datavetare att besitta och som är svåra att hitta tillsammans i en standardbok om datavetenskap.
Täck parallell beräkning (t.ex. Dask, Ray), skalbarhet (t.ex. Vaex, Modin), och GPU-driven datavetenskapsstack (FORS) med praktiska exempel.
Exponera och vägleda läsarna till ett större och ständigt växande Python-ekosystem av datavetenskapliga verktyg som är kopplade till de bredare aspekterna av mjukvaruutveckling och distribution på produktionsnivå.

Ett konkret exempel: GPU-driven och distribuerad datavetenskap

Även om användningen av GPU:er och distribuerad datoranvändning diskuteras flitigt i akademiska kretsar och affärskretsar för AI/ML-kärnuppgifter, har de funnit mindre täckning i deras verktyg för vanliga uppgifter inom datavetenskap och datateknik. Men att använda GPU:er för vanliga dagliga statistiska analyser eller andra datavetenskapliga uppgifter kan gå långt mot att bli det ökända "Produktiv dataforskare".

Till exempel, den RAPIDS -paket med programvarubibliotek och API: er ge dig - en vanlig datavetare (och inte nödvändigtvis en djupinlärare) - alternativet och flexibiliteten att utföra end-to-end datavetenskap och analyspipelines helt på GPU: er.

Bildkälla: Författare skapade collage

När de används även med en blygsam GPU, visar dessa bibliotek anmärkningsvärda förbättringar i hastighet jämfört med sina vanliga Python-motsvarigheter. Naturligtvis bör vi anamma dessa när vi kan Produktiv datavetenskap arbetsflöde.

På samma sätt finns det utmärkta möjligheter med öppen källkod att gå bortom gränserna för Python-språkets enkärniga natur och omfamna paradigmet för parallell datoranvändning utan att flytta bort från den typiska dataforskarens persona.

Bildkälla: Författare skapade collage

Sammanfattning

Vi diskuterade verktygen och kärnkomponenterna i en Produktiv datavetenskap arbetsflöde. Vi föreställde oss vad en idealisk kurs eller bok om detta ämne skulle erbjuda läsarna. Vi berörde några konkreta exempel och illustrerade fördelarna. Vissa relaterade resurser tillhandahölls också i samband med färdigheter att bemästra.

Du kan kontrollera författarens GitHub förråd för kod, idéer och resurser inom maskininlärning och datavetenskap. Om du, som jag, brinner för AI / maskininlärning / datavetenskap, är du välkommen att göra det lägg till mig på LinkedIn or Följ mig på Twitter.

Ursprungliga. Skickas om med tillstånd.

Relaterat:

= Tidigare inlägg

Nästa inlägg =>

Topphistorier de senaste 30 dagarna

Mest populär
Topp 6 onlinekurser för datavetenskap 2021 Dataforskare och ML-ingenjörer är lyxanställda Råd för lärande av datavetenskap från Googles forskningsdirektör GitHub Copilot -alternativ för öppen källkod Geometriska grunder för Deep Learning

Mest delad
Varför och hur ska du lära dig "Produktiv datavetenskap"? Inte bara för djupt lärande: Hur GPU: er påskyndar datavetenskap och dataanalys Starta en modern datastack på 5 minuter med Terraform GPU-driven datavetenskap (INTE Deep Learning) med RAPIDS Bli analytiker på 90 dagar