Ripubblicato da Platone

Seguaci: 0

Perché e come dovresti imparare la "scienza dei dati produttivi"?

= Post precedente

Post successivo =>

Tag: Libri, Consigli di carriera, Corsi , Science Data, Python

Che cos'è la Data Science produttiva e quali sono alcuni dei suoi componenti?

By Tirthajyoti Sarkar, Adaptix Corp.

Commenti

Fonte immagine: Pixabay (Immagine libera)

Efficienza nel flusso di lavoro della scienza dei dati

La scienza dei dati e l’apprendimento automatico possono essere praticati con diversi gradi di efficienza e produttività. Indipendentemente dall’area di applicazione o dalla specializzazione, uno scienziato dei dati, principiante o professionista esperto, dovrebbe sforzarsi di farlo migliorare la sua efficienza in tutti gli aspetti dei compiti tipici della scienza dei dati,

analisi statistica,
visualizzazione,
selezione del modello, ingegneria delle funzionalità,
test di qualità del codice, modularizzazione,
elaborazione parallela,
facile distribuzione dell'app Web

Fonte immagine: Pixabay (Immagine libera)

Ciò significa eseguire tutti questi compiti,

a velocità più elevata
con un debug più veloce
in modo sincronizzato
sfruttando appieno tutte le risorse hardware disponibili

Cosa dovresti aspettarti di imparare in questo processo?

Immaginiamo che qualcuno stia insegnando un "Scienza dei dati produttivi" o scrivere un libro al riguardo, utilizzando Python come framework linguistico. Quali dovrebbero essere le aspettative tipiche da un corso o da un libro del genere?

Fonte immagine: Pixabay (Immagine libera)

Il corso/libro dovrebbe essere destinato a coloro che lo desiderano fare un balzo oltre il percorso standard di eseguire attività di data science e machine learning e di utilizzare l'intero spettro dell'ecosistema di data science Python per un livello di produttività molto più elevato.

Ai lettori dovrebbe essere insegnato come prestare attenzione alle inefficienze e ai colli di bottiglia nel processo standard e come pensare oltre gli schemi.

Automazione di attività ripetitive di data science è una mentalità chiave che i lettori svilupperanno leggendo questo libro. In molti casi, impareranno anche come estendere la pratica di codifica esistente per gestire set di dati più grandi con alta efficienza con l'aiuto di strumenti software avanzati che già esistono nell'ecosistema Python ma che non vengono insegnati in nessuna scienza dei dati standard.

Questo non dovrebbe essere un normale libro di ricette Python che insegna librerie standard come Numpy o Pandas.

Piuttosto, dovrebbe concentrarsi su tecniche utili, ad esempio come farlo misurare l'impronta di memoria e la velocità di esecuzione dei modelli ML, test di qualità una pipeline di scienza dei dati, modularizzare una pipeline di data science per lo sviluppo di app, ecc. Dovrebbe coprire anche le librerie Python che risultano molto utili Automatizzare ed accelerare le attività quotidiane di qualsiasi data scientist.

Inoltre, dovrebbe toccare strumenti e pacchetti che aiutano uno scienziato dei dati affrontare set di dati grandi e complessi in un modo molto più ottimale di quanto sarebbe stato possibile seguendo la saggezza della tecnologia di scienza dei dati standard di Python.

Alcune abilità specifiche da padroneggiare

Fonte immagine: Pixabay (Immagine libera)

Per mettere le cose in termini concreti, riassumiamo alcune competenze specifiche da padroneggiare per l’apprendimento e la pratica Scienza dei dati produttivi. Ho anche provato a inserire collegamenti ad alcuni articoli rappresentativi per utilizzare ciascuna competenza come riferimento.

Come scrivere codice veloce ed efficiente per la scienza dei dati/ML e come misurarne la velocità e l'efficienza (leggi questo articolo)
Come costruire pipeline di data science modularizzate ed espressive per migliorare la produttività (leggi questo articolo)
Come scrivere moduli di test per data science e modelli ML (leggi questo articolo)
Come gestire in modo efficiente set di dati grandi e complessi (cosa che sarebbe stata difficile con gli strumenti DS tradizionali)
Come utilizzare appieno GPU e processori multi-core per tutti i tipi di attività di data science e analisi e non solo per la modellazione specializzata di deep learning (leggi questo articolo)
Come creare app GUI rapide per la demo di un'idea di data science/ML o di ottimizzazione del modello (leggi questo articolo) o come distribuire facilmente (e rapidamente) modelli ML e codice di analisi dei dati a livello di app (leggi questo articolo)

Un libro ideale su questo argomento sarà...

Fonte immagine: Pixabay (Immagine libera)

Insegna a prenderti cura di te inefficienze e colli di bottiglia nel codice standard della scienza dei dati e come pensare oltre gli schemi per risolvere questi problemi.
Insegna come scrivere codici di analisi dei dati e machine learning modulari ed efficienti per migliorare la produttività in una varietà di situazioni: analisi esplorativa dei dati, visualizzazione, deep learning, ecc.
Coprire una vasta gamma di argomenti collaterali come test del software, sviluppo di moduli, Programmazione GUI, Distribuzione del modello ML come app Web, che rappresentano competenze inestimabili che i data scientist in erba possono possedere e che sono difficili da trovare collettivamente in qualsiasi libro standard di data science.
Coprire il calcolo parallelo (ad es. Scuro, Ray), scalabilità (ad es. Vaex, Modin) e stack di data science basato su GPU (RAPIDE) con esempi pratici.
Esporre e guidare i lettori verso un ecosistema Python più ampio e in continua espansione di strumenti di data science collegati agli aspetti più ampi di Ingegneria del software e distribuzione a livello di produzione.

Un esempio concreto: data science distribuita e basata su GPU

Sebbene l'uso delle GPU e del calcolo distribuito sia ampiamente discusso negli ambienti accademici e aziendali per le attività principali di intelligenza artificiale/ML, hanno trovato meno copertura nella loro utilità per le normali attività di data science e ingegneria dei dati. Tuttavia, l'utilizzo delle GPU per analisi statistiche quotidiane regolari o altre attività di data science può contribuire notevolmente a diventare la proverbiale “Scienziato dei dati produttivi".

Ad esempio, al cotone biologico viene applicata l'etichetta Suite RAPIDS di librerie software e API darti — un normale data scientist (e non necessariamente un professionista dell'apprendimento profondo) — l'opzione e la flessibilità per eseguire pipeline di analisi e data science end-to-end interamente su GPU.

Fonte immagine: Collage creato dall'autore

Se utilizzate anche con una GPU modesta, queste librerie mostrano un notevole miglioramento della velocità rispetto alle normali controparti Python. Naturalmente, dovremmo abbracciarli ogni volta che possiamo Scienza dei dati produttivi flusso di lavoro.

Allo stesso modo, ci sono eccellenti opportunità open source per andare oltre i limiti della natura single-core del linguaggio Python e abbracciare il paradigma del calcolo parallelo senza allontanarsi dalla quintessenza del personaggio del data scientist.

Fonte immagine: Collage creato dall'autore

Sommario

Abbiamo discusso le utilità e i componenti principali di a Scienza dei dati produttivi flusso di lavoro. Abbiamo immaginato cosa offrirebbe ai lettori un corso o un libro ideale su questo argomento. Abbiamo accennato ad alcuni esempi concreti e ne abbiamo illustrato i vantaggi. Alcune risorse correlate sono state fornite anche nel contesto delle competenze da padroneggiare.

Puoi controllare l'autore GitHub repository per codice, idee e risorse in machine learning e data science. Se sei, come me, appassionato di AI / machine learning / data science, non esitare aggiungimi su LinkedIn or Seguimi su Twitter.

Originale. Ripubblicato con il permesso.

Correlato:

= Post precedente

Post successivo =>

Le migliori storie degli ultimi 30 giorni

Più popolare
I 6 migliori corsi online di Data Science nel 2021 I data scientist e gli ingegneri ML sono dipendenti di lusso Consigli per l'apprendimento della scienza dei dati dal direttore della ricerca di Google Alternative open source di GitHub Copilot Fondamenti geometrici del Deep Learning

La maggior parte in comune
Perché e come dovresti imparare la "scienza dei dati produttivi"? Non solo per il deep learning: come le GPU accelerano la scienza dei dati e l'analisi dei dati Avvia uno stack di dati moderno in 5 minuti con Terraform Data Science basata su GPU (NON Deep Learning) con RAPIDS Diventa un ingegnere analitico in 90 giorni