poloniex-accetta-di-accordarsi-con-il-sec-per-più-di-10-m.png

Perché e come dovresti imparare la "scienza dei dati produttivi"?

Nodo di origine: 1858780

Blog GoldPerché e come dovresti imparare la "scienza dei dati produttivi"?

Che cos'è la Data Science produttiva e quali sono alcuni dei suoi componenti?




Fonte immaginePixabay (Immagine libera)

Efficienza nel flusso di lavoro della scienza dei dati

 
La scienza dei dati e l’apprendimento automatico possono essere praticati con diversi gradi di efficienza e produttività. Indipendentemente dall’area di applicazione o dalla specializzazione, uno scienziato dei dati, principiante o professionista esperto, dovrebbe sforzarsi di farlo migliorare la sua efficienza in tutti gli aspetti dei compiti tipici della scienza dei dati,

  • analisi statistica,
  • visualizzazione,
  • selezione del modello, ingegneria delle funzionalità,
  • test di qualità del codice, modularizzazione,
  • elaborazione parallela,
  • facile distribuzione dell'app Web



Fonte immaginePixabay (Immagine libera)

 

Ciò significa eseguire tutti questi compiti,

  • a velocità più elevata
  • con un debug più veloce
  • in modo sincronizzato
  • sfruttando appieno tutte le risorse hardware disponibili

Cosa dovresti aspettarti di imparare in questo processo?

 
Immaginiamo che qualcuno stia insegnando un "Scienza dei dati produttivi" o scrivere un libro al riguardo, utilizzando Python come framework linguistico. Quali dovrebbero essere le aspettative tipiche da un corso o da un libro del genere?



Fonte immaginePixabay (Immagine libera)

 

Il corso/libro dovrebbe essere destinato a coloro che lo desiderano fare un balzo oltre il percorso standard di eseguire attività di data science e machine learning e di utilizzare l'intero spettro dell'ecosistema di data science Python per un livello di produttività molto più elevato.

Ai lettori dovrebbe essere insegnato come prestare attenzione alle inefficienze e ai colli di bottiglia nel processo standard e come pensare oltre gli schemi.

Automazione di attività ripetitive di data science è una mentalità chiave che i lettori svilupperanno leggendo questo libro. In molti casi, impareranno anche come estendere la pratica di codifica esistente per gestire set di dati più grandi con alta efficienza con l'aiuto di strumenti software avanzati che già esistono nell'ecosistema Python ma che non vengono insegnati in nessuna scienza dei dati standard.

Questo non dovrebbe essere un normale libro di ricette Python che insegna librerie standard come Numpy o Pandas.

Piuttosto, dovrebbe concentrarsi su tecniche utili, ad esempio come farlo misurare l'impronta di memoria e la velocità di esecuzione dei modelli ML, test di qualità una pipeline di scienza dei dati, modularizzare una pipeline di data science per lo sviluppo di app, ecc. Dovrebbe coprire anche le librerie Python che risultano molto utili Automatizzare ed accelerare le attività quotidiane di qualsiasi data scientist.

Inoltre, dovrebbe toccare strumenti e pacchetti che aiutano uno scienziato dei dati affrontare set di dati grandi e complessi in un modo molto più ottimale di quanto sarebbe stato possibile seguendo la saggezza della tecnologia di scienza dei dati standard di Python.

Alcune abilità specifiche da padroneggiare

 



Fonte immaginePixabay (Immagine libera)

 

Per mettere le cose in termini concreti, riassumiamo alcune competenze specifiche da padroneggiare per l’apprendimento e la pratica Scienza dei dati produttivi. Ho anche provato a inserire collegamenti ad alcuni articoli rappresentativi per utilizzare ciascuna competenza come riferimento.

  1. Come scrivere codice veloce ed efficiente per la scienza dei dati/ML e come misurarne la velocità e l'efficienza (leggi questo articolo)
  2. Come costruire pipeline di data science modularizzate ed espressive per migliorare la produttività (leggi questo articolo)
  3. Come scrivere moduli di test per data science e modelli ML (leggi questo articolo)
  4. Come gestire in modo efficiente set di dati grandi e complessi (cosa che sarebbe stata difficile con gli strumenti DS tradizionali)
  5. Come utilizzare appieno GPU e processori multi-core per tutti i tipi di attività di data science e analisi e non solo per la modellazione specializzata di deep learning (leggi questo articolo)
  6. Come creare app GUI rapide per la demo di un'idea di data science/ML o di ottimizzazione del modello (leggi questo articolo) o come distribuire facilmente (e rapidamente) modelli ML e codice di analisi dei dati a livello di app (leggi questo articolo)

Un libro ideale su questo argomento sarà...

 



Fonte immaginePixabay (Immagine libera)

 

  1. Insegna a prenderti cura di te inefficienze e colli di bottiglia nel codice standard della scienza dei dati e come pensare oltre gli schemi per risolvere questi problemi.
  2. Insegna come scrivere codici di analisi dei dati e machine learning modulari ed efficienti per migliorare la produttività in una varietà di situazioni: analisi esplorativa dei dati, visualizzazione, deep learning, ecc.
  3. Coprire una vasta gamma di argomenti collaterali come test del software, sviluppo di moduli, Programmazione GUIDistribuzione del modello ML come app Web, che rappresentano competenze inestimabili che i data scientist in erba possono possedere e che sono difficili da trovare collettivamente in qualsiasi libro standard di data science.
  4. Coprire il calcolo parallelo (ad es. Scuro, Ray), scalabilità (ad es. Vaex, Modin) e stack di data science basato su GPU (RAPIDE) con esempi pratici.
  5. Esporre e guidare i lettori verso un ecosistema Python più ampio e in continua espansione di strumenti di data science collegati agli aspetti più ampi di Ingegneria del software e distribuzione a livello di produzione.

Un esempio concreto: data science distribuita e basata su GPU

 
Sebbene l'uso delle GPU e del calcolo distribuito sia ampiamente discusso negli ambienti accademici e aziendali per le attività principali di intelligenza artificiale/ML, hanno trovato meno copertura nella loro utilità per le normali attività di data science e ingegneria dei dati. Tuttavia, l'utilizzo delle GPU per analisi statistiche quotidiane regolari o altre attività di data science può contribuire notevolmente a diventare la proverbiale “Scienziato dei dati produttivi".

Ad esempio, al cotone biologico viene applicata l'etichetta  Suite RAPIDS di librerie software e API darti — un normale data scientist (e non necessariamente un professionista dell'apprendimento profondo) — l'opzione e la flessibilità per eseguire pipeline di analisi e data science end-to-end interamente su GPU.



Fonte immagine: Collage creato dall'autore

 

Se utilizzate anche con una GPU modesta, queste librerie mostrano un notevole miglioramento della velocità rispetto alle normali controparti Python. Naturalmente, dovremmo abbracciarli ogni volta che possiamo Scienza dei dati produttivi flusso di lavoro.


 

Allo stesso modo, ci sono eccellenti opportunità open source per andare oltre i limiti della natura single-core del linguaggio Python e abbracciare il paradigma del calcolo parallelo senza allontanarsi dalla quintessenza del personaggio del data scientist.



Fonte immagine: Collage creato dall'autore

Sommario

 
Abbiamo discusso le utilità e i componenti principali di a Scienza dei dati produttivi flusso di lavoro. Abbiamo immaginato cosa offrirebbe ai lettori un corso o un libro ideale su questo argomento. Abbiamo accennato ad alcuni esempi concreti e ne abbiamo illustrato i vantaggi. Alcune risorse correlate sono state fornite anche nel contesto delle competenze da padroneggiare.

Puoi controllare l'autore GitHub repository per codice, idee e risorse in machine learning e data science. Se sei, come me, appassionato di AI / machine learning / data science, non esitare aggiungimi su LinkedIn or Seguimi su Twitter.

 
Originale. Ripubblicato con il permesso.

Correlato:

Fonte: https://www.kdnuggets.com/2021/07/learn-productive-data-science.html

Timestamp:

Di più da KDnuggets