Altri trucchi per la scienza dei dati

Altri trucchi per la scienza dei dati

Nodo di origine: 1792233

Di recente ci siamo resi conto che era da un po' che non vi portavamo alcun foglietto informativo sulla scienza dei dati. E non è per la loro mancanza di disponibilità; i foglietti illustrativi di scienza dei dati sono ovunque, da quelli introduttivi a quelli avanzati, coprendo argomenti dagli algoritmi, alle statistiche, ai suggerimenti per le interviste e altro ancora.

Ma cosa rende un buon cheatsheet? Cosa rende un cheatsheet degno di essere considerato particolarmente valido? È difficile capirlo precisamente ciò che rende un buon foglietto illustrativo, ma ovviamente uno che trasmette informazioni essenziali in modo conciso - indipendentemente dal fatto che tali informazioni siano di natura specifica o generale - è sicuramente un buon inizio. Ed è questo che rende i nostri candidati oggi degni di nota. Quindi continua a leggere per quattro cheatsheet complementari curati che ti aiuteranno nell'apprendimento o nella revisione della scienza dei dati.

Il primo è Cheatsheet di scienza dei dati 2.0 di Aaron Wang, una raccolta di quattro pagine di astrazioni statistiche, algoritmi fondamentali di machine learning e argomenti e concetti di deep learning. Non vuole essere esaustivo, ma piuttosto un rapido riferimento per situazioni come la preparazione al colloquio e le revisioni degli esami e qualsiasi altra cosa che richieda un livello simile di profondità di revisione. L'autore osserva che mentre coloro che hanno una conoscenza di base di statistica e algebra lineare troverebbero questa risorsa di grande beneficio, anche i principianti dovrebbero essere in grado di raccogliere informazioni utili dal suo contenuto.

figura
Screenshot da Aaron Wang Scheda di scienza dei dati 2.0
 

La nostra prossima offerta di bigliettini di oggi è quella su cui si basa la risorsa di Aaron Wang, Cheatsheet sulla scienza dei dati di Maverick Lin (Il riferimento di Wang al proprio come 2.0 è un cenno diretto all’”originale” di Lin). Possiamo pensare al cheatsheet di Lin come più approfondito di quello di Wang (anche se la decisione di Wang di renderlo meno approfondito sembra intenzionale e un'alternativa utile), coprendo concetti più fondamentali della scienza dei dati come la pulizia dei dati, l'idea di modellare, fare " big data” con Hadoop, SQL e persino le basi di Python.

Chiaramente questo piacerà a coloro che sono più saldamente nel campo dei "principianti" e fa un buon lavoro nello stuzzicare gli appetiti e nel rendere i lettori consapevoli dell'ampio campo della scienza dei dati e di molti dei diversi concetti che abbraccia. Questa è sicuramente un'altra solida risorsa, soprattutto se il lettore è nuovo alla scienza dei dati.

figura
Screenshot da Maverick Lin Foglio informativo sulla scienza dei dati
 

Mentre ci spostiamo più indietro nel tempo, cercando l'ispirazione per il foglietto illustrativo di Lin, ci imbattiamo Cheatsheet sulle probabilità di William Chen 2.0. Il cheatsheet di Chen ha raccolto molta attenzione ed elogi nel corso degli anni, quindi potresti averlo incontrato ad un certo punto. Chiaramente con un focus diverso (dato il suo nome), il cheatsheet di Chen è un corso intensivo o una revisione approfondita dei concetti di probabilità, tra cui una varietà di distribuzioni, covarianza e trasformazioni, aspettativa condizionale, catene di Markov, varie formule di importanza e molto di piu.

Con 10 pagine, dovresti essere in grado di immaginare l'ampiezza degli argomenti di probabilità trattati qui. Ma non lasciare che questo ti scoraggi; Degna di nota è la capacità di Chen di ridurre i concetti ai loro punti essenziali e di spiegarli in un inglese semplice senza sacrificare gli elementi essenziali. È anche ricco di visualizzazioni esplicative, cosa molto utile quando lo spazio è limitato e il desiderio di essere concisi è forte.

Non solo la compilazione di Chen è di qualità e degna del tuo tempo, come principiante o qualcuno interessato a una recensione completa, lavorerei in ordine inverso rispetto a come sono state presentate queste risorse: dal cheatsheet di Chen, a quello di Lin e infine a quello di Wang, basandosi sui concetti man mano che procedi.

figura
Screenshot da William Chen Foglio informativo sulla probabilità 2.0
 

Un'ultima risorsa che includo qui, anche se tecnicamente non è un cheatsheet, è I morsi del machine learning di Rishabh Anand. Presentandosi come "[una] guida alle interviste sui concetti comuni, le migliori pratiche, le definizioni e la teoria del machine learning", Anand ha compilato un'ampia raccolta di "morsi" di conoscenza, la cui utilità trascende sicuramente la preparazione del colloquio originariamente prevista. Gli argomenti trattati all'interno includono:

  • Metriche di punteggio del modello
  • Condivisione dei parametri
  • Convalida incrociata k-Fold
  • Tipi di dati Python
  • Miglioramento delle prestazioni del modello
  • Modelli di visione artificiale
  • L'attenzione e le sue varianti
  • Gestire lo squilibrio di classe
  • Glossario della visione artificiale
  • Backpropagazione della vaniglia
  • regolarizzazione
  • Riferimenti

figura
Screenshot da Morsi di apprendimento automatico
 

Mentre vengono accennati "concetti, migliori pratiche, definizioni e teoria" dell'apprendimento automatico, come promesso nella descrizione della risorsa stessa, questi "morsi" sono decisamente orientati alla pratica, il che rende il sito complementare a gran parte del materiale trattato in i tre cheatsheet precedentemente citati. Se volessi coprire tutto il materiale in tutte e quattro le risorse in questo post, lo esaminerei sicuramente dopo gli altri tre.

Quindi ecco che hai quattro cheatsheet (o tre cheatsheet e una risorsa adiacente al cheatsheet) da utilizzare per il tuo apprendimento o ripasso. Spero che qualcosa qui sia utile per te e invito chiunque a condividere i cheatsheet che ha trovato utili nei commenti qui sotto.

Timestamp:

Di più da KDnuggets