Le 16 principali fonti di dati tecnici per progetti avanzati di data science - KDnuggets

Le 16 principali fonti di dati tecnici per progetti avanzati di data science – KDnuggets

Nodo di origine: 3081921

Le 16 principali fonti di dati tecnici per progetti avanzati di data science
Immagine dell'autore
 

Hai letto su queste pagine (e sono colpevole di aver scritto alcuni di quegli articoli) che i progetti di data science sono cruciali per sviluppare l'intero pacchetto di competenze tecniche di data science. E' vero, lo sono. Ma ciò che è altrettanto fondamentale è disporre di set di dati di alta qualità per i tuoi progetti di data science. Raccogliere dati di qualità è giusto una delle fasi di un progetto di data science, ma quello che può crearlo o distruggerlo.

La domanda è: dove trovare questi dannati dati? Fortunatamente, numerosi siti Web offrono una grande quantità di dati per vari scopi.

 

Le 16 principali fonti di dati tecnici per progetti avanzati di data science
Immagine dell'autore

ne hai sentito parlare Kaggle, probabilmente la piattaforma più conosciuta nella comunità della scienza dei dati. Ospita una vasta gamma di set di dati in vari formati (CSV, JSON, SQLite, BigQuery) e provenienti da più settori e argomenti, come salute, automobilismo, arte e intrattenimento, biologia, scienze sociali, investimenti, social network, sport e così via SU. Puoi anche cercare set di dati in base al loro focus tecnico, ad esempio informatica, classificazione, visione artificiale, PNL o visualizzazione dei dati.

Attualmente sono disponibili 274,855 set di dati, quindi i dati non ti mancheranno.

L'interfaccia user-friendly di Kaggle e i forum attivi della comunità lo rendono una risorsa eccellente sia per i principianti che per i professionisti.

Se sei un appassionato di machine learning, il Deposito UCI di Machine Learning dovrebbe essere il tuo sito di riferimento. Come dice il nome, questo repository è creato dall'Università della California, Irvine (UCI). Hanno raccolto un’ampia raccolta di set di dati su misura per l’apprendimento automatico. Poiché i set di dati coprono vari argomenti, sono particolarmente utili. Questi set di dati coprono una vasta gamma di argomenti e sono particolarmente utili per coloro che desiderano esercitarsi e migliorare le proprie capacità di apprendimento automatico.

Attualmente ci sono 653 set di dati; puoi sfogliarli per tipo di dati, area tematica, attività, numero di funzionalità e istanze e tipo di funzionalità.

Strata Scratch fornisce 49 set di dati e progetti provenienti da aziende reali. Ciò è particolarmente vantaggioso per coloro che si preparano per i colloqui sulla scienza dei dati, poiché aiuta gli utenti a sviluppare le proprie competenze tecniche e la capacità di ricavare approfondimenti aziendali dai dati. Ciò consente un approccio pratico e rilevante per il settore ai progetti di scienza dei dati.

I progetti coprono vari argomenti, come l'esplorazione dei dati, l'ingegneria dei dati, l'analisi aziendale, la regressione, la classificazione, la PNL e il clustering.

Ricerca set di dati di Google è uno strumento il cui scopo è trovare set di dati sul Web. Sai già come usarlo, anche se non ne hai mai sentito parlare fino ad ora. Perché? Bene, sembra e funziona come una normale ricerca su Google, solo che è focalizzata esclusivamente sulla ricerca di set di dati. È estremamente utile se stai cercando dati da varie fonti, documenti accademici e database governativi.

Amazon Set di dati pubblici AWS program è un altro sito dove puoi trovare molti dati aperti. Con 494 set di dati attualmente disponibili, è una risorsa preziosa per i data scientist. I set di dati che trovi lì possono essere integrati con i servizi cloud AWS. Ciò potrebbe essere utile se i tuoi progetti richiedono più risorse di elaborazione. 

La gamma di dati disponibili comprende, tra gli altri, la genomica, la meteorologia e l’astronomia.

Data.gov è un archivio di dati sponsorizzato dal governo degli Stati Uniti e contiene dati di varie organizzazioni statunitensi. Comprende 283,935 set di dati provenienti da 132 organizzazioni statunitensi. Esiste una vasta gamma di dati, come l'agricoltura, la sanità pubblica, la finanza, l'istruzione, la demografia, l'economia e i dati ambientali.

I set di dati sono disponibili in quasi 50 formati diversi, i più popolari includono HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON e TEXT.

FiveThirtyEight di ABC News è il repository di dati e codici dei loro articoli e grafici. È una risorsa perfetta per i giornalisti di dati e chiunque sia interessato allo storytelling statistico. Se sei interessato a realizzare progetti che coinvolgano eventi attuali, politica, sport e altro ancora, questa è la tua fonte. 

Offre più di 160 set di dati dal 2014 ad oggi.

Il Dati aperti della Banca mondiale offre ampi set di dati che ruotano attorno ai dati di sviluppo globale. Questi dati includono indicatori sull’economia, sull’ambiente e sulle questioni sociali provenienti da paesi di tutto il mondo. Se sei interessato allo sviluppo globale e agli argomenti socioeconomici, qui potresti trovare molti dati interessanti.

GitHub non è solo una piattaforma per la condivisione di codice. Può essere utilizzato anche per trovare set di dati per progetti di dati. Molte organizzazioni e singoli utenti ospitano i propri set di dati su repository GitHub. Questi dati coprono un'ampia gamma di argomenti, spesso supportati da un'ampia documentazione e codice per l'analisi.

OpenML è una piattaforma online per l'apprendimento automatico. Ciò significa anche darti accesso a molti dati. Più specificamente, quasi 5,400 set di dati. È progettato per condividere, organizzare e discutere dati e risultati di esperimenti di machine learning. OpenML può essere integrato con gli ambienti di machine learning più diffusi, il che rappresenta un vantaggio per l'apprendimento della scienza dei dati. 

Il Subreddit dei set di dati è una fonte di dati guidata dalla comunità. Le persone condividono tutto su Reddit. Bene, condividono e richiedono anche set di dati per progetti di dati. A volte è difficile trovare dati lì. Ma non per la mancanza di dati. Anzi! Il luogo è pieno di dati, il che a volte può rendere la ricerca dei dati piuttosto caotica. I dati spaziano da set di dati altamente specifici e insoliti a quelli più tradizionali. Poiché si tratta fondamentalmente di un forum, puoi anche partecipare alle discussioni e chiedere assistenza con i set di dati. 

Si chiama l'ufficio statistico dell'Unione Europea Eurostated è una fonte di dati completa. Se sei interessato a dati statistici di alta qualità sui paesi membri dell'UE, questa dovrebbe essere la tua principale fonte di dati. I dati sui paesi dell’UE includono argomenti come economia, popolazione, salute e commercio.

HDX è una piattaforma aperta dove puoi trovare dati umanitari. È gestito dall’Ufficio delle Nazioni Unite per il coordinamento degli affari umanitari. Questa piattaforma fornisce dati relativi alle crisi e alle emergenze umanitarie in ogni paese del mondo. Potresti trovarlo utile se ti piacciono i progetti incentrati su questioni globali, risposta alle catastrofi e benessere umano.

Ci sono 20,344 set di dati attivi e 2,570 archiviati con varie caratteristiche e formati.

Sulla CDC, puoi trovare dati relativi alla salute. I set di dati si concentrano su varie condizioni di salute, fattori di rischio e salute pubblica. Quindi, se questi sono gli argomenti che ti interessano, qui troverai molti dati utili.

Il BLS Il sito contiene molti dati sulle condizioni economiche degli Stati Uniti, sul mercato del lavoro, sulle variazioni dei prezzi, sulla qualità della vita, ecc. Troverai molti set di dati di qualità se ti piacciono questi argomenti. 

L'ultima fonte di dati che menzionerò è NASA. Ci sono molti dati su aerospaziale, scienze applicate, app, scienze della Terra, gestione/operazioni, dati grezzi, software e scienze spaziali.

Ha più di 10,000 set di dati, quindi non perderti nel suo universo di dati!

Questi 16 siti web, ne sono sicuro, ti forniranno dati sufficienti su cui lavorare fino alla fine dei tempi, che era proprio il mio obiettivo! Tuttavia, la quantità di dati non è tutto.

Ho scelto questi siti perché ti forniranno una gamma molto diversificata di set di dati adatti a una varietà di progetti di scienza dei dati. Le specifiche del set di dati differiscono da settore a settore. Pertanto, lavorare con diversi set di dati consente anche di acquisire conoscenza del dominio.

Che tu stia approfondendo l'apprendimento automatico, l'analisi dei dati, il giornalismo dei dati, l'analisi statistica o la visualizzazione dei dati, puoi sempre contare su queste risorse.

Ora puoi realizzare il tuo progetto di scienza dei dati! Se hai bisogno di altre idee, eccone alcune progetti di data science puoi farlo come principiante.
 
 

Nato Rosidi è un data scientist e nella strategia di prodotto. È anche un professore a contratto che insegna analisi ed è il fondatore di Strata Scratch, una piattaforma che aiuta i data scientist a prepararsi per le loro interviste con domande di interviste reali delle migliori aziende. Connettiti con lui su Twitter: Strata Scratch or LinkedIn.

Timestamp:

Di più da KDnuggets