Top 16 surse de date tehnice pentru proiecte avansate de știință a datelor - KDnuggets

Top 16 surse de date tehnice pentru proiecte avansate de știință a datelor – KDnuggets

Nodul sursă: 3081921

Top 16 surse de date tehnice pentru proiecte avansate de știință a datelor
Imagine de autor
 

Ați citit pe aceste pagini (și sunt vinovat că am scris unele dintre acele articole) că proiectele de știință a datelor sunt cruciale pentru dezvoltarea întregului pachet de abilități tehnice de știință a datelor. Este adevărat, sunt. Dar ceea ce este, de asemenea, vital este să aveți seturi de date de înaltă calitate pentru proiectele dvs. de știință a datelor. Colectarea datelor de calitate este doar una dintre etapele unui proiect de știință a datelor, ci cea care o poate face sau sparge.

Întrebarea este, unde să găsesc aceste date groaznice? Din fericire, numeroase site-uri web oferă o mulțime de date pentru diverse scopuri.

 

Top 16 surse de date tehnice pentru proiecte avansate de știință a datelor
Imagine de autor

Ai auzit despre Kaggle, probabil cea mai cunoscută platformă din comunitatea științei datelor. Găzduiește o gamă largă de seturi de date în diferite formate (CSV, JSON, SQLite, BigQuery) și din mai multe industrii și subiecte, cum ar fi sănătatea, autovehiculele, artele și divertismentul, biologie, științe sociale, investiții, rețele sociale, sport și așa mai departe. pe. De asemenea, puteți căuta seturi de date în funcție de focalizarea lor tehnică, de exemplu, informatică, clasificare, viziune computerizată, NLP sau vizualizare de date.

În prezent, există 274,855 de seturi de date disponibile, așa că nu vă vor lipsi datele.

Interfața prietenoasă a lui Kaggle și forumurile active ale comunității îl fac o resursă excelentă atât pentru începători, cât și pentru profesioniști.

Dacă sunteți un pasionat de învățare automată, Depozitul UCI Machine Learning ar trebui să fie site-ul tău preferat. După cum spune și numele, acest depozit este creat de Universitatea din California, Irvine (UCI). Ei au colectat o colecție extinsă de seturi de date adaptate pentru învățarea automată. Deoarece seturile de date acoperă diverse subiecte, sunt deosebit de utile Aceste seturi de date acoperă o gamă largă de subiecte și sunt deosebit de utile pentru cei care doresc să exerseze și să-și îmbunătățească abilitățile de învățare automată.

În prezent există 653 de seturi de date; le puteți răsfoi după tip de date, domeniu, sarcină, număr de caracteristici și instanțe și tip de caracteristică.

StrataScratch oferă 49 de seturi de date și proiecte provenite de la companii reale. Acest lucru este deosebit de benefic pentru cei care se pregătesc pentru interviuri pentru știința datelor, deoarece îi ajută pe utilizatori să-și dezvolte abilitățile tehnice și capacitatea de a obține informații despre afaceri din date. Acest lucru permite o abordare practică și relevantă pentru industrie a proiectelor de știință a datelor.

Proiectele acoperă diverse subiecte, cum ar fi explorarea datelor, ingineria datelor, analiza de afaceri, regresia, clasificarea, NLP și clustering.

Google Dataset Search este un instrument al cărui scop este de a găsi seturi de date pe web. Știi deja cum să-l folosești, chiar dacă nu ai auzit niciodată despre el până acum. De ce? Ei bine, arată și funcționează ca o căutare obișnuită pe Google, doar că se concentrează exclusiv pe găsirea de seturi de date. Este extrem de util dacă căutați date din diverse surse, lucrări academice și baze de date guvernamentale.

Amazon Seturi de date publice AWS programul este un alt site unde puteți găsi o mulțime de date deschise. Cu 494 de seturi de date disponibile în prezent, este o resursă prețioasă pentru oamenii de știință de date. Seturile de date pe care le găsiți acolo pot fi integrate cu serviciile cloud AWS. Acest lucru ar putea fi util dacă proiectele dvs. necesită mai multe resurse de calcul. 

Gama de date disponibile include genomica, meteorologia și astronomia, printre altele.

Data.gov este un depozit de date sponsorizat de guvernul SUA și conține date de la diferite organizații din SUA. Include 283,935 seturi de date de la 132 de organizații din SUA. Există o gamă largă de date, cum ar fi agricultura, sănătatea publică, finanțele, educația, datele demografice, economice și de mediu.

Seturile de date vin în aproape 50 de formate diferite, dintre care cele mai populare includ HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON și TEXT.

FiveThirtyEight de ABC News este depozitul de date și coduri ale articolelor și graficelor lor. Este o resursă perfectă pentru jurnaliştii de date şi pentru oricine este interesat de povestirea statistică. Dacă ești interesat să faci proiecte care implică evenimente curente, politică, sport și multe altele, aceasta este sursa ta. 

Oferă peste 160 de seturi de date din 2014 până astăzi.

Date deschise ale Băncii Mondiale oferă seturi extinse de date care se învârt în jurul datelor de dezvoltare globală. Aceste date includ indicatori privind economie, mediu și probleme sociale din țări din întreaga lume. Dacă sunteți interesat de dezvoltarea globală și subiectele socio-economice, s-ar putea să găsiți o mulțime de date interesante aici.

GitHub nu este doar o platformă pentru partajarea codului. Poate fi folosit și pentru a găsi seturi de date pentru proiecte de date. O mulțime de organizații și utilizatori individuali își găzduiesc seturile de date în depozitele GitHub. Aceste date acoperă o gamă largă de subiecte, adesea susținute de documentație extinsă și cod pentru analiză.

OpenML este o platformă online pentru învățarea automată. Acest lucru înseamnă, de asemenea, să vă oferim acces la o mulțime de date. Mai precis, aproape 5,400 de seturi de date. Este conceput pentru partajarea, organizarea și discutarea datelor și rezultatelor experimentelor de învățare automată. OpenML poate fi integrat cu medii populare de învățare automată, ceea ce este un bonus pentru învățarea științei datelor. 

Subreddit seturi de date este o sursă de date condusă de comunitate. Oamenii partajează totul pe reddit. Ei bine, ei partajează și solicită și seturi de date pentru proiecte de date. Uneori este dificil să găsești date acolo. Dar nu din cauza lipsei de date. Dimpotrivă! Locul este plin de date, ceea ce poate face căutarea de date destul de haotică uneori. Datele variază de la seturi de date foarte specifice și neobișnuite până la seturi de date mai tradiționale. Deoarece acesta este practic un forum, puteți, de asemenea, să participați la discuții și să solicitați asistență cu seturile de date. 

Se numește oficiul de statistică al Uniunii Europene Eurostat, și este o sursă cuprinzătoare de date. Dacă sunteți interesat de date statistice de înaltă calitate despre țările membre UE, aceasta ar trebui să fie sursa dvs. principală de date. Datele privind țările UE includ subiecte precum economia, populația, sănătatea și comerțul.

extensia hdx este o platformă deschisă unde puteți găsi date umanitare. Este gestionat de Oficiul Națiunilor Unite pentru Coordonarea Afacerilor Umanitare. Această platformă oferă date referitoare la crize și urgențe umanitare din fiecare țară din lume. Puteți găsi acest lucru util dacă vă interesează proiecte care se concentrează pe probleme globale, răspunsul la dezastre și bunăstarea umană.

Există 20,344 seturi de date active și 2,570 arhivate cu diferite caracteristici și formate.

Pe CDC, puteți găsi date legate de sănătate. Seturile de date se concentrează pe diferite condiții de sănătate, factori de risc și sănătate publică. Deci, dacă acestea sunt subiectele care vă interesează, veți găsi aici o mulțime de date utile.

BLS Site-ul are o mulțime de date despre condițiile economice din SUA, piața muncii, schimbările de preț, calitatea vieții etc. Veți găsi o mulțime de seturi de date de calitate dacă vă interesează aceste subiecte. 

Ultima sursă de date pe care o voi menționa este NASA. Există o mulțime de date despre aerospațiu, știință aplicată, aplicații, știința Pământului, management/operațiuni, date brute, software și știința spațială.

Are peste 10,000 de seturi de date, așa că nu vă pierdeți în universul său de date!

Sunt sigur că aceste 16 site-uri web vă vor oferi suficiente date cu care să lucrați până la sfârșitul timpului, care a fost tocmai scopul meu! Cu toate acestea, cantitatea de date nu este totul.

Am ales aceste site-uri, deoarece vă vor oferi o gamă foarte diversă de seturi de date potrivite pentru o varietate de proiecte de știință a datelor. Specificul setului de date diferă de la industrie la industrie. Deci, lucrul cu diverse seturi de date vă permite, de asemenea, să obțineți cunoștințe de domeniu.

Indiferent dacă vă aprofundați în învățarea automată, analiza datelor, jurnalismul de date, analiza statistică sau vizualizarea datelor, puteți conta oricând pe aceste resurse.

Acum, puteți face propriul proiect de știință a datelor! Dacă aveți nevoie de mai multe idei, iată câteva proiecte de știință a datelor poți face ca începător.
 
 

Nate Rosidi este un om de știință de date și în strategie de produs. El este, de asemenea, profesor adjunct care predă analiză și este fondatorul StrataScratch, o platformă care îi ajută pe oamenii de știință ai datelor să se pregătească pentru interviurile lor cu întrebări de interviu reale de la companii de top. Conectați-vă cu el Twitter: StrataScratch or LinkedIn.

Timestamp-ul:

Mai mult de la KDnuggets