16 najboljših tehničnih podatkovnih virov za napredne projekte podatkovne znanosti - KDnuggets

16 najboljših tehničnih podatkovnih virov za napredne projekte podatkovne znanosti – KDnuggets

Izvorno vozlišče: 3081921

16 najboljših tehničnih podatkovnih virov za napredne projekte podatkovne znanosti
Slika avtorja
 

Na teh straneh ste prebrali (in jaz sem kriv, ker sem napisal nekaj teh člankov), da so projekti podatkovne znanosti ključni za razvoj celotnega paketa tehničnih podatkovnih znanj. To je res, so. Pomembno pa je tudi, da imate visokokakovostne nabore podatkov za svoje projekte podatkovne znanosti. Zbiranje kakovostnih podatkov je samo ena od faz projekta podatkovne znanosti, ampak tisti, ki ga lahko naredi ali zlomi.

Vprašanje je, kje najti te presnete podatke? Na srečo številna spletna mesta ponujajo ogromno podatkov za različne namene.

 

16 najboljših tehničnih podatkovnih virov za napredne projekte podatkovne znanosti
Slika avtorja

Si že slišal za Kaggle, verjetno najbolj znana platforma v skupnosti podatkovnih znanosti. Gosti široko paleto naborov podatkov v različnih formatih (CSV, JSON, SQLite, BigQuery) in iz več panog in tem, kot so zdravje, avtomobilizem, umetnost in zabava, biologija, družboslovje, naložbe, družbena omrežja, šport itd. na. Iščete lahko tudi nize podatkov glede na njihovo tehnično usmeritev, npr. računalništvo, klasifikacija, računalniški vid, NLP ali vizualizacija podatkov.

Trenutno je na voljo 274,855 naborov podatkov, tako da vam podatkov ne bo manjkalo.

Kaggle je zaradi uporabniku prijaznega vmesnika in aktivnih forumov skupnosti odličen vir tako za začetnike kot za profesionalce.

Če ste navdušenec nad strojnim učenjem, je UCI Repozitorij strojnega učenja naj bo vaše spletno mesto. Kot že ime pove, je to skladišče ustvarila Univerza v Kaliforniji, Irvine (UCI). Zbrali so obsežno zbirko naborov podatkov, prilagojenih strojnemu učenju. Ker nabori podatkov pokrivajo različne teme, so še posebej uporabni. Ti nabori podatkov pokrivajo širok razpon tem in so še posebej uporabni za tiste, ki želijo vaditi in izboljšati svoje veščine strojnega učenja.

Trenutno obstaja 653 nizov podatkov; po njih lahko brskate po vrsti podatkov, predmetnem področju, nalogi, številu funkcij in primerkov ter vrsti funkcije.

StrataScratch ponuja 49 naborov podatkov in projektov, pridobljenih iz dejanskih podjetij. To je še posebej koristno za tiste, ki se pripravljajo na razgovore o podatkovni znanosti, saj uporabnikom pomaga razviti njihove tehnične spretnosti in sposobnost pridobivanja poslovnih vpogledov iz podatkov. To omogoča praktičen in za industrijo pomemben pristop k projektom podatkovne znanosti.

Projekti pokrivajo različne teme, kot so raziskovanje podatkov, podatkovni inženiring, poslovna analiza, regresija, klasifikacija, NLP in grozdenje.

Google Dataset Search je orodje, katerega namen je iskanje naborov podatkov po spletu. Že veste, kako ga uporabljati, čeprav do zdaj niste nikoli slišali zanj. Zakaj? No, izgleda in deluje kot običajno iskanje Google, le da je osredotočeno izključno na iskanje naborov podatkov. Izjemno uporaben je, če iščete podatke iz različnih virov, akademskih člankov in vladnih baz podatkov.

Amazonovi Javni nabori podatkov AWS program je še eno spletno mesto, kjer lahko najdete veliko odprtih podatkov. S 494 nabori podatkov, ki so trenutno na voljo, je dragocen vir za podatkovne znanstvenike. Nabore podatkov, ki jih najdete tam, je mogoče integrirati s storitvami v oblaku AWS. To je lahko koristno, če vaši projekti zahtevajo več računalniških virov. 

Obseg razpoložljivih podatkov med drugim vključuje genomiko, meteorologijo in astronomijo.

Data.gov je podatkovno skladišče, ki ga sponzorira ameriška vlada in vsebuje podatke različnih ameriških organizacij. Vključuje 283,935 podatkovnih nizov iz 132 ameriških organizacij. Obstaja široka paleta podatkov, kot so podatki o kmetijstvu, javnem zdravju, financah, izobraževanju, demografiji, ekonomiji in okolju.

Nabori podatkov so na voljo v skoraj 50 različnih formatih, med najbolj priljubljenimi pa so HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON in TEXT.

Pet trideset osem by ABC News je shramba podatkov in kod njihovih člankov in grafik. Je popoln vir za podatkovne novinarje in vse, ki jih zanima statistično pripovedovanje zgodb. Če vas zanimajo projekti, ki vključujejo aktualne dogodke, politiko, šport in drugo, je to vaš vir. 

Ponuja več kot 160 naborov podatkov od leta 2014 do danes.

O Odprti podatki Svetovne banke ponuja obsežne nabore podatkov, ki se vrtijo okoli podatkov o globalnem razvoju. Ti podatki vključujejo kazalnike o gospodarstvu, okolju in socialnih vprašanjih iz držav po vsem svetu. Če vas zanimajo globalni razvoj in socialno-ekonomske teme, boste morda tukaj našli veliko zanimivih podatkov.

GitHub ni le platforma za skupno rabo kode. Uporablja se lahko tudi za iskanje naborov podatkov za podatkovne projekte. Veliko organizacij in posameznih uporabnikov gosti svoje nabore podatkov v repozitorijih GitHub. Ti podatki pokrivajo široko paleto tem, ki so pogosto podprte z obsežno dokumentacijo in kodo za analizo.

OpenML je spletna platforma za strojno učenje. To pomeni tudi dostop do številnih podatkov. Natančneje, skoraj 5,400 nizov podatkov. Zasnovan je za skupno rabo, organiziranje in razpravo o podatkih in rezultatih poskusov strojnega učenja. OpenML je mogoče integrirati s priljubljenimi okolji strojnega učenja, kar je bonus za vaše učenje podatkovne znanosti. 

O Subreddit naborov podatkov je vir podatkov, ki ga vodi skupnost. Ljudje vse delijo na redditu. No, tudi delijo in zahtevajo nabore podatkov za podatkovne projekte. Včasih je tam težko najti podatke. A ne zaradi pomanjkanja podatkov. Nasprotno! Mesto je polno podatkov, zaradi česar je lahko iskanje podatkov včasih precej kaotično. Podatki segajo od zelo specifičnih in nenavadnih do bolj tradicionalnih naborov podatkov. Ker je to v bistvu forum, lahko tudi sodelujete v razpravah in zaprosite za pomoč pri naborih podatkov. 

Statistični urad Evropske unije se imenuje Eurostat, in je obsežen vir podatkov. Če vas zanimajo visokokakovostni statistični podatki o državah članicah EU, naj bo to vaš glavni vir podatkov. Podatki o državah EU vključujejo teme, kot so gospodarstvo, prebivalstvo, zdravje in trgovina.

HDX je odprta platforma, kjer lahko najdete humanitarne podatke. Upravlja ga Urad Združenih narodov za usklajevanje humanitarnih zadev. Ta platforma zagotavlja podatke o humanitarnih krizah in izrednih dogodkih v vseh državah na svetu. To bi se vam lahko zdelo koristno, če se ukvarjate s projekti, ki se osredotočajo na globalna vprašanja, odzivanje na nesreče in dobrobit ljudi.

Obstaja 20,344 aktivnih in 2,570 arhiviranih naborov podatkov z različnimi funkcijami in formati.

o CDC, najdete podatke v zvezi z zdravjem. Podatkovni nizi so osredotočeni na različna zdravstvena stanja, dejavnike tveganja in javno zdravje. Torej, če so to teme, ki vas zanimajo, boste tukaj našli veliko koristnih podatkov.

O BLS Na spletnem mestu je veliko podatkov o gospodarskih razmerah v ZDA, trgu dela, spremembah cen, kakovosti življenja itd. Če vas te teme zanimajo, boste našli veliko kakovostnih naborov podatkov. 

Zadnji vir podatkov, ki ga bom omenil, je NASA. Obstaja veliko podatkov o vesolju, uporabni znanosti, aplikacijah, znanosti o Zemlji, upravljanju/operacijah, neobdelanih podatkih, programski opremi in znanosti o vesolju.

Ima več kot 10,000 naborov podatkov, zato se ne izgubite v njegovem vesolju podatkov!

Prepričan sem, da vam bo teh 16 spletnih mest dalo dovolj podatkov za delo do konca časov, kar je bil ravno moj cilj! Vendar pa količina podatkov ni vse.

Ta spletna mesta sem izbral, ker vam bodo zagotovila zelo raznolik nabor podatkov, primernih za različne projekte podatkovne znanosti. Posebnosti nabora podatkov se razlikujejo od industrije do industrije. Torej vam delo z različnimi nabori podatkov omogoča tudi pridobivanje znanja o domeni.

Ne glede na to, ali se poglabljate v strojno učenje, analizo podatkov, podatkovno novinarstvo, statistično analizo ali vizualizacijo podatkov, se lahko vedno zanesete na te vire.

Zdaj lahko naredite svoj lasten projekt podatkovne znanosti! Če potrebujete več idej, jih je tukaj nekaj projekti podatkovne znanosti lahko naredite kot začetnik.
 
 

Nate Rosidi je podatkovni znanstvenik in v strategiji izdelkov. Je tudi izredni profesor, ki poučuje analitiko in je ustanovitelj StrataScratch, platforma, ki pomaga podatkovnim znanstvenikom pri pripravi na intervjuje z resničnimi vprašanji za intervjuje vrhunskih podjetij. Povežite se z njim Twitter: StrataScratch or LinkedIn.

Časovni žig:

Več od KDnuggets