A 16 legjobb műszaki adatforrás a fejlett adattudományi projektekhez – KDnuggets

A 16 legjobb műszaki adatforrás a fejlett adattudományi projektekhez – KDnuggets

Forrás csomópont: 3081921

A 16 legjobb műszaki adatforrás a fejlett adattudományi projektekhez
A kép szerzője
 

Azt olvasta ezeken az oldalakon (és vétkes vagyok, hogy írtam néhány cikket), hogy az adattudományi projektek kulcsfontosságúak a műszaki adattudományi készségek teljes csomagjának fejlesztésében. Ez igaz, azok. De az is létfontosságú, hogy kiváló minőségű adatkészletekkel rendelkezzenek az adattudományi projektjeihez. A minőségi adatok gyűjtése csak egy adattudományi projekt egyik szakasza, hanem az, amelyik képes vagy megtörni.

A kérdés az, hogy hol lehet megtalálni ezt az elkeserítő adatot? Szerencsére számos webhely rengeteg adatot kínál különféle célokra.

 

A 16 legjobb műszaki adatforrás a fejlett adattudományi projektekhez
A kép szerzője

Hallottál róla Kaggle, valószínűleg az adattudományi közösség legismertebb platformja. Adatkészletek széles skáláját tárolja különféle formátumokban (CSV, JSON, SQLite, BigQuery) és számos iparágból és témából, például egészségügy, autóipar, művészetek és szórakoztatás, biológia, társadalomtudomány, befektetés, közösségi hálózatok, sport stb. tovább. Az adatkészletek között kereshet is azok műszaki fókuszától függően, pl. számítástechnika, osztályozás, számítógépes látás, NLP vagy adatvizualizáció.

Jelenleg 274,855 XNUMX adatkészlet áll rendelkezésre, így nem lesz adathiány.

A Kaggle felhasználóbarát felülete és aktív közösségi fórumai kiváló forrást jelentenek kezdőknek és profiknak egyaránt.

Ha Ön a gépi tanulás rajongója, a UCI Machine Learning Repository legyen a keresett webhelye . Ahogy a neve is mutatja, ezt az adattárat a Kaliforniai Egyetem, Irvine (UCI) hozta létre. A gépi tanuláshoz szabott adatkészletek kiterjedt gyűjteményét gyűjtötték össze. Mivel az adatkészletek különböző témákat fednek le, különösen hasznosak Ezek az adatkészletek témakörök széles skáláját fedik le, és különösen hasznosak azok számára, akik gyakorolni szeretnék és fejleszteni szeretnék gépi tanulási készségeiket.

Jelenleg 653 adatkészlet van; böngészhet bennük adattípus, tárgykör, feladat, szolgáltatások és példányok száma, valamint jellemző típusa szerint.

StrataScratch 49 adatkészletet és projektet kínál tényleges vállalatoktól. Ez különösen előnyös azok számára, akik adattudományi interjúkra készülnek, mivel segíti a felhasználókat technikai készségeik fejlesztésében és abban, hogy az adatokból üzleti betekintést nyerjenek. Ez gyakorlati és iparági szempontból releváns megközelítést tesz lehetővé az adattudományi projektekhez.

A projektek különböző témákat fednek le, például adatfeltárást, adattervezést, üzleti elemzést, regressziót, osztályozást, NLP-t és klaszterezést.

Google Adatkészlet keresés egy olyan eszköz, amelynek célja adatkészletek megtalálása az interneten. Már tudja, hogyan kell használni, még akkor is, ha eddig nem hallott róla. Miért? Nos, úgy néz ki és működik, mint egy normál Google-keresés, csak kizárólag az adatkészletek keresésére összpontosít. Rendkívül hasznos, ha különböző forrásokból, tudományos közleményekből és kormányzati adatbázisokból keres adatokat.

Amazon AWS nyilvános adatkészletek program egy másik oldal, ahol sok nyílt adatot találhat. A jelenleg rendelkezésre álló 494 adatkészlettel ez értékes erőforrás az adatkutatók számára. Az ott található adatkészletek integrálhatók az AWS felhőszolgáltatásaival. Ez hasznos lehet, ha a projektjei több számítási erőforrást igényelnek. 

A rendelkezésre álló adatok körébe tartozik többek között a genomika, a meteorológia és a csillagászat.

Data.gov az Egyesült Államok kormánya által támogatott adattár, amely különböző amerikai szervezetektől származó adatokat tartalmaz. 283,935 132 adatkészletet tartalmaz XNUMX amerikai szervezettől. Az adatok széles skálája létezik, mint például a mezőgazdasági, közegészségügyi, pénzügyi, oktatási, demográfiai, közgazdasági és környezeti adatok.

Az adatkészletek csaknem 50 különböző formátumban kaphatók, a legnépszerűbbek közül a HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON és TEXT.

FiveThirtyEight Az ABC News a cikkeik és grafikáik adatait és kódjait tartalmazza. Tökéletes forrás adatújságírók és a statisztikai történetmesélés iránt érdeklődők számára. Ha érdekli olyan projektek megvalósítása, amelyek aktuális eseményeket, politikát, sportot és egyebeket foglalnak magukban, ez a forrás. 

160-től napjainkig több mint 2014 adatkészletet kínál.

A Világbank nyílt adatok kiterjedt adatkészleteket kínál a globális fejlesztési adatok körül. Ezek az adatok a világ különböző országaiból származó gazdaságra, környezetre és szociális kérdésekre vonatkozó mutatókat tartalmaznak. Ha érdeklik a globális fejlődés és a társadalmi-gazdasági témák, itt sok érdekes adatot találhat.

GitHub nem csak a kód megosztására szolgáló platform. Használható adatprojektek adathalmazainak keresésére is. Sok szervezet és egyéni felhasználó tárolja adatkészleteit GitHub-tárolókban. Ezek az adatok a témakörök széles körét fedik le, gyakran kiterjedt dokumentációval és elemzési kóddal alátámasztva.

OpenML egy online platform a gépi tanuláshoz. Ez azt is jelenti, hogy sok adathoz kell hozzáférést biztosítani. Pontosabban közel 5,400 adatkészlet. A gépi tanulási kísérletek adatainak és eredményeinek megosztására, rendszerezésére és megvitatására tervezték. Az OpenML integrálható a népszerű gépi tanulási környezetekkel, ami bónusz az adattudományi tanuláshoz. 

A Adatkészletek subreddit egy közösség által vezérelt adatforrás. Az emberek mindent megosztanak a redditen. Nos, adatkészleteket is megosztanak és kérnek adatprojektekhez. Néha nehéz ott adatokat találni. De nem az adatok hiánya miatt. Ellenkezőleg! A hely tele van adatokkal, ami néha meglehetősen kaotikussá teheti az adatok keresését. Az adatok a rendkívül specifikus és szokatlantól a hagyományosabb adatkészletekig terjednek. Mivel ez alapvetően egy fórum, Ön is részt vehet a vitákban, és segítséget kérhet az adatkészletekkel kapcsolatban. 

Az Európai Unió statisztikai hivatala ún Eurostat, és ez egy átfogó adatforrás. Ha érdeklik az EU-tagországokkal kapcsolatos jó minőségű statisztikai adatok, ez legyen a fő adatforrás. Az EU-országokra vonatkozó adatok olyan témákat tartalmaznak, mint a gazdaság, a népesség, az egészségügy és a kereskedelem.

HDX egy nyílt platform, ahol humanitárius adatokat találhat. Az ENSZ Humanitárius Ügyeket Koordinációs Hivatala irányítja. Ez a platform a humanitárius válságok és vészhelyzetek körül forog adatokat a világ minden országában. Ezt hasznosnak találhatja, ha olyan projektekben vesz részt, amelyek a globális problémákra, a katasztrófaelhárításra és az emberi jólétre összpontosítanak.

20,344 2,570 aktív és XNUMX XNUMX archivált adatkészlet van, különféle funkciókkal és formátumokkal.

A CDC, egészséggel kapcsolatos adatokat találhat. Az adatkészletek különböző egészségügyi állapotokra, kockázati tényezőkre és közegészségügyre összpontosítanak. Tehát, ha ezek a témák érdeklik, sok hasznos adatot talál itt.

A BLS Az oldal rengeteg adatot tartalmaz az Egyesült Államok gazdasági körülményeiről, munkaerőpiacáról, árváltozásokról, életminőségről stb. Sok minőségi adatkészletet találhat, ha foglalkozik ezekkel a témákkal. 

Az utolsó adatforrás, amelyet megemlítek NASA. Rengeteg adat áll rendelkezésre a repülésről, az alkalmazott tudományról, az alkalmazásokról, a Földtudományról, a menedzsmentről/műveletekről, a nyers adatokról, a szoftverekről és az űrtudományról.

Több mint 10,000 XNUMX adatkészlettel rendelkezik, így ne vesszen el az adatok világában!

Biztos vagyok benne, hogy ez a 16 webhely elegendő adatot ad ahhoz, hogy az idők végezetéig dolgozzon, és ez volt a célom! Az adatok mennyisége azonban nem minden.

Azért választottam ezeket a webhelyeket, mert az adatkészletek nagyon sokféle skáláját kínálják, amelyek alkalmasak különféle adattudományi projektekhez. Az adatkészlet sajátosságai iparágonként eltérőek. Így a különféle adatkészletekkel való munka lehetővé teszi a domain ismeretek megszerzését is.

Legyen szó gépi tanulásról, adatelemzésről, adatújságírásról, statisztikai elemzésről vagy adatvizualizációról, mindig számíthat ezekre az erőforrásokra.

Most már elkészítheti saját adattudományi projektjét! Ha további ötletekre van szüksége, itt van néhány adattudományi projektek kezdőként meg tudod csinálni.
 
 

Nate Rosidi adattudós és termékstratégia. Emellett analitikát tanító adjunktus, és az alapítója StrataScratch, egy platform, amely segíti az adattudósokat az interjúkra való felkészülésben a vezető cégektől származó valódi interjúkérdések segítségével. Kapcsolatba lépni vele Twitter: StrataScratch or LinkedIn.

Időbélyeg:

Még több KDnuggets