16 parasta teknistä tietolähdettä edistyneille tietotieteen projekteille - KDnuggets

16 parasta teknistä tietolähdettä edistyneille tietotieteen projekteille – KDnuggets

Lähdesolmu: 3081921

16 parasta teknistä tietolähdettä edistyneille tietotieteen projekteille
Kuva tekijältä
 

Olet lukenut näiltä sivuilta (ja olen syyllistynyt joidenkin artikkeleiden kirjoittamiseen), että datatieteen projektit ovat ratkaisevan tärkeitä koko teknisten tietotieteiden taitojen kehittämisessä. Se on totta, he ovat. Mutta mikä on myös tärkeää, on korkealaatuiset tietojoukot datatiedeprojekteihisi. Laadukkaan tiedon kerääminen on vain yksi datatiedeprojektin vaiheista, mutta joka voi tehdä tai rikkoa sen.

Kysymys kuuluukin, mistä löytää nämä huijaavat tiedot? Onneksi useat verkkosivustot tarjoavat runsaasti tietoa eri tarkoituksiin.

 

16 parasta teknistä tietolähdettä edistyneille tietotieteen projekteille
Kuva tekijältä

Olet kuullut Kaggle, luultavasti tunnetuin alusta tietotiedeyhteisössä. Se isännöi laajaa valikoimaa tietojoukkoja eri muodoissa (CSV, JSON, SQLite, BigQuery) ja useilta toimialoilta ja aiheilta, kuten terveys, autoteollisuus, taiteet ja viihde, biologia, yhteiskuntatieteet, sijoittaminen, sosiaaliset verkostot, urheilu ja niin edelleen. päällä. Voit myös etsiä tietojoukkoja niiden teknisen painopisteen mukaan, kuten tietojenkäsittelytiede, luokittelu, tietokonenäkö, NLP tai tietojen visualisointi.

Tällä hetkellä saatavilla on 274,855 XNUMX tietojoukkoa, joten datasta ei puututa.

Kagglen käyttäjäystävällinen käyttöliittymä ja aktiiviset yhteisön foorumit tekevät siitä erinomaisen resurssin sekä aloittelijoille että ammattilaisille.

Jos olet koneoppimisen harrastaja, UCI-koneoppimisen arkisto pitäisi olla sinun siirtymäsivustosi . Kuten nimi kertoo, tämän arkiston on luonut Kalifornian yliopisto, Irvine (UCI). He keräsivät laajan kokoelman koneoppimiseen räätälöityjä tietojoukkoja. Koska tietojoukot kattavat useita aiheita, ne ovat erityisen hyödyllisiä. Nämä tietojoukot kattavat monenlaisia ​​​​aiheita ja ovat erityisen hyödyllisiä niille, jotka haluavat harjoitella ja parantaa koneoppimistaitojaan.

Tällä hetkellä on 653 tietojoukkoa; Voit selata niitä tietotyypin, aihealueen, tehtävän, ominaisuuksien ja esiintymien lukumäärän sekä ominaisuustyypin mukaan.

StrataScratch tarjoaa 49 tietojoukkoa ja projektia, jotka on hankittu todellisilta yrityksiltä. Tämä on erityisen hyödyllistä niille, jotka valmistautuvat datatieteen haastatteluihin, koska se auttaa käyttäjiä kehittämään teknisiä taitojaan ja kykyään saada datasta liiketoimintaa. Tämä mahdollistaa käytännöllisen ja alan kannalta merkityksellisen lähestymistavan datatieteen projekteihin.

Projektit kattavat erilaisia ​​aiheita, kuten datan etsintä, datasuunnittelu, liiketoiminta-analyysi, regressio, luokittelu, NLP ja klusterointi.

Google-aineistohaku on työkalu, jonka tarkoituksena on löytää tietojoukkoja verkosta. Tiedät jo kuinka käyttää sitä, vaikka et ole koskaan kuullutkaan siitä tähän mennessä. Miksi? No, se näyttää ja toimii kuin tavallinen Google-haku, mutta se keskittyy yksinomaan tietojoukkojen etsimiseen. Se on erittäin hyödyllinen, jos etsit tietoa eri lähteistä, akateemisista kirjoista ja valtion tietokannoista.

Amazonin AWS:n julkiset tietojoukot ohjelma on toinen sivusto, josta löydät paljon avointa dataa. Tällä hetkellä saatavilla olevan 494 tietojoukon ansiosta se on arvokas resurssi datatieteilijöille. Sieltä löytämäsi tietojoukot voidaan integroida AWS-pilvipalveluihin. Tästä voi olla apua, jos projektisi vaativat enemmän laskentaresursseja. 

Käytettävissä olevaan dataan kuuluvat muun muassa genomiikka, meteorologia ja tähtitiede.

Data.gov on Yhdysvaltain hallituksen sponsoroima tietovarasto, joka sisältää tietoja useilta yhdysvaltalaisilta organisaatioilta. Se sisältää 283,935 132 tietojoukkoa XNUMX yhdysvaltalaiselta organisaatiolta. Tietoa on laaja valikoima, kuten maatalous-, kansanterveys-, rahoitus-, koulutus-, väestö-, talous- ja ympäristötietoja.

Tietojoukkoja on saatavana lähes 50 eri muodossa, joista suosituimmat ovat HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON ja TEXT.

FiveThirtyEight by ABC News on heidän artikkeleidensa ja grafiikoidensa data- ja koodivarasto. Se on täydellinen resurssi datatoimittajille ja kaikille tilastollisesta tarinankerronnasta kiinnostuneille. Jos olet kiinnostunut toteuttamaan projekteja, jotka koskevat ajankohtaisia ​​tapahtumia, politiikkaa, urheilua ja paljon muuta, tämä on lähteesi. 

Se tarjoaa yli 160 tietojoukkoa vuodesta 2014 tähän päivään.

- Maailmanpankin avoin data tarjoaa laajat tietojoukot, jotka pyörivät globaalin kehitysdatan ympärillä. Nämä tiedot sisältävät talouden, ympäristön ja sosiaalisten kysymysten indikaattoreita eri puolilta maailmaa. Jos olet kiinnostunut globaalista kehityksestä ja sosioekonomisista aiheista, saatat löytää täältä paljon mielenkiintoista tietoa.

GitHub ei ole vain alusta koodin jakamiseen. Sitä voidaan käyttää myös tietojoukkojen etsimiseen dataprojekteja varten. Monet organisaatiot ja yksittäiset käyttäjät isännöivät tietojoukkojaan GitHub-tietovarastoissa. Nämä tiedot kattavat laajan valikoiman aiheita, ja niitä tukevat usein laaja dokumentaatio ja analyysikoodi.

OpenML on koneoppimisen verkkoalusta. Tämä tarkoittaa myös sitä, että saat käyttöösi paljon tietoja. Tarkemmin sanottuna lähes 5,400 XNUMX tietojoukkoa. Se on suunniteltu koneoppimiskokeiden tietojen ja tulosten jakamiseen, järjestämiseen ja niistä keskustelemiseen. OpenML voidaan integroida suosittuihin koneoppimisympäristöihin, mikä on bonus tietotieteen oppimiseen. 

- Tietojoukot subreddit on yhteisölähtöinen tietolähde. Ihmiset jakavat kaiken redditissä. He myös jakavat ja pyytävät tietojoukkoja dataprojekteja varten. Joskus dataa on vaikea löytää sieltä. Mutta ei tiedon puutteen vuoksi. Päinvastoin! Paikka on täynnä dataa, mikä voi tehdä tietojen etsimisestä toisinaan melko kaoottista. Tiedot vaihtelevat erittäin spesifisistä ja epätavallisista perinteisempiin tietokokonaisuuksiin. Koska tämä on pohjimmiltaan foorumi, voit myös osallistua keskusteluihin ja pyytää apua tietojoukkojen kanssa. 

Euroopan unionin tilastotoimisto on ns Eurostat, ja se on kattava tietolähde. Jos olet kiinnostunut EU:n jäsenmaiden korkealaatuisista tilastotiedoista, tämän pitäisi olla päätietolähteesi. EU-maiden tiedot sisältävät muun muassa talouden, väestön, terveyden ja kaupan aiheita.

HDX on avoin alusta, josta löydät humanitaarista tietoa. Sitä hallinnoi YK:n humanitaaristen asioiden koordinointitoimisto. Tämä alusta tarjoaa dataa humanitaarisista kriiseistä ja hätätilanteista kaikissa maailman maissa. Tämä voi olla hyödyllistä, jos pidät projekteista, jotka keskittyvät globaaleihin ongelmiin, katastrofivalmiuksiin ja ihmisten hyvinvointiin.

Aktiivisia ja 20,344 arkistoituja tietojoukkoja on 2,570 XNUMX eri ominaisuuksilla ja muodoilla.

On CDC, löydät terveyteen liittyviä tietoja. Aineistot keskittyvät erilaisiin terveysongelmiin, riskitekijöihin ja kansanterveyteen. Joten jos nämä ovat sinua kiinnostavia aiheita, löydät täältä paljon hyödyllistä tietoa.

- BLS sivustolla on paljon tietoa Yhdysvaltain taloudellisista olosuhteista, työmarkkinoista, hintojen muutoksista, elämänlaadusta jne. Löydät paljon laadukkaita tietojoukkoja, jos olet kiinnostunut näistä aiheista. 

Viimeinen tietolähde, jonka mainitsen, on NASA. Siellä on paljon tietoa ilmailusta, soveltavasta tieteestä, sovelluksista, maatieteestä, hallinnasta/toiminnasta, raakadatasta, ohjelmistoista ja avaruustieteestä.

Siinä on yli 10,000 XNUMX tietojoukkoa, joten älä eksy sen tietouniversumissa!

Olen varma, että nämä 16 verkkosivustoa antavat sinulle tarpeeksi tietoa käytettäväksi aikojen loppuun asti, mikä oli juuri minun tavoitteeni! Tietojen määrä ei kuitenkaan ole kaikki kaikessa.

Olen valinnut nämä sivustot, koska ne tarjoavat sinulle hyvin monipuolisen valikoiman tietojoukkoja, jotka sopivat erilaisiin datatieteen projekteihin. Tietojoukon erityispiirteet vaihtelevat toimialoittain. Joten työskentelemällä erilaisten tietojoukkojen kanssa voit myös hankkia verkkotuntia.

Sukeltatko sitten koneoppimiseen, data-analyysiin, datajournalismiin, tilastoanalyysiin tai datan visualisointiin, voit aina luottaa näihin resursseihin.

Nyt voit tehdä oman datatieteen projektisi! Jos tarvitset lisää ideoita, tässä on joitain datatieteen hankkeita voit tehdä aloittelijana.
 
 

Nate Rosidi on datatieteilijä ja tuotestrategiassa. Hän on myös analytiikkaa opettava dosentti ja perustaja StrataScratch, alusta, joka auttaa datatieteilijöitä valmistautumaan haastatteluihin huippuyritysten todellisilla haastattelukysymyksillä. Ota yhteyttä häneen Twitter: StrataScratch or LinkedIn.

Aikaleima:

Lisää aiheesta KDnuggets