Topp 16 tekniske datakilder for avanserte datavitenskapelige prosjekter - KDnuggets

Topp 16 tekniske datakilder for avanserte datavitenskapelige prosjekter – KDnuggets

Kilde node: 3081921

Topp 16 tekniske datakilder for avanserte datavitenskapelige prosjekter
Bilde av forfatter
 

Du har lest på disse sidene (og jeg er skyldig i å skrive noen av disse artiklene) at datavitenskapsprosjekter er avgjørende for å utvikle hele pakken med tekniske datavitenskapelige ferdigheter. Det er sant, det er de. Men det som også er viktig er å ha høykvalitets datasett for datavitenskapsprosjektene dine. Å samle kvalitetsdata er rettferdig en av stadiene i et datavitenskapelig prosjekt, men den som kan lage eller ødelegge den.

Spørsmålet er, hvor kan man finne disse friggende dataene? Heldigvis tilbyr mange nettsteder et vell av data for ulike formål.

 

Topp 16 tekniske datakilder for avanserte datavitenskapelige prosjekter
Bilde av forfatter

Du hørte om kaggle, sannsynligvis den mest kjente plattformen i datavitenskapsmiljøet. Den er vert for et stort utvalg datasett i forskjellige formater (CSV, JSON, SQLite, BigQuery) og fra flere bransjer og emner, som helse, bilindustri, kunst og underholdning, biologi, samfunnsvitenskap, investering, sosiale nettverk, sport og så videre på. Du kan også søke etter datasett avhengig av deres tekniske fokus, f.eks. informatikk, klassifisering, datasyn, NLP eller datavisualisering.

For øyeblikket er det 274,855 XNUMX datasett tilgjengelig, så du vil ikke mangle data.

Kaggles brukervennlige grensesnitt og aktive fellesskapsfora gjør det til en utmerket ressurs for både nybegynnere og profesjonelle.

Hvis du er entusiast for maskinlæring, UCI Machine Learning Repository bør være nettstedet ditt. Som navnet sier, er dette depotet laget av University of California, Irvine (UCI). De samlet en omfattende samling av datasett skreddersydd for maskinlæring. Siden datasettene dekker ulike emner, er de spesielt nyttige. Disse datasettene dekker et bredt spekter av emner og er spesielt nyttige for de som ønsker å øve og forbedre sine maskinlæringsferdigheter.

Det er for tiden 653 datasett; du kan bla gjennom dem etter datatype, emneområde, oppgave, antall funksjoner og forekomster og funksjonstype.

StrataScratch tilbyr 49 datasett og prosjekter hentet fra faktiske selskaper. Dette er spesielt gunstig for de som forbereder seg til datavitenskapelige intervjuer, siden det hjelper brukere med å utvikle sine tekniske ferdigheter og evne til å utlede forretningsinnsikt fra data. Dette gir mulighet for en praktisk og industrirelevant tilnærming til datavitenskapelige prosjekter.

Prosjektene dekker ulike emner, som datautforskning, datateknikk, forretningsanalyse, regresjon, klassifisering, NLP og klynging.

Google Datasettsøk er et verktøy som har som formål å finne datasett på tvers av nettet. Du vet allerede hvordan du bruker det, selv om du aldri har hørt om det før nå. Hvorfor? Vel, det ser ut og fungerer som et vanlig Google-søk, bare det fokuserer utelukkende på å finne datasett. Det er ekstremt nyttig hvis du leter etter data fra ulike kilder, akademiske artikler og offentlige databaser.

Amazons AWS offentlige datasett program er et annet nettsted hvor du kan finne mange åpne data. Med 494 datasett tilgjengelig for øyeblikket, er det en verdifull ressurs for dataforskere. Datasettene du finner der kan integreres med AWS skytjenester. Dette kan være nyttig hvis prosjektene dine krever flere dataressurser. 

Utvalget av tilgjengelige data inkluderer blant annet genomikk, meteorologi og astronomi.

Data.gov er et datalager sponset av amerikanske myndigheter og inneholder data fra ulike amerikanske organisasjoner. Den inkluderer 283,935 132 datasett fra XNUMX amerikanske organisasjoner. Det er et bredt spekter av data, som landbruk, folkehelse, finans, utdanning, demografi, økonomi og miljødata.

Datasettene kommer i nesten 50 forskjellige formater, med de mest populære inkludert HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON og TEXT.

FiveThirtyEight av ABC News er deres artikler og grafikkdata og kodelager. Det er en perfekt ressurs for datajournalister og alle som er interessert i statistisk historiefortelling. Hvis du er interessert i å gjøre prosjekter som involverer aktuelle hendelser, politikk, sport og mer, er dette din kilde. 

Den tilbyr mer enn 160 datasett fra 2014 til i dag.

De Verdensbankens åpne data tilbyr omfattende datasett som dreier seg om globale utviklingsdata. Disse dataene inkluderer indikatorer på økonomi, miljø og sosiale spørsmål fra land rundt om i verden. Hvis du er interessert i global utvikling og sosioøkonomiske emner, kan du finne mye interessant data her.

GitHub er ikke bare en plattform for deling av kode. Den kan også brukes til å finne datasett for dataprosjekter. Mange organisasjoner og individuelle brukere er vert for datasettene deres på GitHub-depoter. Disse dataene dekker et bredt spekter av emner, ofte støttet av omfattende dokumentasjon og kode for analyse.

OpenML er en nettbasert plattform for maskinlæring. Dette betyr også å gi deg tilgang til mye data. Nærmere bestemt nesten 5,400 datasett. Den er designet for å dele, organisere og diskutere data og resultater av maskinlæringseksperimenter. OpenML kan integreres med populære maskinlæringsmiljøer, noe som er en bonus for din datavitenskapelige læring. 

De Datasett subreddit er en fellesskapsdrevet datakilde. Folk deler alt på reddit. Vel, de deler og ber om datasett for dataprosjekter. Noen ganger er det vanskelig å finne data der. Men ikke på grunn av mangel på data. Tvert imot! Stedet bugner av data, noe som kan gjøre søket etter data ganske kaotisk noen ganger. Dataene spenner fra svært spesifikke og uvanlige til mer tradisjonelle datasett. Siden dette i utgangspunktet er et forum, kan du også delta i diskusjoner og be om hjelp med datasett. 

Den europeiske unions statistiske kontor kalles Eurostat, og det er en omfattende datakilde. Hvis du er interessert i statistiske data av høy kvalitet om EUs medlemsland, bør dette være din viktigste datakilde. Data om EU-land inkluderer emner som økonomi, befolkning, helse og handel.

HDX er en åpen plattform hvor du kan finne humanitære data. Det administreres av FNs kontor for koordinering av humanitære anliggender. Denne plattformen gir data som dreier seg om humanitære kriser og nødsituasjoner i alle land i verden. Du kan finne dette nyttig hvis du er interessert i prosjekter som fokuserer på globale problemer, katastroferespons og menneskelig velferd.

Det er 20,344 2,570 aktive og XNUMX XNUMX arkiverte datasett med ulike funksjoner og formater.

CDC, kan du finne helserelaterte data. Datasettene er fokusert på ulike helsetilstander, risikofaktorer og folkehelse. Så hvis dette er emnene du er interessert i, vil du finne mye nyttig data her.

De BLS nettstedet har massevis av data om amerikanske økonomiske forhold, arbeidsmarked, prisendringer, livskvalitet osv. Du vil finne mange kvalitetsdatasett hvis du er interessert i disse emnene. 

Den siste datakilden jeg vil nevne er NASA. Det er massevis av data om romfart, anvendt vitenskap, apper, geovitenskap, ledelse/drift, rådata, programvare og romvitenskap.

Den har mer enn 10,000 XNUMX datasett, så ikke gå deg vill i dets univers av data!

Disse 16 nettsidene vil, jeg er sikker på, gi deg nok data å jobbe med til tidenes ende, som var nettopp målet mitt! Men mengden data er ikke alt.

Jeg har valgt disse sidene siden de vil gi deg et svært variert utvalg datasett som passer for en rekke datavitenskapelige prosjekter. Datasettspesifikasjonene varierer fra bransje til bransje. Så ved å jobbe med ulike datasett kan du også få domenekunnskap.

Enten du fordyper deg i maskinlæring, dataanalyse, datajournalistikk, statistisk analyse eller datavisualisering, kan du alltid stole på disse ressursene.

Nå kan du gjøre ditt eget datavitenskapelige prosjekt! Hvis du trenger flere ideer, her er noen datavitenskapelige prosjekter du kan gjøre som nybegynner.
 
 

Nate Rosidi er dataviter og innen produktstrategi. Han er også adjungert professor som underviser i analyse, og er grunnleggeren av StrataScratch, en plattform som hjelper dataforskere med å forberede seg til intervjuene sine med ekte intervjuspørsmål fra toppbedrifter. Ta kontakt med ham Twitter: StrataScratch or Linkedin.

Tidstempel:

Mer fra KDnuggets