Top 16 tekniske datakilder til avancerede datavidenskabelige projekter - KDnuggets

Top 16 tekniske datakilder til avancerede datavidenskabelige projekter – KDnuggets

Kildeknude: 3081921

Top 16 tekniske datakilder til avancerede datavidenskabelige projekter
Billede af forfatter
 

Du har læst på disse sider (og jeg er skyldig i at skrive nogle af disse artikler), at datavidenskabelige projekter er afgørende for at udvikle hele pakken af ​​tekniske datavidenskabelige færdigheder. Det er rigtigt, det er de. Men det, der også er vigtigt, er at have datasæt af høj kvalitet til dine datavidenskabsprojekter. Indsamling af kvalitetsdata er bare et af stadierne i et datavidenskabsprojekt, men den der kan lave eller bryde den.

Spørgsmålet er, hvor man kan finde disse friggende data? Heldigvis tilbyder adskillige websteder et væld af data til forskellige formål.

 

Top 16 tekniske datakilder til avancerede datavidenskabelige projekter
Billede af forfatter

Du hørte om Kaggle, nok den mest kendte platform i datavidenskabssamfundet. Det er vært for en bred vifte af datasæt i forskellige formater (CSV, JSON, SQLite, BigQuery) og fra flere industrier og emner, såsom sundhed, bilindustrien, kunst og underholdning, biologi, samfundsvidenskab, investering, sociale netværk, sport og så på. Du kan også søge efter datasæt afhængigt af deres tekniske fokus, f.eks. datalogi, klassificering, computersyn, NLP eller datavisualisering.

I øjeblikket er der 274,855 datasæt tilgængelige, så du kommer ikke til at mangle data.

Kaggles brugervenlige grænseflade og aktive fællesskabsfora gør det til en fremragende ressource for både begyndere og professionelle.

Hvis du er entusiast for maskinlæring, UCI Machine Learning Repository bør være dit go-to-websted. Som navnet siger, er dette depot skabt af University of California, Irvine (UCI). De indsamlede en omfattende samling af datasæt skræddersyet til maskinlæring. Da datasættene dækker forskellige emner, er de særligt nyttige. Disse datasæt dækker en bred vifte af emner og er særligt nyttige for dem, der ønsker at øve og forbedre deres maskinlæringsfærdigheder.

Der er i øjeblikket 653 datasæt; du kan gennemse dem efter datatype, emneområde, opgave, antal funktioner og forekomster og funktionstype.

StrataScratch leverer 49 datasæt og projekter hentet fra faktiske virksomheder. Dette er især fordelagtigt for dem, der forbereder sig til datavidenskabelige interviews, da det hjælper brugere med at udvikle deres tekniske færdigheder og evne til at udlede forretningsindsigt fra data. Dette giver mulighed for en praktisk og brancherelevant tilgang til datavidenskabelige projekter.

Projekterne dækker forskellige emner, såsom dataudforskning, datateknik, forretningsanalyse, regression, klassificering, NLP og klyngedannelse.

Google datasættesøgning er et værktøj, hvis formål er at finde datasæt på tværs af nettet. Du ved allerede, hvordan du bruger det, selvom du aldrig har hørt om det før nu. Hvorfor? Nå, det ser ud og fungerer som en almindelig Google-søgning, men den fokuserer udelukkende på at finde datasæt. Det er ekstremt nyttigt, hvis du leder efter data fra forskellige kilder, akademiske artikler og offentlige databaser.

Amazons AWS offentlige datasæt program er en anden side, hvor du kan finde en masse åbne data. Med 494 datasæt tilgængelige i øjeblikket, er det en værdifuld ressource for datavidenskabsfolk. De datasæt, du finder der, kan integreres med AWS cloud-tjenester. Dette kan være nyttigt, hvis dine projekter kræver flere computerressourcer. 

Rækken af ​​tilgængelige data omfatter blandt andet genomik, meteorologi og astronomi.

Data.gov er et datalager sponsoreret af den amerikanske regering og indeholder data fra forskellige amerikanske organisationer. Det omfatter 283,935 datasæt fra 132 amerikanske organisationer. Der er en bred vifte af data, såsom landbrug, folkesundhed, finans, uddannelse, demografi, økonomi og miljødata.

Datasættene kommer i næsten 50 forskellige formater, hvor de mest populære inkluderer HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON og TEXT.

FiveThirtyEight af ABC News er deres artiklers og grafikdata- og kodelager. Det er en perfekt ressource for datajournalister og enhver, der er interesseret i statistisk historiefortælling. Hvis du er interesseret i at lave projekter, der involverer aktuelle begivenheder, politik, sport og mere, er dette din kilde. 

Det tilbyder mere end 160 datasæt fra 2014 til i dag.

Verdensbankens åbne data tilbyder omfattende datasæt, der kredser om globale udviklingsdata. Disse data inkluderer indikatorer for økonomi, miljø og sociale spørgsmål fra lande rundt om i verden. Hvis du er interesseret i global udvikling og socioøkonomiske emner, kan du finde en masse interessante data her.

GitHub er ikke kun en platform til deling af kode. Det kan også bruges til at finde datasæt til dataprojekter. Masser af organisationer og individuelle brugere hoster deres datasæt på GitHub-lagre. Disse data dækker en bred vifte af emner, ofte understøttet af omfattende dokumentation og kode til analyse.

OpenML er en online platform til maskinlæring. Det betyder også, at du får adgang til en masse data. Nærmere bestemt næsten 5,400 datasæt. Det er designet til at dele, organisere og diskutere data og resultater af maskinlæringseksperimenter. OpenML kan integreres med populære maskinlæringsmiljøer, hvilket er en bonus for din læring i datavidenskab. 

Datasæt subreddit er en fællesskabsdrevet datakilde. Folk deler alt på reddit. Nå, de deler og anmoder også om datasæt til dataprojekter. Nogle gange er det svært at finde data der. Men ikke på grund af manglen på data. Tværtimod! Stedet er fyldt med data, som nogle gange kan gøre søgningen efter data ret kaotisk. Dataene spænder fra meget specifikke og usædvanlige til mere traditionelle datasæt. Da dette grundlæggende er et forum, kan du også deltage i diskussioner og bede om hjælp til datasæt. 

Den Europæiske Unions statistiske kontor kaldes Eurostat, og det er en omfattende datakilde. Hvis du er interesseret i statistiske data af høj kvalitet om EU-medlemslande, bør dette være din primære datakilde. Data om EU-lande omfatter emner som økonomi, befolkning, sundhed og handel.

HDX er en åben platform, hvor du kan finde humanitære data. Det ledes af FN's kontor for koordinering af humanitære anliggender. Denne platform leverer data, der drejer sig om humanitære kriser og nødsituationer i alle lande i verden. Du kan finde dette nyttigt, hvis du er til projekter, der fokuserer på globale problemer, katastrofeberedskab og menneskelig velfærd.

Der er 20,344 aktive og 2,570 arkiverede datasæt med forskellige funktioner og formater.

CDC, kan du finde sundhedsrelaterede data. Datasættene er fokuseret på forskellige sundhedstilstande, risikofaktorer og folkesundhed. Så hvis det er disse emner, du er interesseret i, vil du finde en masse nyttige data her.

BLS webstedet har masser af data om de amerikanske økonomiske forhold, arbejdsmarked, prisændringer, livskvalitet osv. Du vil finde masser af kvalitetsdatasæt, hvis du er til disse emner. 

Den sidste datakilde, jeg vil nævne, er NASA. Der er masser af data om rumfart, anvendt videnskab, apps, geovidenskab, ledelse/drift, rådata, software og rumvidenskab.

Det har mere end 10,000 datasæt, så gå ikke tabt i dets univers af data!

Disse 16 hjemmesider vil, jeg er sikker på, give dig nok data til at arbejde med indtil tidens ende, hvilket netop var mit mål! Mængden af ​​data er dog ikke alt.

Jeg har valgt disse websteder, da de vil give dig et meget forskelligt udvalg af datasæt, der egner sig til en række datavidenskabelige projekter. Datasættets specifikationer varierer fra branche til branche. Så at arbejde med forskellige datasæt giver dig også mulighed for at få domæneviden.

Uanset om du dykker ned i maskinlæring, dataanalyse, datajournalistik, statistisk analyse eller datavisualisering, kan du altid regne med disse ressourcer.

Nu kan du lave dit eget datavidenskabelige projekt! Hvis du har brug for flere ideer, er her nogle datavidenskabelige projekter du kan gøre som nybegynder.
 
 

Nate Rosidi er data scientist og i produktstrategi. Han er også adjungeret professor, der underviser i analytics og er grundlæggeren af StrataScratch, en platform, der hjælper dataforskere med at forberede sig til deres interviews med rigtige interviewspørgsmål fra topvirksomheder. Forbind med ham Twitter: StrataScratch or LinkedIn.

Tidsstempel:

Mere fra KDnuggets