Topp 16 tekniska datakällor för avancerade datavetenskapsprojekt - KDnuggets

Topp 16 tekniska datakällor för avancerade datavetenskapsprojekt – KDnuggets

Källnod: 3081921

Topp 16 tekniska datakällor för avancerade datavetenskapsprojekt
Bild av författare
 

Du har läst på dessa sidor (och jag är skyldig till att ha skrivit några av dessa artiklar) att datavetenskapliga projekt är avgörande för att utveckla hela paketet av tekniska datavetenskapliga färdigheter. Det är sant, det är de. Men det som också är viktigt är att ha högkvalitativa datauppsättningar för dina datavetenskapsprojekt. Att samla in kvalitetsdata är rättvist ett av stegen i ett datavetenskapligt projekt, men den som kan göra eller bryta den.

Frågan är var man kan hitta denna smutsiga data? Lyckligtvis erbjuder många webbplatser en mängd data för olika ändamål.

 

Topp 16 tekniska datakällor för avancerade datavetenskapsprojekt
Bild av författare

Du hörde talas om Kaggle, förmodligen den mest välkända plattformen inom datavetenskapsgemenskapen. Den är värd för ett stort utbud av datauppsättningar i olika format (CSV, JSON, SQLite, BigQuery) och från flera branscher och ämnen, såsom hälsa, fordon, konst och underhållning, biologi, samhällsvetenskap, investeringar, sociala nätverk, sport och så på. Du kan också söka efter datauppsättningar beroende på deras tekniska fokus, t.ex. datavetenskap, klassificering, datorseende, NLP eller datavisualisering.

För närvarande finns det 274,855 XNUMX datauppsättningar tillgängliga, så du kommer inte att sakna data.

Kaggles användarvänliga gränssnitt och aktiva gemenskapsforum gör det till en utmärkt resurs för både nybörjare och proffs.

Om du är entusiast för maskininlärning, UCI Machine Learning Repository bör vara din go-to-webbplats. Som namnet säger skapas detta förråd av University of California, Irvine (UCI). De samlade en omfattande samling av datamängder skräddarsydda för maskininlärning. Eftersom datamängderna täcker olika ämnen är de särskilt användbara. Dessa datauppsättningar täcker ett brett spektrum av ämnen och är särskilt användbara för dem som vill öva och förbättra sina färdigheter i maskininlärning.

Det finns för närvarande 653 datamängder; du kan bläddra bland dem efter datatyp, ämnesområde, uppgift, antal funktioner och instanser och funktionstyp.

StrataScratch tillhandahåller 49 datamängder och projekt från faktiska företag. Detta är särskilt fördelaktigt för dem som förbereder sig för datavetenskapliga intervjuer, eftersom det hjälper användare att utveckla sina tekniska färdigheter och förmåga att hämta affärsinsikter från data. Detta möjliggör ett praktiskt och branschrelevant förhållningssätt till datavetenskapliga projekt.

Projekten täcker olika ämnen, såsom datautforskning, datateknik, affärsanalys, regression, klassificering, NLP och klustring.

Google Dataset Search är ett verktyg vars syfte är att hitta datauppsättningar över webben. Du vet redan hur du använder det, även om du aldrig hört talas om det förrän nu. Varför? Tja, det ser ut och fungerar som en vanlig Google-sökning, bara den fokuserar uteslutande på att hitta datauppsättningar. Det är extremt användbart om du letar efter data från olika källor, akademiska uppsatser och statliga databaser.

Amazons AWS offentliga datauppsättningar program är en annan sida där du kan hitta mycket öppen data. Med 494 datauppsättningar tillgängliga för närvarande är det en värdefull resurs för dataforskare. Datauppsättningarna du hittar där kan integreras med AWS molntjänster. Detta kan vara användbart om dina projekt kräver mer datorresurser. 

Utbudet av tillgängliga data inkluderar bland annat genomik, meteorologi och astronomi.

Data.gov är ett datalager som sponsras av den amerikanska regeringen och innehåller data från olika amerikanska organisationer. Den innehåller 283,935 132 datauppsättningar från XNUMX amerikanska organisationer. Det finns ett brett utbud av data, såsom jordbruk, folkhälsa, finans, utbildning, demografi, ekonomi och miljödata.

Datauppsättningarna finns i nästan 50 olika format, med de mest populära inklusive HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON och TEXT.

FiveThirtyEight av ABC News är deras artiklars och grafikdata och kodlager. Det är en perfekt resurs för datajournalister och alla som är intresserade av statistisk berättelse. Om du är intresserad av att göra projekt som involverar aktuella händelser, politik, sport och mer, är det här din källa. 

Den erbjuder mer än 160 dataset från 2014 till idag.

Smakämnen Världsbankens öppna data erbjuder omfattande datauppsättningar som kretsar kring globala utvecklingsdata. Dessa data inkluderar indikatorer på ekonomi, miljö och sociala frågor från länder runt om i världen. Om du är intresserad av global utveckling och socioekonomiska ämnen, kanske du hittar mycket intressant information här.

GitHub är inte bara en plattform för att dela kod. Den kan också användas för att hitta datauppsättningar för dataprojekt. Många organisationer och enskilda användare är värd för sina datauppsättningar på GitHub-förråd. Dessa data täcker ett brett spektrum av ämnen, ofta med stöd av omfattande dokumentation och kod för analys.

OpenML är en onlineplattform för maskininlärning. Detta innebär också att du får tillgång till mycket data. Närmare bestämt nästan 5,400 XNUMX dataset. Den är utformad för att dela, organisera och diskutera data och resultat av maskininlärningsexperiment. OpenML kan integreras med populära maskininlärningsmiljöer, vilket är en bonus för din inlärning av datavetenskap. 

Smakämnen Dataset subreddit är en gemenskapsdriven datakälla. Folk delar allt på reddit. Tja, de delar och begär också datauppsättningar för dataprojekt. Ibland är det svårt att hitta data där. Men inte på grund av bristen på data. Tvärtom! Platsen är full av data, vilket kan göra sökandet efter data ganska kaotiskt ibland. Uppgifterna sträcker sig från mycket specifika och ovanliga till mer traditionella datamängder. Eftersom detta i grunden är ett forum kan du också delta i diskussioner och be om hjälp med datauppsättningar. 

Europeiska unionens statistikkontor kallas Eurostat, och det är en omfattande datakälla. Om du är intresserad av högkvalitativ statistik om EU:s medlemsländer bör detta vara din huvudsakliga datakälla. Data om EU-länder inkluderar ämnen som ekonomi, befolkning, hälsa och handel.

HDX är en öppen plattform där du kan hitta humanitär data. Det förvaltas av FN:s kontor för samordning av humanitära frågor. Denna plattform tillhandahåller data som kretsar kring humanitära kriser och nödsituationer i alla länder i världen. Du kan ha nytta av det här om du är intresserad av projekt som fokuserar på globala frågor, katastrofinsatser och mänsklig välfärd.

Det finns 20,344 2,570 aktiva och XNUMX XNUMX arkiverade datamängder med olika funktioner och format.

CDC, kan du hitta hälsorelaterad data. Datauppsättningarna är fokuserade på olika hälsotillstånd, riskfaktorer och folkhälsa. Så om det är dessa ämnen du är intresserad av, hittar du mycket användbar information här.

Smakämnen BLS webbplatsen har massor av data om de amerikanska ekonomiska förhållandena, arbetsmarknaden, prisförändringar, livskvalitet, etc. Du hittar massor av kvalitetsdataset om du är intresserad av dessa ämnen. 

Den sista datakällan jag ska nämna är NASA. Det finns massor av data om flyg, tillämpad vetenskap, appar, geovetenskap, ledning/operationer, rådata, mjukvara och rymdvetenskap.

Den har mer än 10,000 XNUMX datauppsättningar, så gå inte vilse i dess universum av data!

Dessa 16 webbplatser kommer, jag är säker på, att ge dig tillräckligt med data att arbeta med fram till tidens slut, vilket var precis mitt mål! Men mängden data är inte allt.

Jag har valt dessa webbplatser eftersom de kommer att ge dig ett mycket varierat utbud av datauppsättningar som är lämpliga för en mängd olika datavetenskapliga projekt. Datauppsättningsspecifikationerna skiljer sig från bransch till bransch. Så, genom att arbeta med olika datamängder kan du också få domänkunskap.

Oavsett om du fördjupar dig i maskininlärning, dataanalys, datajournalistik, statistisk analys eller datavisualisering kan du alltid räkna med dessa resurser.

Nu kan du göra ditt eget datavetenskapsprojekt! Om du behöver fler idéer, här är några datavetenskapliga projekt du kan göra som nybörjare.
 
 

Nate Rosidi är datavetare och inom produktstrategi. Han är också adjungerad professor som undervisar i analys och är grundaren av StrataScratch, en plattform som hjälper datavetare att förbereda sig för sina intervjuer med riktiga intervjufrågor från toppföretag. Ta kontakt med honom Twitter: StrataScratch or LinkedIn.

Tidsstämpel:

Mer från KDnuggets