Top 16 technische gegevensbronnen voor geavanceerde datawetenschapsprojecten - KDnuggets

Top 16 technische gegevensbronnen voor geavanceerde datawetenschapsprojecten – KDnuggets

Bronknooppunt: 3081921

Top 16 technische gegevensbronnen voor geavanceerde datawetenschapsprojecten
Afbeelding door auteur
 

Je hebt op deze pagina's gelezen (en ik ben schuldig aan het schrijven van een aantal van die artikelen) dat data science-projecten cruciaal zijn voor het ontwikkelen van het hele pakket aan technische data science-vaardigheden. Dat is waar, dat zijn ze. Maar wat ook van cruciaal belang is, is het beschikken over datasets van hoge kwaliteit voor uw data science-projecten. Het verzamelen van kwaliteitsgegevens is rechtvaardig een van de fasen van een data science-project, maar degene die het kan maken of breken.

De vraag is: waar kunnen we deze verdomde gegevens vinden? Gelukkig bieden talloze websites een schat aan gegevens voor verschillende doeleinden.

 

Top 16 technische gegevensbronnen voor geavanceerde datawetenschapsprojecten
Afbeelding door auteur

Je hebt gehoord over Kaggle, waarschijnlijk het meest bekende platform in de data science-gemeenschap. Het herbergt een breed scala aan datasets in verschillende formaten (CSV, JSON, SQLite, BigQuery) en uit meerdere sectoren en onderwerpen, zoals de gezondheidszorg, de automobielsector, kunst en entertainment, biologie, sociale wetenschappen, beleggen, sociale netwerken, sport, enzovoort. op. U kunt ook naar datasets zoeken op basis van hun technische focus, bijvoorbeeld informatica, classificatie, computer vision, NLP of datavisualisatie.

Momenteel zijn er 274,855 datasets beschikbaar, dus het zal je niet ontbreken aan data.

De gebruiksvriendelijke interface en actieve communityforums van Kaggle maken het een uitstekende bron voor zowel beginners als professionals.

Als je een liefhebber van machine learning bent, is de UCI Machine Learning-opslagplaats zou uw go-to-site moeten zijn. Zoals de naam al zegt, is deze repository gemaakt door de University of California, Irvine (UCI). Ze verzamelden een uitgebreide verzameling datasets op maat voor machine learning. Omdat de datasets verschillende onderwerpen bestrijken, zijn ze bijzonder nuttig. Deze datasets bestrijken een breed scala aan onderwerpen en zijn vooral nuttig voor degenen die hun vaardigheden op het gebied van machinaal leren willen oefenen en verbeteren.

Er zijn momenteel 653 datasets; u kunt er doorheen bladeren op gegevenstype, onderwerpgebied, taak, aantal functies en exemplaren, en functietype.

StrataScratch biedt 49 datasets en projecten afkomstig van echte bedrijven. Dit is met name gunstig voor degenen die zich voorbereiden op datawetenschapsinterviews, omdat het gebruikers helpt hun technische vaardigheden te ontwikkelen en zakelijke inzichten uit data te halen. Dit maakt een praktische en brancherelevante benadering van data science-projecten mogelijk.

De projecten behandelen verschillende onderwerpen, zoals data-exploratie, data-engineering, bedrijfsanalyse, regressie, classificatie, NLP en clustering.

Google-dataset zoeken is een tool die tot doel heeft datasets op internet te vinden. Je weet al hoe je het moet gebruiken, ook al heb je er tot nu toe nog nooit van gehoord. Waarom? Nou, het ziet eruit en werkt als een gewone Google-zoekopdracht, alleen is het uitsluitend gericht op het vinden van datasets. Het is uiterst handig als u gegevens zoekt uit verschillende bronnen, academische artikelen en overheidsdatabases.

Amazon's AWS openbare datasets program is een andere site waar je veel open data kunt vinden. Met momenteel 494 datasets beschikbaar, is het een waardevolle hulpbron voor datawetenschappers. De datasets die u daar aantreft, kunnen worden geïntegreerd met AWS-clouddiensten. Dit kan handig zijn als uw projecten meer computerbronnen vereisen. 

Het scala aan beschikbare gegevens omvat onder meer genomica, meteorologie en astronomie.

Data.gov is een gegevensopslagplaats die wordt gesponsord door de Amerikaanse overheid en die gegevens bevat van verschillende Amerikaanse organisaties. Het bevat 283,935 datasets van 132 Amerikaanse organisaties. Er is een breed scala aan gegevens, zoals gegevens over landbouw, volksgezondheid, financiën, onderwijs, demografie, economie en milieu.

De datasets zijn verkrijgbaar in bijna 50 verschillende formaten, waarvan de meest populaire HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON en TEXT zijn.

FiveThirtyEight door ABC News is de gegevens- en codeopslagplaats van hun artikelen en afbeeldingen. Het is een perfecte bron voor datajournalisten en iedereen die geïnteresseerd is in statistische verhalen. Als je geïnteresseerd bent in projecten die betrekking hebben op actuele gebeurtenissen, politiek, sport en meer, dan is dit je bron. 

Het biedt meer dan 160 datasets van 2014 tot vandaag.

De Open data van de Wereldbank biedt uitgebreide datasets rond mondiale ontwikkelingsgegevens. Deze gegevens omvatten indicatoren over de economie, het milieu en sociale kwesties uit landen over de hele wereld. Als u geïnteresseerd bent in mondiale ontwikkeling en sociaal-economische onderwerpen, vindt u hier wellicht veel interessante gegevens.

GitHub is niet alleen een platform voor het delen van code. Het kan ook worden gebruikt voor het vinden van datasets voor dataprojecten. Veel organisaties en individuele gebruikers hosten hun datasets op GitHub-opslagplaatsen. Deze gegevens bestrijken een breed scala aan onderwerpen, vaak ondersteund door uitgebreide documentatie en code voor analyse.

OpenML is een onlineplatform voor machinaal leren. Dit betekent ook dat u toegang krijgt tot veel gegevens. Meer specifiek bijna 5,400 datasets. Het is ontworpen voor het delen, organiseren en bespreken van gegevens en resultaten van machine learning-experimenten. OpenML kan worden geïntegreerd met populaire machine learning-omgevingen, wat een bonus is voor uw data science-leerproces. 

De Subreddit voor gegevenssets is een gemeenschapsgestuurde gegevensbron. Mensen delen alles op reddit. Welnu, ze delen en vragen ook datasets voor dataprojecten. Soms is het lastig om daar gegevens te vinden. Maar niet vanwege het gebrek aan gegevens. Integendeel! De plaats bruist van de data, wat het zoeken naar data soms behoorlijk chaotisch kan maken. De gegevens variëren van zeer specifieke en ongebruikelijke tot meer traditionele datasets. Omdat dit in principe een forum is, kunt u ook deelnemen aan discussies en om hulp vragen bij datasets. 

Het statistiekbureau van de Europese Unie wordt gebeld Eurostat, en het is een uitgebreide gegevensbron. Als u geïnteresseerd bent in hoogwaardige statistische gegevens over EU-lidstaten, zou dit uw belangrijkste gegevensbron moeten zijn. Gegevens over EU-landen omvatten onderwerpen als economie, bevolking, gezondheid en handel.

HDX is een open platform waar u humanitaire gegevens kunt vinden. Het wordt beheerd door het Bureau voor de Coördinatie van Humanitaire Zaken van de Verenigde Naties. Dit platform biedt gegevens over humanitaire crises en noodsituaties in elk land ter wereld. U kunt dit handig vinden als u zich bezighoudt met projecten die zich richten op mondiale vraagstukken, rampenbestrijding en menselijk welzijn.

Er zijn 20,344 actieve en 2,570 gearchiveerde datasets met verschillende functies en formaten.

Op de CDC, kunt u gezondheidsgerelateerde gegevens vinden. De datasets zijn gericht op verschillende gezondheidsproblemen, risicofactoren en de volksgezondheid. Dus als dit de onderwerpen zijn waarin u geïnteresseerd bent, vindt u hier veel nuttige gegevens.

De BLS De site bevat veel gegevens over de Amerikaanse economische omstandigheden, de arbeidsmarkt, prijsveranderingen, de kwaliteit van het leven, enz. U zult veel hoogwaardige datasets vinden als u van deze onderwerpen houdt. 

De laatste gegevensbron die ik zal noemen is NASA. Er zijn veel gegevens over lucht- en ruimtevaart, toegepaste wetenschap, apps, aardwetenschappen, management/operaties, onbewerkte gegevens, software en ruimtewetenschap.

Het heeft meer dan 10,000 datasets, dus verdwaal niet in het universum van data!

Ik ben er zeker van dat deze 16 websites je genoeg gegevens zullen geven om tot het einde der tijden mee te werken, en dat was precies mijn doel! De hoeveelheid data zegt echter niet alles.

Ik heb deze sites gekozen omdat ze u een zeer divers aanbod aan datasets bieden die geschikt zijn voor een verscheidenheid aan datawetenschapsprojecten. De specificaties van de dataset verschillen van branche tot branche. Door met verschillende datasets te werken, doe je dus ook domeinkennis op.

Of u zich nu verdiept in machine learning, data-analyse, datajournalistiek, statistische analyse of datavisualisatie, u kunt altijd op deze bronnen rekenen.

Nu kunt u uw eigen data science-project doen! Als je meer ideeën nodig hebt, zijn hier enkele data science-projecten wat je als beginner kunt doen.
 
 

Nate Rosidi is een datawetenschapper en in productstrategie. Hij is ook een adjunct-professor onderwijsanalyse en is de oprichter van StrataScratch, een platform dat datawetenschappers helpt bij het voorbereiden van hun interviews met echte interviewvragen van topbedrijven. Maak contact met hem op Twitter: StrataScratch or LinkedIn.

Tijdstempel:

Meer van KDnuggets