Die 16 besten technischen Datenquellen für fortgeschrittene Data-Science-Projekte – KDnuggets

Die 16 besten technischen Datenquellen für fortgeschrittene Data-Science-Projekte – KDnuggets

Quellknoten: 3081921

Die 16 besten technischen Datenquellen für fortgeschrittene Data-Science-Projekte
Bild vom Autor
 

Sie haben auf diesen Seiten gelesen (und ich bin der Autor einiger dieser Artikel), dass Data-Science-Projekte für die Entwicklung des gesamten Pakets technischer Data-Science-Fähigkeiten von entscheidender Bedeutung sind. Das stimmt, das sind sie. Aber es ist auch wichtig, über qualitativ hochwertige Datensätze für Ihre Data-Science-Projekte zu verfügen. Das Sammeln hochwertiger Daten ist gerecht eine der Phasen eines Data-Science-Projekts, sondern derjenige, der über Erfolg oder Misserfolg entscheiden kann.

Die Frage ist, wo findet man diese verdammten Daten? Glücklicherweise bieten zahlreiche Websites eine Fülle von Daten für verschiedene Zwecke an.

 

Die 16 besten technischen Datenquellen für fortgeschrittene Data-Science-Projekte
Bild vom Autor

Du hast davon gehört Kaggle, wahrscheinlich die bekannteste Plattform in der Data-Science-Community. Es beherbergt eine große Auswahl an Datensätzen in verschiedenen Formaten (CSV, JSON, SQLite, BigQuery) und aus verschiedenen Branchen und Themen, wie z. B. Gesundheit, Automobil, Kunst und Unterhaltung, Biologie, Sozialwissenschaften, Investitionen, soziale Netzwerke, Sport und so weiter An. Sie können Datensätze auch nach ihrem technischen Schwerpunkt suchen, z. B. Informatik, Klassifikation, Computer Vision, NLP oder Datenvisualisierung.

Derzeit sind 274,855 Datensätze verfügbar, sodass es Ihnen nicht an Daten mangeln wird.

Die benutzerfreundliche Oberfläche und die aktiven Community-Foren von Kaggle machen es zu einer hervorragenden Ressource sowohl für Anfänger als auch für Profis.

Wenn Sie sich für maschinelles Lernen begeistern, ist die UCI-Repository für maschinelles Lernen sollte Ihre Anlaufstelle sein. Wie der Name schon sagt, wird dieses Repository von der University of California, Irvine (UCI) erstellt. Sie sammelten eine umfangreiche Sammlung von Datensätzen, die auf maschinelles Lernen zugeschnitten sind. Da die Datensätze verschiedene Themen abdecken, sind sie besonders nützlich. Diese Datensätze decken ein breites Themenspektrum ab und sind besonders nützlich für diejenigen, die ihre maschinellen Lernfähigkeiten üben und verbessern möchten.

Derzeit gibt es 653 Datensätze; Sie können sie nach Datentyp, Themenbereich, Aufgabe, Anzahl der Features und Instanzen sowie Feature-Typ durchsuchen.

StrataScratch stellt 49 Datensätze und Projekte bereit, die von tatsächlichen Unternehmen stammen. Dies ist insbesondere für diejenigen von Vorteil, die sich auf Data-Science-Interviews vorbereiten, da es den Benutzern dabei hilft, ihre technischen Fähigkeiten und die Fähigkeit zu entwickeln, aus Daten geschäftliche Erkenntnisse abzuleiten. Dies ermöglicht eine praxisnahe und branchenrelevante Herangehensweise an Data-Science-Projekte.

Die Projekte umfassen verschiedene Themen wie Datenexploration, Data Engineering, Geschäftsanalyse, Regression, Klassifizierung, NLP und Clustering.

Google Dataset-Suche ist ein Tool, dessen Zweck darin besteht, Datensätze im gesamten Web zu finden. Sie wissen bereits, wie man es benutzt, auch wenn Sie bisher noch nie davon gehört haben. Warum? Nun, es sieht aus und funktioniert wie eine normale Google-Suche, nur dass sie sich ausschließlich auf die Suche nach Datensätzen konzentriert. Es ist äußerst nützlich, wenn Sie nach Daten aus verschiedenen Quellen, wissenschaftlichen Arbeiten und Regierungsdatenbanken suchen.

Amazonas Öffentliche AWS-Datensätze Programm ist eine weitere Website, auf der Sie viele offene Daten finden können. Mit derzeit 494 verfügbaren Datensätzen ist es eine wertvolle Ressource für Datenwissenschaftler. Die dort gefundenen Datensätze können in AWS-Cloud-Dienste integriert werden. Dies kann hilfreich sein, wenn Ihre Projekte mehr Rechenressourcen erfordern. 

Das Spektrum der verfügbaren Daten umfasst unter anderem Genomik, Meteorologie und Astronomie.

Data.gov ist ein von der US-Regierung gefördertes Datenrepository, das Daten verschiedener US-Organisationen enthält. Es umfasst 283,935 Datensätze von 132 US-Organisationen. Es gibt eine breite Palette von Daten, beispielsweise Daten aus den Bereichen Landwirtschaft, öffentliche Gesundheit, Finanzen, Bildung, Demografie, Wirtschaft und Umwelt.

Die Datensätze sind in fast 50 verschiedenen Formaten erhältlich. Zu den beliebtesten gehören HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON und TEXT.

FiveThirtyEight von ABC News ist das Daten- und Code-Repository ihrer Artikel und Grafiken. Es ist eine perfekte Ressource für Datenjournalisten und alle, die sich für statistisches Storytelling interessieren. Wenn Sie an Projekten interessiert sind, die sich mit aktuellen Ereignissen, Politik, Sport und mehr befassen, sind Sie hier richtig. 

Es bietet mehr als 160 Datensätze von 2014 bis heute.

Das Offene Daten der Weltbank bietet umfangreiche Datensätze rund um globale Entwicklungsdaten. Diese Daten umfassen Indikatoren zu Wirtschaft, Umwelt und sozialen Themen aus Ländern auf der ganzen Welt. Wenn Sie sich für globale Entwicklung und sozioökonomische Themen interessieren, finden Sie hier möglicherweise viele interessante Daten.

GitHub ist nicht nur eine Plattform zum Teilen von Code. Es kann auch zum Auffinden von Datensätzen für Datenprojekte verwendet werden. Viele Organisationen und einzelne Benutzer hosten ihre Datensätze in GitHub-Repositories. Diese Daten decken ein breites Themenspektrum ab und werden häufig durch umfangreiche Dokumentation und Code zur Analyse unterstützt.

OpenML ist eine Online-Plattform für maschinelles Lernen. Dazu gehört auch, dass Sie Zugriff auf viele Daten haben. Genauer gesagt, fast 5,400 Datensätze. Es dient zum Teilen, Organisieren und Diskutieren von Daten und Ergebnissen von Experimenten zum maschinellen Lernen. OpenML kann in gängige Umgebungen für maschinelles Lernen integriert werden, was ein Bonus für Ihr datenwissenschaftliches Lernen ist. 

Das Datensätze-Subreddit ist eine von der Community betriebene Datenquelle. Die Leute teilen alles auf reddit. Nun, sie teilen und fordern auch Datensätze für Datenprojekte an. Manchmal ist es schwierig, dort Daten zu finden. Aber nicht wegen fehlender Daten. Andererseits! Der Ort ist voller Daten, was die Suche nach Daten manchmal ziemlich chaotisch machen kann. Die Daten reichen von sehr spezifischen und ungewöhnlichen bis hin zu traditionelleren Datensätzen. Da es sich grundsätzlich um ein Forum handelt, können Sie sich auch an Diskussionen beteiligen und um Hilfe bei Datensätzen bitten. 

Angerufen wird das Statistische Amt der Europäischen Union Eurostat, und es ist eine umfassende Datenquelle. Wenn Sie an hochwertigen statistischen Daten über EU-Mitgliedsländer interessiert sind, sollte dies Ihre Hauptdatenquelle sein. Daten zu EU-Ländern umfassen Themen wie Wirtschaft, Bevölkerung, Gesundheit und Handel.

HDX ist eine offene Plattform, auf der Sie humanitäre Daten finden können. Es wird vom Büro der Vereinten Nationen für die Koordinierung humanitärer Angelegenheiten verwaltet. Diese Plattform stellt Daten rund um humanitäre Krisen und Notfälle in jedem Land der Welt bereit. Dies könnte nützlich sein, wenn Sie an Projekten arbeiten, die sich auf globale Probleme, Katastrophenhilfe und menschliches Wohlergehen konzentrieren.

Es gibt 20,344 aktive und 2,570 archivierte Datensätze mit verschiedenen Funktionen und Formaten.

Auf dem CDC finden Sie gesundheitsbezogene Daten. Die Datensätze konzentrieren sich auf verschiedene Gesundheitszustände, Risikofaktoren und die öffentliche Gesundheit. Wenn Sie sich also für diese Themen interessieren, finden Sie hier viele nützliche Daten.

Das BLS Auf der Website finden Sie zahlreiche Daten zur Wirtschaftslage, zum Arbeitsmarkt, zu Preisänderungen, zur Lebensqualität usw. in den USA. Wenn Sie sich für diese Themen interessieren, finden Sie viele hochwertige Datensätze. 

Die letzte Datenquelle, die ich erwähnen werde, ist NASA. Es gibt viele Daten zu Luft- und Raumfahrt, angewandter Wissenschaft, Apps, Geowissenschaften, Management/Betrieb, Rohdaten, Software und Weltraumwissenschaft.

Es verfügt über mehr als 10,000 Datensätze, also verlieren Sie sich nicht in seinem Datenuniversum!

Diese 16 Websites werden Ihnen sicher genügend Daten liefern, mit denen Sie bis zum Ende der Zeit arbeiten können, und das war genau mein Ziel! Allerdings ist die Datenmenge nicht alles.

Ich habe diese Websites ausgewählt, da sie Ihnen eine sehr vielfältige Auswahl an Datensätzen bieten, die für eine Vielzahl von Data-Science-Projekten geeignet sind. Die Besonderheiten des Datensatzes unterscheiden sich von Branche zu Branche. Durch die Arbeit mit verschiedenen Datensätzen können Sie also auch Domänenkenntnisse erwerben.

Egal, ob Sie sich mit maschinellem Lernen, Datenanalyse, Datenjournalismus, statistischer Analyse oder Datenvisualisierung befassen, Sie können sich immer auf diese Ressourcen verlassen.

Jetzt können Sie Ihr eigenes Data-Science-Projekt durchführen! Wenn Sie weitere Ideen benötigen, finden Sie hier einige Data-Science-Projekte kann man als Anfänger machen.
 
 

Nate Rosidi ist Data Scientist und in der Produktstrategie. Er ist auch außerplanmäßiger Professor für Analytik und Gründer von StrataScratch, eine Plattform, die Datenwissenschaftlern hilft, sich mit echten Interviewfragen von Top-Unternehmen auf ihre Interviews vorzubereiten. Verbinde dich mit ihm auf Twitter: StrataScratch or LinkedIn.

Zeitstempel:

Mehr von KDnuggets