Top 16 des sources de données techniques pour les projets avancés de science des données - KDnuggets

Top 16 des sources de données techniques pour les projets avancés de science des données – KDnuggets

Nœud source: 3081921

Top 16 des sources de données techniques pour les projets avancés de science des données
Image par auteur
 

Vous avez lu sur ces pages (et je suis coupable d'avoir écrit certains de ces articles) que les projets de science des données sont cruciaux pour développer l'ensemble des compétences techniques en science des données. C'est vrai, ils le sont. Mais il est également essentiel de disposer d’ensembles de données de haute qualité pour vos projets de science des données. La collecte de données de qualité est simplement une des étapes d'un projet de data science, mais celui qui peut le faire ou le défaire.

La question est : où trouver ces foutues données ? Heureusement, de nombreux sites Web proposent une multitude de données à des fins diverses.

 

Top 16 des sources de données techniques pour les projets avancés de science des données
Image par auteur

Vous avez entendu parler Kaggle, probablement la plateforme la plus connue de la communauté de la science des données. Il héberge une vaste gamme d'ensembles de données dans différents formats (CSV, JSON, SQLite, BigQuery) et provenant de plusieurs secteurs et sujets, tels que la santé, l'automobile, les arts et le divertissement, la biologie, les sciences sociales, l'investissement, les réseaux sociaux, le sport, etc. sur. Vous pouvez également rechercher des ensembles de données en fonction de leur orientation technique, par exemple l'informatique, la classification, la vision par ordinateur, la PNL ou la visualisation de données.

Actuellement, 274,855 XNUMX ensembles de données sont disponibles, vous ne manquerez donc pas de données.

L'interface conviviale de Kaggle et les forums communautaires actifs en font une excellente ressource pour les débutants et les professionnels.

Si vous êtes un passionné d'apprentissage automatique, le Référentiel d'apprentissage automatique UCI devrait être votre site de prédilection. Comme son nom l'indique, ce référentiel est créé par l'Université de Californie à Irvine (UCI). Ils ont collecté une vaste collection d’ensembles de données adaptés à l’apprentissage automatique. Comme les ensembles de données couvrent divers sujets, ils sont particulièrement utiles. Ces ensembles de données couvrent un large éventail de sujets et sont particulièrement utiles pour ceux qui souhaitent mettre en pratique et améliorer leurs compétences en apprentissage automatique.

Il existe actuellement 653 ensembles de données ; vous pouvez les parcourir par type de données, domaine, tâche, nombre de fonctionnalités et d'instances et type de fonctionnalité.

StrataScratch fournit 49 ensembles de données et projets provenant d’entreprises réelles. Ceci est particulièrement bénéfique pour ceux qui se préparent à des entretiens de science des données, car cela aide les utilisateurs à développer leurs compétences techniques et leur capacité à tirer des informations commerciales à partir des données. Cela permet une approche pratique et pertinente pour l’industrie des projets de science des données.

Les projets couvrent divers sujets, tels que l'exploration des données, l'ingénierie des données, l'analyse commerciale, la régression, la classification, le NLP et le clustering.

Recherche d'ensembles de données Google est un outil dont le but est de rechercher des ensembles de données sur le Web. Vous savez déjà comment l’utiliser, même si vous n’en avez jamais entendu parler jusqu’à présent. Pourquoi? Eh bien, cela ressemble et fonctionne comme une recherche Google classique, sauf qu'il se concentre exclusivement sur la recherche d'ensembles de données. C'est extrêmement utile si vous recherchez des données provenant de diverses sources, d'articles universitaires et de bases de données gouvernementales.

Amazon's Ensembles de données publics AWS program est un autre site où vous pouvez trouver de nombreuses données ouvertes. Avec 494 jeux de données actuellement disponibles, il s'agit d'une ressource précieuse pour les data scientists. Les ensembles de données que vous y trouvez peuvent être intégrés aux services cloud AWS. Cela peut être utile si vos projets nécessitent plus de ressources informatiques. 

La gamme de données disponibles comprend, entre autres, la génomique, la météorologie et l’astronomie.

Data.gov est un référentiel de données parrainé par le gouvernement américain et contient des données provenant de diverses organisations américaines. Il comprend 283,935 132 ensembles de données provenant de XNUMX organisations américaines. Il existe un large éventail de données, telles que des données sur l'agriculture, la santé publique, les finances, l'éducation, la démographie, l'économie et l'environnement.

Les ensembles de données sont disponibles dans près de 50 formats différents, les plus populaires étant HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON et TEXT.

fivethirtyeight par ABC News est le référentiel de données et de code de leurs articles et graphiques. C'est une ressource parfaite pour les journalistes de données et toute personne intéressée par la narration statistique. Si vous souhaitez réaliser des projets liés à l'actualité, à la politique, au sport et plus encore, voici votre source. 

Il propose plus de 160 ensembles de données de 2014 à aujourd'hui.

La Données ouvertes de la Banque mondiale propose de vastes ensembles de données autour des données de développement mondial. Ces données comprennent des indicateurs sur l’économie, l’environnement et les questions sociales de pays du monde entier. Si vous êtes intéressé par le développement mondial et les sujets socio-économiques, vous trouverez peut-être ici de nombreuses données intéressantes.

GitHub n'est pas seulement une plateforme de partage de code. Il peut également être utilisé pour rechercher des ensembles de données pour des projets de données. De nombreuses organisations et utilisateurs individuels hébergent leurs ensembles de données sur les référentiels GitHub. Ces données couvrent un large éventail de sujets, souvent étayées par une documentation complète et un code d'analyse.

OpenML est une plateforme en ligne pour l'apprentissage automatique. Cela signifie également vous donner accès à de nombreuses données. Plus précisément, près de 5,400 XNUMX jeux de données. Il est conçu pour partager, organiser et discuter des données et des résultats des expériences d'apprentissage automatique. OpenML peut être intégré à des environnements d'apprentissage automatique populaires, ce qui constitue un bonus pour votre apprentissage de la science des données. 

La Sous-reddit Ensembles de données est une source de données communautaire. Les gens partagent tout sur Reddit. Eh bien, ils partagent et demandent également des ensembles de données pour des projets de données. Il est parfois difficile d'y trouver des données. Mais pas à cause du manque de données. Au contraire! Le lieu regorge de données, ce qui peut parfois rendre la recherche de données assez chaotique. Les données vont des ensembles de données très spécifiques et inhabituels aux ensembles de données plus traditionnels. Comme il s'agit essentiellement d'un forum, vous pouvez également participer à des discussions et demander de l'aide pour les ensembles de données. 

L'Office statistique de l'Union européenne s'appelle Eurostat, et c'est une source complète de données. Si vous êtes intéressé par des données statistiques de haute qualité sur les pays membres de l'UE, cela devrait être votre principale source de données. Les données sur les pays de l'UE couvrent des sujets tels que l'économie, la population, la santé et le commerce.

HDX est une plateforme ouverte où vous pouvez trouver des données humanitaires. Il est géré par le Bureau des Nations Unies pour la coordination des affaires humanitaires. Cette plateforme fournit des données sur les crises et urgences humanitaires dans tous les pays du monde. Cela pourrait vous être utile si vous participez à des projets axés sur les problèmes mondiaux, la réponse aux catastrophes et le bien-être humain.

Il existe 20,344 2,570 ensembles de données actifs et XNUMX XNUMX archivés avec diverses fonctionnalités et formats.

Sur le CDC, vous pouvez trouver des données liées à la santé. Les ensembles de données se concentrent sur divers problèmes de santé, facteurs de risque et santé publique. Donc, si ce sont les sujets qui vous intéressent, vous trouverez ici de nombreuses données utiles.

La BLS Le site contient de nombreuses données sur les conditions économiques américaines, le marché du travail, les changements de prix, la qualité de vie, etc. Vous trouverez de nombreux ensembles de données de qualité si vous aimez ces sujets. 

La dernière source de données que je mentionnerai est NASA. Il existe de nombreuses données sur l'aérospatiale, les sciences appliquées, les applications, les sciences de la Terre, la gestion/opérations, les données brutes, les logiciels et les sciences spatiales.

Il compte plus de 10,000 XNUMX jeux de données, alors ne vous perdez pas dans son univers de données !

Ces 16 sites Web vous fourniront, j'en suis sûr, suffisamment de données pour travailler jusqu'à la fin des temps, ce qui était précisément mon objectif ! Cependant, la quantité de données ne fait pas tout.

J'ai choisi ces sites car ils vous fourniront une gamme très diversifiée d'ensembles de données adaptés à une variété de projets de science des données. Les spécificités des ensembles de données diffèrent d’un secteur à l’autre. Ainsi, travailler avec divers ensembles de données vous permet également d’acquérir des connaissances dans le domaine.

Que vous vous penchiez sur l'apprentissage automatique, l'analyse de données, le journalisme de données, l'analyse statistique ou la visualisation de données, vous pouvez toujours compter sur ces ressources.

Maintenant, vous pouvez réaliser votre propre projet de science des données ! Si vous avez besoin de plus d'idées, en voici quelques-unes projets de science des données vous pouvez le faire en tant que débutant.
 
 

Nate Rosidi est data scientist et en stratégie produit. Il est également professeur adjoint enseignant l'analytique et fondateur de StrataScratch, une plate-forme aidant les data scientists à préparer leurs entretiens avec de vraies questions d'entretien posées par les meilleures entreprises. Connectez-vous avec lui sur Twitter : StrataScratch or LinkedIn.

Horodatage:

Plus de KDnuggetsGenericName