As 16 principais fontes de dados técnicos para projetos avançados de ciência de dados - KDnuggets

As 16 principais fontes de dados técnicos para projetos avançados de ciência de dados – KDnuggets

Nó Fonte: 3081921

As 16 principais fontes de dados técnicos para projetos avançados de ciência de dados
Imagem do autor
 

Você leu nestas páginas (e sou culpado de escrever alguns desses artigos) que os projetos de ciência de dados são cruciais para desenvolver todo o pacote de habilidades técnicas de ciência de dados. Isso é verdade, eles são. Mas também é vital ter conjuntos de dados de alta qualidade para seus projetos de ciência de dados. Coletar dados de qualidade é apenas uma das etapas de um projeto de ciência de dados, mas aquele que pode fazer ou quebrar.

A questão é: onde encontrar esses malditos dados? Felizmente, vários sites oferecem uma grande variedade de dados para diversos fins.

 

As 16 principais fontes de dados técnicos para projetos avançados de ciência de dados
Imagem do autor

Você ouviu sobre Kaggle, provavelmente a plataforma mais conhecida na comunidade de ciência de dados. Ele hospeda uma vasta gama de conjuntos de dados em vários formatos (CSV, JSON, SQLite, BigQuery) e de vários setores e tópicos, como saúde, automotivo, artes e entretenimento, biologia, ciências sociais, investimentos, redes sociais, esportes e assim por diante. sobre. Você também pode pesquisar conjuntos de dados dependendo de seu foco técnico, por exemplo, ciência da computação, classificação, visão computacional, PNL ou visualização de dados.

Atualmente, existem 274,855 conjuntos de dados disponíveis, então não faltarão dados.

A interface amigável do Kaggle e os fóruns da comunidade ativos o tornam um excelente recurso para iniciantes e profissionais.

Se você é um entusiasta do aprendizado de máquina, o Repositório de aprendizado de máquina UCI deve ser o seu site preferido. Como o nome já diz, este repositório foi criado pela Universidade da Califórnia, Irvine (UCI). Eles coletaram uma extensa coleção de conjuntos de dados adaptados para aprendizado de máquina. Como os conjuntos de dados cobrem vários tópicos, eles são especialmente úteis. Esses conjuntos de dados cobrem uma ampla gama de tópicos e são particularmente úteis para aqueles que desejam praticar e melhorar suas habilidades de aprendizado de máquina.

Existem atualmente 653 conjuntos de dados; você pode navegá-los por tipo de dados, área de assunto, tarefa, número de recursos e instâncias e tipo de recurso.

StrataScratchGenericName fornece 49 conjuntos de dados e projetos provenientes de empresas reais. Isto é particularmente benéfico para aqueles que se preparam para entrevistas de ciência de dados, pois ajuda os utilizadores a desenvolver as suas competências técnicas e a capacidade de obter insights de negócios a partir dos dados. Isso permite uma abordagem prática e relevante para o setor para projetos de ciência de dados.

Os projetos cobrem diversos tópicos, como exploração de dados, engenharia de dados, análise de negócios, regressão, classificação, PNL e clustering.

Pesquisa de conjunto de dados do Google é uma ferramenta cujo objetivo é encontrar conjuntos de dados na web. Você já sabe como usá-lo, mesmo que nunca tenha ouvido falar dele até agora. Por que? Bem, parece e funciona como uma pesquisa normal do Google, só que focada exclusivamente em encontrar conjuntos de dados. É extremamente útil se você estiver procurando dados de diversas fontes, artigos acadêmicos e bancos de dados governamentais.

Amazon's Conjuntos de dados públicos da AWS programa é outro site onde você pode encontrar muitos dados abertos. Com 494 conjuntos de dados disponíveis atualmente, é um recurso precioso para cientistas de dados. Os conjuntos de dados encontrados lá podem ser integrados aos serviços de nuvem AWS. Isso pode ser útil se seus projetos exigirem mais recursos computacionais. 

A gama de dados disponíveis inclui genômica, meteorologia e astronomia, entre outros.

Data.gov é um repositório de dados patrocinado pelo governo dos EUA e contém dados de várias organizações dos EUA. Inclui 283,935 conjuntos de dados de 132 organizações dos EUA. Há uma grande variedade de dados, como agricultura, saúde pública, finanças, educação, demografia, economia e dados ambientais.

Os conjuntos de dados vêm em quase 50 formatos diferentes, sendo os mais populares HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON e TEXT.

FiveThirtyEight da ABC News é o repositório de dados e códigos de seus artigos e gráficos. É um recurso perfeito para jornalistas de dados e qualquer pessoa interessada em narrativa estatística. Se você estiver interessado em fazer projetos que envolvam atualidades, política, esportes e muito mais, esta é a sua fonte. 

Oferece mais de 160 conjuntos de dados de 2014 até hoje.

A Dados Abertos do Banco Mundial oferece extensos conjuntos de dados que giram em torno de dados de desenvolvimento global. Estes dados incluem indicadores sobre a economia, o ambiente e questões sociais de países de todo o mundo. Se você estiver interessado em desenvolvimento global e tópicos socioeconômicos, poderá encontrar muitos dados interessantes aqui.

GitHub não é apenas uma plataforma para compartilhar código. Também pode ser usado para localizar conjuntos de dados para projetos de dados. Muitas organizações e usuários individuais hospedam seus conjuntos de dados em repositórios GitHub. Esses dados cobrem uma ampla variedade de tópicos, geralmente apoiados por extensa documentação e código para análise.

OpenML é uma plataforma online para aprendizado de máquina. Isso também significa dar acesso a muitos dados. Mais especificamente, quase 5,400 conjuntos de dados. Ele foi projetado para compartilhar, organizar e discutir dados e resultados de experimentos de aprendizado de máquina. OpenML pode ser integrado a ambientes populares de aprendizado de máquina, o que é um bônus para seu aprendizado de ciência de dados. 

A Subreddit de conjuntos de dados é uma fonte de dados dirigida pela comunidade. As pessoas compartilham tudo no Reddit. Bem, eles também compartilham e solicitam conjuntos de dados para projetos de dados. Às vezes é difícil encontrar dados lá. Mas não por falta de dados. Pelo contrário! O local está repleto de dados, o que às vezes pode tornar a busca por dados bastante caótica. Os dados variam de conjuntos de dados altamente específicos e incomuns a conjuntos de dados mais tradicionais. Como se trata basicamente de um fórum, você também pode participar de discussões e pedir ajuda com conjuntos de dados. 

O serviço de estatística da União Europeia chama-se Eurostate é uma fonte abrangente de dados. Se estiver interessado em dados estatísticos de alta qualidade sobre os países membros da UE, esta deve ser a sua principal fonte de dados. Os dados sobre os países da UE incluem tópicos como economia, população, saúde e comércio.

extensão hdx é uma plataforma aberta onde você pode encontrar dados humanitários. É gerido pelo Escritório das Nações Unidas para a Coordenação de Assuntos Humanitários. Esta plataforma fornece dados sobre crises humanitárias e emergências em todos os países do mundo. Você pode achar isso útil se estiver envolvido em projetos com foco em questões globais, resposta a desastres e bem-estar humano.

São 20,344 conjuntos de dados ativos e 2,570 arquivados com diversos recursos e formatos.

No CDC, você pode encontrar dados relacionados à saúde. Os conjuntos de dados concentram-se em várias condições de saúde, fatores de risco e saúde pública. Então, se esses são os tópicos de seu interesse, você encontrará muitos dados úteis aqui.

A BLS O site contém muitos dados sobre as condições econômicas dos EUA, mercado de trabalho, mudanças de preços, qualidade de vida, etc. Você encontrará muitos conjuntos de dados de qualidade se estiver interessado nesses tópicos. 

A última fonte de dados que mencionarei é NASA. Há muitos dados sobre aeroespacial, ciência aplicada, aplicativos, ciências da terra, gerenciamento/operações, dados brutos, software e ciências espaciais.

Possui mais de 10,000 conjuntos de dados, então não se perca em seu universo de dados!

Tenho certeza que esses 16 sites fornecerão dados suficientes para você trabalhar até o fim dos tempos, que era justamente o meu objetivo! No entanto, a quantidade de dados não é tudo.

Escolhi esses sites porque eles fornecerão uma gama muito diversificada de conjuntos de dados adequados para uma variedade de projetos de ciência de dados. As especificidades do conjunto de dados variam de setor para setor. Portanto, trabalhar com vários conjuntos de dados também permite adquirir conhecimento do domínio.

Esteja você mergulhando em aprendizado de máquina, análise de dados, jornalismo de dados, análise estatística ou visualização de dados, você sempre pode contar com esses recursos.

Agora você pode fazer seu próprio projeto de ciência de dados! Se você precisar de mais ideias, aqui estão algumas projetos de ciência de dados você pode fazer como iniciante.
 
 

Nate Rosidi é cientista de dados e em estratégia de produto. Ele também é professor adjunto ensinando análise e é o fundador da StrataScratchGenericName, uma plataforma que ajuda os cientistas de dados a se prepararem para suas entrevistas com perguntas reais das principais empresas. Conecte-se com ele em Twitter: StrataScratch or LinkedIn.

Carimbo de hora:

Mais de KDnuggetsGenericName