高级数据科学项目的 16 个顶级技术数据源 - KDnuggets

高级数据科学项目的 16 大技术数据源 – KDnuggets

源节点: 3081921

高级数据科学项目的 16 大技术数据源
图片作者
 

您已经在这些页面上读到(我对撰写其中一些文章感到内疚),数据科学项目对于开发整套技术数据科学技能至关重要。确实如此,他们确实如此。但同样重要的是为您的数据科学项目提供高质量的数据集。收集优质数据只是 数据科学项目的阶段之一,但可以成就或破坏它。

问题是,哪里可以找到这些该死的数据?幸运的是,许多网站都提供了用于各种目的的大量数据。

 

高级数据科学项目的 16 大技术数据源
图片作者

你听说过 Kaggle,可能是数据科学界最著名的平台。它托管着各种格式(CSV、JSON、SQLite、BigQuery)、来自多个行业和主题的大量数据集,例如健康、汽车、艺术与娱乐、生物学、社会科学、投资、社交网络、体育等在。您还可以根据数据集的技术重点来搜索数据集,例如计算机科学、分类、计算机视觉、NLP 或数据可视化。

目前,有 274,855 个可用数据集,因此您不会缺少数据。

Kaggle 的用户友好界面和活跃的社区论坛使其成为初学者和专业人士的绝佳资源。

如果您是机器学习爱好者, UCI机器学习存储库 应该是您的首选网站。顾名思义,该存储库由加州大学欧文分校 (UCI) 创建。他们收集了大量专为机器学习定制的数据集。由于数据集涵盖了各种主题,因此它们特别有用。这些数据集涵盖了广泛的主题,对于那些想要练习和提高机器学习技能的人特别有用。

目前有653个数据集;您可以按数据类型、主题领域、任务、功能和实例数量以及功能类型来浏览它们。

地层划痕 提供 49 个来自实际公司的数据集和项目。这对于那些准备数据科学面试的人来说特别有益,因为它可以帮助用户培养他们的技术技能和从数据中获取业务见解的能力。这为数据科学项目提供了一种实用且与行业相关的方法。

这些项目涵盖各种主题,例如数据探索、数据工程、业务分析、回归、分类、NLP 和聚类。

谷歌数据集搜索 是一种工具,其目的是在网络上查找数据集。您已经知道如何使用它,即使您直到现在才听说过它。为什么?嗯,它的外观和工作原理与常规的 Google 搜索类似,只是它专注于查找数据集。如果您正在寻找来自各种来源、学术论文和政府数据库的数据,它非常有用。

亚马逊 AWS 公共数据集 Program 是另一个可以找到大量开放数据的网站。目前有 494 个可用数据集,对于数据科学家来说是宝贵的资源。您在那里找到的数据集可以与 AWS 云服务集成。如果您的项目需要更多计算资源,这可能会有所帮助。 

可用数据的范围包括基因组学、气象学和天文学等。

Data.gov 是由美国政府赞助的数据存储库,包含来自美国各个组织的数据。它包含来自 283,935 个美国组织的 132 个数据集。有各种各样的数据,例如农业、公共卫生、金融、教育、人口统计、经济和环境数据。

数据集有近 50 种不同的格式,其中最流行的格式包括 HTML、XML、ZIP、CSV、PDF、ArcGIS GeoServices REST API、KML、GeoJSON、JSON 和 TEXT。

FiveThirtyEight by ABC News 是他们的文章和图形的数据和代码存储库。对于数据记者和任何对统计故事感兴趣的人来说,这是一个完美的资源。如果您有兴趣做涉及时事、政治、体育等的项目,这就是您的来源。 

它提供了从 160 年至今的 2014 多个数据集。

世界银行开放数据 提供围绕全球发展数据的广泛数据集。这些数据包括世界各国经济、环境和社会问题的指标。如果您对全球发展和社会经济主题感兴趣,您可能会在这里找到很多有趣的数据。

GitHub上 不仅仅是一个共享代码的平台。它还可用于查找数据项目的数据集。许多组织和个人用户将他们的数据集托管在 GitHub 存储库上。这些数据涵盖了广泛的主题,通常有大量的文档和分析代码支持。

开放机器学习 是一个机器学习的在线平台。这也意味着您可以访问大量数据。更具体地说,有近 5,400 个数据集。它旨在共享、组织和讨论机器学习实验的数据和结果。 OpenML 可以与流行的机器学习环境集成,这对您的数据科学学习来说是一个福利。 

数据集子reddit 是社区驱动的数据源。人们在 Reddit 上分享一切。嗯,他们还共享和请求数据项目的数据集。有时很难在那里找到数据。但并不是因为缺乏数据。相反!这个地方充满了数据,有时会使数据搜索变得非常混乱。数据范围从高度具体和不寻常的数据集到更传统的数据集。由于这基本上是一个论坛,因此您还可以参与讨论并寻求数据集方面的帮助。 

欧盟统计局称为 欧盟统计局,它是一个全面的数据源。如果您对欧盟成员国的高质量统计数据感兴趣,这应该是您的主要数据源。欧盟国家的数据包括经济、人口、健康和贸易等主题。

HDX 是一个开放平台,您可以在其中找到人道主义数据。它由联合国人道主义事务协调厅管理。该平台提供有关世界各国人道主义危机和紧急情况的数据。如果您参与关注全球问题、灾难响应和人类福祉的项目,您可能会发现这很有用。

有 20,344 个活动数据集和 2,570 个存档数据集,具有各种功能和格式。

点击 疾病预防控制中心,您可以找到与健康相关的数据。这些数据集侧重于各种健康状况、风险因素和公共卫生。因此,如果您对这些主题感兴趣,您会在这里找到很多有用的数据。

BLS 网站上有大量有关美国经济状况、劳动力市场、价格变化、生活质量等的数据。如果您对这些主题感兴趣,您会发现大量高质量的数据集。 

我要提到的最后一个数据来源是 美国航空航天局。有大量关于航空航天、应用科学、应用程序、地球科学、管理/运营、原始数据、软件和空间科学的数据。

它拥有超过 10,000 个数据集,所以不要迷失在它的数据宇宙中!

我确信,这 16 个网站将为您提供足够的数据供您使用,直到时间结束,这正是我的目标!然而,数据量并不能说明一切。

我选择这些网站是因为它们将为您提供适合各种数据科学项目的各种数据集。数据集的具体情况因行业而异。因此,使用各种数据集还可以让您获得领域知识。

无论您是研究机器学习、数据分析、数据新闻、统计分析还是数据可视化,您始终可以依赖这些资源。

现在,您可以做自己的数据科学项目!如果您需要更多想法,这里有一些 数据科学项目 你可以作为初学者来做。
 
 

内特·罗西迪 是一名数据科学家和产品战略。 他也是教授分析学的兼职教授,并且是 地层划痕,一个帮助数据科学家准备面试的平台,回答来自顶级公司的真实面试问题。 与他联系 推特:StrataScratch or LinkedIn.

时间戳记:

更多来自 掘金队