16 лучших источников технических данных для передовых проектов в области науки о данных - KDnuggets

16 лучших источников технических данных для передовых проектов в области науки о данных – KDnuggets

Исходный узел: 3081921

16 лучших источников технических данных для передовых проектов в области науки о данных
Изображение по автору
 

Вы читали на этих страницах (и я виноват в написании некоторых из этих статей), что проекты по науке о данных имеют решающее значение для развития всего пакета технических навыков в области науки о данных. Это правда, они есть. Но что также важно, так это наличие высококачественных наборов данных для ваших проектов по науке о данных. Сбор качественных данных — это просто один из этапов проекта по науке о данных, но тот, который может сделать или разрушить это.

Вопрос в том, где найти эти чертовы данные? К счастью, многочисленные веб-сайты предлагают множество данных для различных целей.

 

16 лучших источников технических данных для передовых проектов в области науки о данных
Изображение по автору

Вы слышали о Kaggle, вероятно, самая известная платформа в сообществе специалистов по обработке и анализу данных. Он содержит широкий спектр наборов данных в различных форматах (CSV, JSON, SQLite, BigQuery) из различных отраслей и тем, таких как здравоохранение, автомобилестроение, искусство и развлечения, биология, социальные науки, инвестиции, социальные сети, спорт и т. д. на. Вы также можете искать наборы данных в зависимости от их технической направленности, например информатики, классификации, компьютерного зрения, НЛП или визуализации данных.

В настоящее время доступно 274,855 XNUMX наборов данных, так что недостатка в данных у вас не будет.

Удобный интерфейс Kaggle и активные форумы сообщества делают его отличным ресурсом как для новичков, так и для профессионалов.

Если вы энтузиаст машинного обучения, UCI Хранилище Машинного Обучения должен быть вашим любимым сайтом. Как следует из названия, этот репозиторий создан Калифорнийским университетом в Ирвайне (UCI). Они собрали обширную коллекцию наборов данных, специально предназначенных для машинного обучения. Поскольку наборы данных охватывают различные темы, они особенно полезны. Эти наборы данных охватывают широкий спектр тем и особенно полезны для тех, кто хочет практиковать и совершенствовать свои навыки машинного обучения.

В настоящее время существует 653 набора данных; вы можете просматривать их по типу данных, предметной области, задаче, количеству функций и экземпляров и типу функции.

СтратаСкретч предоставляет 49 наборов данных и проектов, полученных от реальных компаний. Это особенно полезно для тех, кто готовится к собеседованиям по науке о данных, поскольку помогает пользователям развивать свои технические навыки и способность извлекать бизнес-идеи из данных. Это позволяет применять практический и отраслевой подход к проектам по науке о данных.

Проекты охватывают различные темы, такие как исследование данных, инженерия данных, бизнес-анализ, регрессия, классификация, НЛП и кластеризация.

Поиск по набору данных Google — это инструмент, целью которого является поиск наборов данных в Интернете. Вы уже знаете, как его использовать, даже если до сих пор никогда о нем не слышали. Почему? Что ж, он выглядит и работает как обычный поиск Google, только ориентирован исключительно на поиск наборов данных. Это чрезвычайно полезно, если вы ищете данные из различных источников, научных статей и правительственных баз данных.

Амазонки Публичные наборы данных AWS program — еще один сайт, где можно найти много открытых данных. В настоящее время доступно 494 набора данных, и это ценный ресурс для специалистов по данным. Наборы данных, которые вы там найдете, можно интегрировать с облачными сервисами AWS. Это может быть полезно, если вашим проектам требуется больше вычислительных ресурсов. 

Диапазон доступных данных включает, среди прочего, геномику, метеорологию и астрономию.

Data.gov представляет собой хранилище данных, спонсируемое правительством США и содержащее данные различных организаций США. Он включает 283,935 132 наборов данных от XNUMX организаций США. Существует широкий спектр данных, таких как данные о сельском хозяйстве, здравоохранении, финансах, образовании, демографии, экономике и окружающей среде.

Наборы данных представлены почти в 50 различных форматах, наиболее популярные из которых включают HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON и TEXT.

FiveThirtyEight by ABC News - это хранилище данных и кода их статей и графики. Это идеальный ресурс для журналистов, занимающихся данными, и всех, кто интересуется статистическими историями. Если вы заинтересованы в реализации проектов, связанных с текущими событиями, политикой, спортом и многим другим, это ваш источник. 

Он предлагает более 160 наборов данных с 2014 года по сегодняшний день.

Ассоциация Открытые данные Всемирного банка предлагает обширные наборы данных, основанные на данных о глобальном развитии. Эти данные включают показатели по экономике, окружающей среде и социальным вопросам из стран по всему миру. Если вас интересуют глобальное развитие и социально-экономические темы, вы можете найти здесь много интересных данных.

GitHub это не только платформа для обмена кодом. Его также можно использовать для поиска наборов данных для проектов данных. Многие организации и отдельные пользователи размещают свои наборы данных в репозиториях GitHub. Эти данные охватывают широкий круг тем и часто сопровождаются обширной документацией и кодом для анализа.

OpenML — это онлайн-платформа для машинного обучения. Это также означает предоставление вам доступа к большому количеству данных. Точнее, почти 5,400 наборов данных. Он предназначен для обмена, организации и обсуждения данных и результатов экспериментов по машинному обучению. OpenML можно интегрировать с популярными средами машинного обучения, что является бонусом для вашего изучения науки о данных. 

Ассоциация Субреддит наборов данных является источником данных, управляемым сообществом. Люди делятся всем на Reddit. Ну, они также делятся и запрашивают наборы данных для проектов данных. Иногда там сложно найти данные. Но не из-за отсутствия данных. Напротив! Место наполнено данными, что иногда может сделать поиск данных довольно хаотичным. Данные варьируются от весьма специфических и необычных до более традиционных наборов данных. Поскольку это по сути форум, вы также можете участвовать в обсуждениях и обращаться за помощью с наборами данных. 

Статистическое управление Европейского Союза называется Евростат, и это всеобъемлющий источник данных. Если вы заинтересованы в высококачественных статистических данных о странах-членах ЕС, это должно быть вашим основным источником данных. Данные по странам ЕС включают такие темы, как экономика, население, здравоохранение и торговля.

HDX — открытая платформа, на которой можно найти гуманитарные данные. Им управляет Управление ООН по координации гуманитарных вопросов. Эта платформа предоставляет данные, касающиеся гуманитарных кризисов и чрезвычайных ситуаций в каждой стране мира. Это может оказаться полезным, если вы занимаетесь проектами, посвященными глобальным проблемам, реагированию на стихийные бедствия и благополучию людей.

Существует 20,344 2,570 активных и XNUMX XNUMX архивных наборов данных с различными функциями и форматами.

На CDC, вы можете найти данные, связанные со здоровьем. Наборы данных сосредоточены на различных состояниях здоровья, факторах риска и общественном здравоохранении. Итак, если вас интересуют эти темы, здесь вы найдете много полезной информации.

Ассоциация BLS На сайте есть много данных об экономических условиях США, рынке труда, изменении цен, качестве жизни и т. д. Если вы интересуетесь этими темами, вы найдете множество качественных наборов данных. 

Последний источник данных, который я упомяну, — это НАСА. Существует много данных по аэрокосмической отрасли, прикладной науке, приложениям, наукам о Земле, менеджменту/операциям, необработанным данным, программному обеспечению и космической науке.

Он содержит более 10,000 XNUMX наборов данных, так что не заблудитесь во вселенной данных!

Я уверен, что эти 16 веб-сайтов предоставят вам достаточно данных для работы до конца времен, что и было моей целью! Однако объем данных – это еще не все.

Я выбрал эти сайты, поскольку они предоставят вам очень разнообразный набор наборов данных, подходящих для различных проектов по науке о данных. Специфика набора данных варьируется от отрасли к отрасли. Таким образом, работа с различными наборами данных также позволяет вам получить знания в предметной области.

Занимаетесь ли вы машинным обучением, анализом данных, журналистикой данных, статистическим анализом или визуализацией данных, вы всегда можете рассчитывать на эти ресурсы.

Теперь вы можете реализовать свой собственный проект по науке о данных! Если вам нужно больше идей, вот некоторые проекты в области науки о данных вы можете сделать как новичок.
 
 

Нейт Росиди специалист по данным и продуктовой стратегии. Он также является адъюнкт-профессором, преподающим аналитику, и является основателем СтратаСкретч, платформа, помогающая специалистам по обработке данных подготовиться к интервью с реальными вопросами интервью от ведущих компаний. Свяжись с ним в Твиттер: StrataScratch or LinkedIn.

Отметка времени:

Больше от КДнаггетс