Изображение по автору
Вы читали на этих страницах (и я виноват в написании некоторых из этих статей), что проекты по науке о данных имеют решающее значение для развития всего пакета технических навыков в области науки о данных. Это правда, они есть. Но что также важно, так это наличие высококачественных наборов данных для ваших проектов по науке о данных. Сбор качественных данных — это просто один из этапов проекта по науке о данных, но тот, который может сделать или разрушить это.
Вопрос в том, где найти эти чертовы данные? К счастью, многочисленные веб-сайты предлагают множество данных для различных целей.
Изображение по автору
Вы слышали о Kaggle, вероятно, самая известная платформа в сообществе специалистов по обработке и анализу данных. Он содержит широкий спектр наборов данных в различных форматах (CSV, JSON, SQLite, BigQuery) из различных отраслей и тем, таких как здравоохранение, автомобилестроение, искусство и развлечения, биология, социальные науки, инвестиции, социальные сети, спорт и т. д. на. Вы также можете искать наборы данных в зависимости от их технической направленности, например информатики, классификации, компьютерного зрения, НЛП или визуализации данных.
В настоящее время доступно 274,855 XNUMX наборов данных, так что недостатка в данных у вас не будет.
Удобный интерфейс Kaggle и активные форумы сообщества делают его отличным ресурсом как для новичков, так и для профессионалов.
Если вы энтузиаст машинного обучения, UCI Хранилище Машинного Обучения должен быть вашим любимым сайтом. Как следует из названия, этот репозиторий создан Калифорнийским университетом в Ирвайне (UCI). Они собрали обширную коллекцию наборов данных, специально предназначенных для машинного обучения. Поскольку наборы данных охватывают различные темы, они особенно полезны. Эти наборы данных охватывают широкий спектр тем и особенно полезны для тех, кто хочет практиковать и совершенствовать свои навыки машинного обучения.
В настоящее время существует 653 набора данных; вы можете просматривать их по типу данных, предметной области, задаче, количеству функций и экземпляров и типу функции.
СтратаСкретч предоставляет 49 наборов данных и проектов, полученных от реальных компаний. Это особенно полезно для тех, кто готовится к собеседованиям по науке о данных, поскольку помогает пользователям развивать свои технические навыки и способность извлекать бизнес-идеи из данных. Это позволяет применять практический и отраслевой подход к проектам по науке о данных.
Проекты охватывают различные темы, такие как исследование данных, инженерия данных, бизнес-анализ, регрессия, классификация, НЛП и кластеризация.
Поиск по набору данных Google — это инструмент, целью которого является поиск наборов данных в Интернете. Вы уже знаете, как его использовать, даже если до сих пор никогда о нем не слышали. Почему? Что ж, он выглядит и работает как обычный поиск Google, только ориентирован исключительно на поиск наборов данных. Это чрезвычайно полезно, если вы ищете данные из различных источников, научных статей и правительственных баз данных.
Амазонки Публичные наборы данных AWS program — еще один сайт, где можно найти много открытых данных. В настоящее время доступно 494 набора данных, и это ценный ресурс для специалистов по данным. Наборы данных, которые вы там найдете, можно интегрировать с облачными сервисами AWS. Это может быть полезно, если вашим проектам требуется больше вычислительных ресурсов.
Диапазон доступных данных включает, среди прочего, геномику, метеорологию и астрономию.
Data.gov представляет собой хранилище данных, спонсируемое правительством США и содержащее данные различных организаций США. Он включает 283,935 132 наборов данных от XNUMX организаций США. Существует широкий спектр данных, таких как данные о сельском хозяйстве, здравоохранении, финансах, образовании, демографии, экономике и окружающей среде.
Наборы данных представлены почти в 50 различных форматах, наиболее популярные из которых включают HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON и TEXT.
FiveThirtyEight by ABC News - это хранилище данных и кода их статей и графики. Это идеальный ресурс для журналистов, занимающихся данными, и всех, кто интересуется статистическими историями. Если вы заинтересованы в реализации проектов, связанных с текущими событиями, политикой, спортом и многим другим, это ваш источник.
Он предлагает более 160 наборов данных с 2014 года по сегодняшний день.
Ассоциация Открытые данные Всемирного банка предлагает обширные наборы данных, основанные на данных о глобальном развитии. Эти данные включают показатели по экономике, окружающей среде и социальным вопросам из стран по всему миру. Если вас интересуют глобальное развитие и социально-экономические темы, вы можете найти здесь много интересных данных.
GitHub это не только платформа для обмена кодом. Его также можно использовать для поиска наборов данных для проектов данных. Многие организации и отдельные пользователи размещают свои наборы данных в репозиториях GitHub. Эти данные охватывают широкий круг тем и часто сопровождаются обширной документацией и кодом для анализа.
OpenML — это онлайн-платформа для машинного обучения. Это также означает предоставление вам доступа к большому количеству данных. Точнее, почти 5,400 наборов данных. Он предназначен для обмена, организации и обсуждения данных и результатов экспериментов по машинному обучению. OpenML можно интегрировать с популярными средами машинного обучения, что является бонусом для вашего изучения науки о данных.
Ассоциация Субреддит наборов данных является источником данных, управляемым сообществом. Люди делятся всем на Reddit. Ну, они также делятся и запрашивают наборы данных для проектов данных. Иногда там сложно найти данные. Но не из-за отсутствия данных. Напротив! Место наполнено данными, что иногда может сделать поиск данных довольно хаотичным. Данные варьируются от весьма специфических и необычных до более традиционных наборов данных. Поскольку это по сути форум, вы также можете участвовать в обсуждениях и обращаться за помощью с наборами данных.
Статистическое управление Европейского Союза называется Евростат, и это всеобъемлющий источник данных. Если вы заинтересованы в высококачественных статистических данных о странах-членах ЕС, это должно быть вашим основным источником данных. Данные по странам ЕС включают такие темы, как экономика, население, здравоохранение и торговля.
HDX — открытая платформа, на которой можно найти гуманитарные данные. Им управляет Управление ООН по координации гуманитарных вопросов. Эта платформа предоставляет данные, касающиеся гуманитарных кризисов и чрезвычайных ситуаций в каждой стране мира. Это может оказаться полезным, если вы занимаетесь проектами, посвященными глобальным проблемам, реагированию на стихийные бедствия и благополучию людей.
Существует 20,344 2,570 активных и XNUMX XNUMX архивных наборов данных с различными функциями и форматами.
На CDC, вы можете найти данные, связанные со здоровьем. Наборы данных сосредоточены на различных состояниях здоровья, факторах риска и общественном здравоохранении. Итак, если вас интересуют эти темы, здесь вы найдете много полезной информации.
Ассоциация BLS На сайте есть много данных об экономических условиях США, рынке труда, изменении цен, качестве жизни и т. д. Если вы интересуетесь этими темами, вы найдете множество качественных наборов данных.
Последний источник данных, который я упомяну, — это НАСА. Существует много данных по аэрокосмической отрасли, прикладной науке, приложениям, наукам о Земле, менеджменту/операциям, необработанным данным, программному обеспечению и космической науке.
Он содержит более 10,000 XNUMX наборов данных, так что не заблудитесь во вселенной данных!
Я уверен, что эти 16 веб-сайтов предоставят вам достаточно данных для работы до конца времен, что и было моей целью! Однако объем данных – это еще не все.
Я выбрал эти сайты, поскольку они предоставят вам очень разнообразный набор наборов данных, подходящих для различных проектов по науке о данных. Специфика набора данных варьируется от отрасли к отрасли. Таким образом, работа с различными наборами данных также позволяет вам получить знания в предметной области.
Занимаетесь ли вы машинным обучением, анализом данных, журналистикой данных, статистическим анализом или визуализацией данных, вы всегда можете рассчитывать на эти ресурсы.
Теперь вы можете реализовать свой собственный проект по науке о данных! Если вам нужно больше идей, вот некоторые проекты в области науки о данных вы можете сделать как новичок.
Нейт Росиди специалист по данным и продуктовой стратегии. Он также является адъюнкт-профессором, преподающим аналитику, и является основателем СтратаСкретч, платформа, помогающая специалистам по обработке данных подготовиться к интервью с реальными вопросами интервью от ведущих компаний. Свяжись с ним в Твиттер: StrataScratch or LinkedIn.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.kdnuggets.com/top-16-technical-data-sources-for-advanced-data-science-projects?utm_source=rss&utm_medium=rss&utm_campaign=top-16-technical-data-sources-for-advanced-data-science-projects
- :имеет
- :является
- :нет
- :куда
- 000
- 10
- 16
- 160
- 20
- 2014
- 400
- 49
- 50
- a
- азбука
- способность
- О нас
- об этом
- академический
- доступ
- через
- активный
- фактического соединения
- адъюнкт
- продвинутый
- Аэрокосмическая индустрия
- Дела
- сельское хозяйство
- позволяет
- почти
- уже
- причислены
- всегда
- среди
- количество
- an
- анализ
- аналитика
- и
- Другой
- кто угодно
- API
- прикладной
- подхода
- Программы
- МЫ
- ПЛОЩАДЬ
- около
- массив
- статьи
- Искусство
- AS
- спросить
- Помощь
- астрономия
- автомобильный
- доступен
- AWS
- Банка
- в основном
- BE
- , так как:
- Новичок
- Новичкам
- полезный
- BigQuery
- биология
- Бонус
- изоферменты печени
- Ломать
- бизнес
- но
- by
- Калифорния
- под названием
- CAN
- CDC
- изменения
- выбранный
- классификация
- облако
- облачные сервисы
- кластеризации
- код
- Сбор
- лыжных шлемов
- COM
- как
- сообщество
- Сообщество
- Компании
- комплексный
- компьютер
- Информатика
- Компьютерное зрение
- вычисление
- Условия
- Свяжитесь
- содержит
- координация
- может
- считать
- страны
- страна
- чехол для варгана
- чехлы
- создали
- кризис
- решающее значение
- Текущий
- В настоящее время
- данным
- анализ данных
- наука о данных
- ученый данных
- визуализация данных
- базы данных
- Наборы данных
- Демографическая
- в зависимости
- выводить
- предназначенный
- развивать
- развивающийся
- Развитие
- отличаться
- различный
- трудный
- катастрофа
- обсуждающий
- обсуждение
- Разное
- do
- документации
- дело
- домен
- Dont
- e
- земля
- Экономические
- Экономические условия
- Экономика
- экономику
- Обучение
- конец
- Проект и
- достаточно
- Развлечения
- энтузиаст
- Окружающая среда
- окружающий
- средах
- особенно
- и т.д
- Эфир (ETH)
- EU
- Европа
- Европейская кухня
- Европейский Союз
- Даже
- События
- Каждая
- многое
- отлично
- исключительно
- Эксперименты
- исследование
- обширный
- чрезвычайно
- факторы
- Особенность
- Особенности
- финансы
- Найдите
- обнаружение
- Фокус
- внимание
- фокусировка
- Что касается
- К счастью
- Форум
- форумы
- основатель
- от
- Gain
- геномика
- получить
- GitHub
- Дайте
- Отдаете
- Глобальный
- Google Поиск
- Правительство
- графика
- виновный
- имеющий
- he
- Медицина
- услышанный
- полезный
- помощь
- помогает
- здесь
- высококачественный
- очень
- его
- кашель
- хостов
- Как
- How To
- Однако
- HTML
- HTTPS
- человек
- гуманитарное
- БОЛЬНОЙ
- ICS
- идеи
- if
- улучшать
- in
- включает в себя
- В том числе
- индикаторы
- individual
- промышленности
- промышленность
- размышления
- случаев
- интегрированный
- заинтересованный
- интересный
- Интерфейс
- Интервью
- вопросы интервью
- Интервью
- в
- инвестирование
- включать в себя
- вопросы
- IT
- ЕГО
- журналистика
- Журналисты
- JSON
- всего
- КДнаггетс
- Знать
- знания
- труд
- рынок труда
- Отсутствие
- недостающий
- Фамилия
- изучение
- ЖИЗНЬЮ
- такое как
- искать
- ВЗГЛЯДЫ
- потерянный
- серия
- много
- машина
- обучение с помощью машины
- Главная
- сделать
- управляемого
- рынок
- означает
- член
- упомянуть
- может быть
- БОЛЕЕ
- самых
- Самые популярные
- с разными
- my
- имя
- НАСА
- Наций
- Необходимость
- сетей
- никогда
- Новости
- НЛП
- сейчас
- номер
- многочисленный
- of
- предлагающий
- Предложения
- Офис
- .
- on
- ONE
- онлайн
- только
- открытый
- открытые данные
- or
- организации
- организации
- Другое
- собственный
- пакет
- страниц
- бумага
- участвовать
- особенно
- Люди
- ИДЕАЛЬНОЕ
- Часть
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- политика
- Популярное
- население
- практическое
- практика
- Precious
- Точно
- Подготовить
- подготовка
- цена
- вероятно
- Продукт
- профессионалы
- Профессор
- FitPartner™
- проектов
- обеспечивать
- приводит
- что такое варган?
- здравоохранение
- цель
- целей
- данные о качестве
- вопрос
- Вопросы
- вполне
- ассортимент
- диапазоны
- Сырье
- необработанные данные
- Читать
- реальные
- Reddit.
- регресс
- регулярный
- хранилище
- запросить
- требовать
- исследованиям
- ресурс
- Полезные ресурсы
- ответ
- ОТДЫХ
- Итоги
- Снижение
- факторы риска
- s
- говорит
- Наука
- Ученый
- Ученые
- Поиск
- Услуги
- Поделиться
- разделение
- должен
- сайте
- Сайтов
- навыки
- So
- Соцсети
- социальные вопросы
- социальные сети
- Software
- некоторые
- иногда
- Источник
- источников
- Источники
- Space
- конкретный
- конкретно
- конкретика
- Спонсоров
- Спорт
- этапы
- статистический
- рассказ
- Стратегия
- предмет
- такие
- подходящее
- Поддержанный
- Убедитесь
- с учетом
- Сложность задачи
- Обучение
- Технический
- технические навыки
- текст
- чем
- который
- Ассоциация
- мир
- их
- Их
- Там.
- Эти
- они
- этой
- те
- время
- в
- сегодня
- инструментом
- топ
- Темы
- торговать
- традиционный
- правда
- напишите
- союз
- Объединенный
- Объединенные Нации
- Вселенная
- Университет
- Университет Калифорнии
- до
- необычный
- us
- правительство США
- использование
- используемый
- полезный
- удобно
- пользователей
- разнообразие
- различный
- Огромная
- очень
- очень разнообразный
- видение
- визуализация
- жизненный
- желая
- законопроект
- Богатство
- Web
- веб-сайты
- Благосостояние
- ЧТО Ж
- известный
- который
- все
- чья
- зачем
- широкий
- Широкий диапазон
- будете
- Работа
- работает
- работает
- Мир
- письмо
- XML
- являетесь
- ВАШЕ
- зефирнет
- ZIP