Зображення автора
Ви читали на цих сторінках (і я винен у тому, що написав деякі з цих статей), що проекти науки про дані мають вирішальне значення для розвитку всього пакету технічних навичок науки про дані. Це правда, вони є. Але також важливо мати високоякісні набори даних для ваших наукових проектів. Збирати якісні дані просто один із етапів проекту data science, але той, який може це зробити або зламати.
Питання в тому, де знайти ці жахливі дані? На щастя, численні веб-сайти пропонують велику кількість даних для різних цілей.
Зображення автора
Ви чули про Згорнути, мабуть, найвідоміша платформа в спільноті науки про дані. Він містить величезну кількість наборів даних у різних форматах (CSV, JSON, SQLite, BigQuery) і з багатьох галузей і тем, таких як здоров’я, автомобілебудування, мистецтво та розваги, біологія, соціальні науки, інвестиції, соціальні мережі, спорт тощо. на. Ви також можете шукати набори даних залежно від їх технічної спрямованості, наприклад, інформатика, класифікація, комп’ютерне бачення, НЛП або візуалізація даних.
Наразі доступно 274,855 XNUMX наборів даних, тому вам не бракуватиме даних.
Зручний інтерфейс Kaggle та активні форуми спільноти роблять його чудовим ресурсом як для новачків, так і для професіоналів.
Якщо ви ентузіаст машинного навчання, то Репозиторій машинного навчання UCI має бути вашим сайтом переходу. Як випливає з назви, це сховище створено Каліфорнійським університетом в Ірвайні (UCI). Вони зібрали велику колекцію наборів даних, призначених для машинного навчання. Оскільки набори даних охоплюють різні теми, вони особливо корисні Ці набори даних охоплюють широкий спектр тем і особливо корисні для тих, хто хоче попрактикуватися та вдосконалити свої навички машинного навчання.
Зараз існує 653 набори даних; ви можете переглядати їх за типом даних, предметною областю, завданням, кількістю функцій і екземплярів і типом функції.
StrataScratch надає 49 наборів даних і проектів, отриманих від реальних компаній. Це особливо корисно для тих, хто готується до інтерв’ю з науки про дані, оскільки це допомагає користувачам розвивати свої технічні навички та здатність отримувати бізнес-розуміння з даних. Це дає змогу використовувати практичний і галузевий підхід до наукових проектів даних.
Проекти охоплюють різні теми, такі як дослідження даних, інженерія даних, бізнес-аналіз, регресія, класифікація, NLP і кластеризація.
Пошук у наборах даних Google це інструмент, метою якого є пошук наборів даних у мережі. Ви вже знаєте, як ним користуватися, навіть якщо ніколи про це не чули. чому Ну, він виглядає і працює як звичайний пошук Google, тільки він зосереджений виключно на пошуку наборів даних. Це надзвичайно корисно, якщо ви шукаєте дані з різних джерел, наукових статей і державних баз даних.
Amazon's Публічні набори даних AWS program — ще один сайт, де можна знайти багато відкритих даних. Наразі доступні 494 набори даних, що є цінним ресурсом для науковців із обробки даних. Набори даних, які ви там знайдете, можна інтегрувати з хмарними сервісами AWS. Це може бути корисним, якщо ваші проекти вимагають більше обчислювальних ресурсів.
Діапазон доступних даних включає, зокрема, геноміку, метеорологію та астрономію.
Data.gov це сховище даних, яке спонсорується урядом США і містить дані від різних організацій США. Він включає 283,935 132 наборів даних від XNUMX організацій США. Існує широкий спектр даних, таких як дані про сільське господарство, охорону здоров’я, фінанси, освіту, демографію, економіку та навколишнє середовище.
Набори даних доступні майже в 50 різних форматах, серед яких найпопулярніші HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON і TEXT.
FiveThirtyEight від ABC News є сховищем даних і коду їхніх статей і графіки. Це ідеальний ресурс для журналістів даних і всіх, хто цікавиться статистикою. Якщо ви зацікавлені в проектах, пов’язаних із поточними подіями, політикою, спортом тощо, це ваше джерело.
Він пропонує понад 160 наборів даних з 2014 року до сьогодні.
Команда Відкриті дані Світового банку пропонує широкі набори даних, що обертаються навколо даних глобального розвитку. Ці дані включають показники економіки, навколишнього середовища та соціальних питань з різних країн світу. Якщо вас цікавить глобальний розвиток і соціально-економічні теми, ви можете знайти тут багато цікавих даних.
GitHub це не лише платформа для обміну кодом. Його також можна використовувати для пошуку наборів даних для проектів даних. Багато організацій та окремих користувачів розміщують свої набори даних у сховищах GitHub. Ці дані охоплюють широкий спектр тем, часто підкріплюються великою документацією та кодом для аналізу.
OpenML це онлайн-платформа для машинного навчання. Це також означає надання доступу до великої кількості даних. Зокрема, майже 5,400 наборів даних. Він призначений для обміну, організації та обговорення даних і результатів експериментів машинного навчання. OpenML можна інтегрувати з популярними середовищами машинного навчання, що є бонусом для вашого вивчення даних.
Команда Subreddit наборів даних є джерелом даних, керованим спільнотою. Люди діляться всім на Reddit. Ну, вони також діляться та запитують набори даних для проектів даних. Інколи важко знайти там дані. Але не через брак даних. Навпаки! Місце переповнене даними, що іноді може зробити пошук даних досить хаотичним. Дані варіюються від дуже конкретних і незвичних до більш традиційних наборів даних. Оскільки це в основному форум, ви також можете брати участь в обговореннях і просити допомоги з наборами даних.
Називається статистичне бюро Європейського Союзу Eurostat, і це повне джерело даних. Якщо ви зацікавлені у високоякісних статистичних даних про країни-члени ЄС, це повинно бути вашим основним джерелом даних. Дані про країни ЄС включають такі теми, як економіка, населення, охорона здоров'я та торгівля.
HDX це відкрита платформа, де можна знайти гуманітарні дані. Ним керує Управління ООН з координації гуманітарних питань. Ця платформа надає дані про гуманітарні кризи та надзвичайні ситуації в кожній країні світу. Це може бути корисним, якщо ви зацікавлені в проектах, які зосереджуються на глобальних проблемах, реагуванні на катастрофи та добробуті людей.
Існує 20,344 2,570 активних і XNUMX XNUMX архівних наборів даних з різними функціями та форматами.
на CDC, ви можете знайти дані, пов’язані зі здоров’ям. Набори даних зосереджені на різних станах здоров’я, факторах ризику та громадському здоров’ї. Отже, якщо ці теми вас цікавлять, ви знайдете тут багато корисної інформації.
Команда BLS на сайті є багато даних про економічні умови США, ринок праці, зміни цін, якість життя тощо. Якщо вам цікаві ці теми, ви знайдете багато якісних наборів даних.
Останнє джерело даних, яке я згадаю NASA. Є багато даних про аерокосмічну, прикладну науку, програми, науку про Землю, управління/операції, необроблені дані, програмне забезпечення та космічну науку.
Він містить понад 10,000 XNUMX наборів даних, тож не заблукайте у його всесвіті даних!
Ці 16 веб-сайтів, я впевнений, дадуть вам достатньо даних для роботи до кінця часів, що і було моєю метою! Однак кількість даних - це ще не все.
Я вибрав ці сайти, оскільки вони нададуть вам дуже різноманітні набори даних, придатні для різноманітних наукових проектів. Специфіка набору даних відрізняється від галузі до галузі. Отже, робота з різними наборами даних також дозволяє отримати знання предметної області.
Незалежно від того, чи займаєтеся ви машинним навчанням, аналізом даних, журналістикою даних, статистичним аналізом або візуалізацією даних, ви завжди можете розраховувати на ці ресурси.
Тепер ви можете створити свій власний науковий проект! Якщо вам потрібні додаткові ідеї, ось деякі проекти науки про дані ви можете зробити як новачок.
Нейт Розіді є фахівцем із даних та стратегією продукту. Він також є ад’юнкт-професором, який викладає аналітику, і є засновником StrataScratch, платформа, яка допомагає науковцям з даних готуватися до інтерв’ю з реальними запитаннями для інтерв’ю від провідних компаній. Зв'яжіться з ним Twitter: StrataScratch or LinkedIn.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://www.kdnuggets.com/top-16-technical-data-sources-for-advanced-data-science-projects?utm_source=rss&utm_medium=rss&utm_campaign=top-16-technical-data-sources-for-advanced-data-science-projects
- : має
- :є
- : ні
- :де
- 000
- 10
- 16
- 160
- 20
- 2014
- 400
- 49
- 50
- a
- азбука
- здатність
- МЕНЮ
- про це
- академічний
- доступ
- через
- активний
- фактичний
- доповнення
- просунутий
- Авіаційно-космічний
- Справи
- сільське господарство
- дозволяє
- майже
- вже
- Також
- завжди
- серед
- кількість
- an
- аналіз
- аналітика
- та
- Інший
- будь
- API
- прикладної
- підхід
- додатка
- ЕСТЬ
- ПЛОЩА
- навколо
- масив
- статті
- мистецтва
- AS
- запитати
- Допомога
- астрономія
- автомобільний
- доступний
- AWS
- Банк
- В основному
- BE
- оскільки
- Початківець
- початківці
- корисний
- великий запит
- біологія
- бонус
- обидва
- Перерва
- бізнес
- але
- by
- Каліфорнія
- званий
- CAN
- CDC
- Зміни
- вибраний
- класифікація
- хмара
- хмарні сервіси
- Кластеризація
- код
- Збір
- збір
- COM
- Приходити
- співтовариство
- Спільнота
- Компанії
- всеосяжний
- комп'ютер
- Інформатика
- Комп'ютерне бачення
- обчислення
- Умови
- З'єднуватися
- містить
- координація
- може
- вважати
- країни
- країна
- обкладинка
- охоплює
- створений
- криза
- вирішальне значення
- Поточний
- В даний час
- дані
- аналіз даних
- наука про дані
- вчений даних
- візуалізація даних
- базами даних
- набори даних
- Демографічна
- Залежно
- дрейф
- призначений
- розвивати
- розвивається
- розробка
- відрізняються
- різний
- важкий
- катастрофа
- обговорення
- обговорення
- Різне
- do
- документація
- справи
- домен
- Не знаю
- e
- земля
- Економічний
- Економічні умови
- Економіка
- економіка
- Освіта
- кінець
- Машинобудування
- досить
- розваги
- ентузіаст
- Навколишнє середовище
- навколишній
- середовищах
- особливо
- і т.д.
- Ефір (ETH)
- EU
- Europa
- Європейська
- european union
- Навіть
- Події
- Кожен
- все
- відмінно
- виключно
- Експерименти
- дослідження
- обширний
- надзвичайно
- фактори
- особливість
- риси
- фінансування
- знайти
- виявлення
- Сфокусувати
- увагу
- фокусування
- для
- На щастя
- форум
- форуми
- засновник
- від
- Отримувати
- геномика
- отримати
- GitHub
- Давати
- дає
- Глобальний
- Google Пошук
- Уряд
- графіка
- винний
- має
- he
- здоров'я
- почутий
- корисний
- допомогу
- допомагає
- тут
- високоякісний
- дуже
- його
- господар
- хостів
- Як
- How To
- Однак
- HTML
- HTTPS
- людина
- Гуманітарний
- Я БУДУ
- ICS
- ідеї
- if
- удосконалювати
- in
- includes
- У тому числі
- індикатори
- індивідуальний
- промисловості
- промисловість
- розуміння
- випадки
- інтегрований
- зацікавлений
- цікавий
- інтерфейс
- інтерв'ю
- питання інтерв'ю
- інтерв'ю
- в
- інвестування
- залучати
- питання
- IT
- ЙОГО
- журналістика
- журналісти
- json
- просто
- KDnuggets
- Знати
- знання
- праця
- ринок праці
- відсутність
- не вистачає
- останній
- вивчення
- життя
- як
- шукати
- ВИГЛЯДИ
- втрачений
- серія
- багато
- машина
- навчання за допомогою машини
- головний
- зробити
- вдалося
- ринок
- засоби
- член
- згадати
- може бути
- більше
- найбільш
- Найбільш популярний
- множинний
- my
- ім'я
- НАСА
- націй
- Необхідність
- мереж
- ніколи
- новини
- nlp
- зараз
- номер
- численний
- of
- пропонує
- Пропозиції
- Office
- часто
- on
- ONE
- онлайн
- тільки
- відкрити
- відкриті дані
- or
- організації
- організація
- інші
- власний
- пакет
- сторінок
- документи
- брати участь
- особливо
- Люди
- ідеальний
- місце
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- політика
- популярний
- населення
- Практичний
- практика
- дорогоцінний
- точно
- Готувати
- підготовка
- price
- ймовірно
- Product
- професіонали
- Професор
- програма
- проектів
- забезпечувати
- забезпечує
- громадськість
- охорона здоров'я
- мета
- цілей
- якість
- дані про якість
- питання
- питань
- досить
- діапазон
- діапазони
- Сировина
- необроблені дані
- Читати
- реальний
- регресія
- регулярний
- Сховище
- запросити
- вимагати
- дослідження
- ресурс
- ресурси
- відповідь
- REST
- результати
- Risk
- фактори ризику
- s
- говорить
- наука
- вчений
- Вчені
- Пошук
- Послуги
- Поділитись
- поділ
- Повинен
- сайт
- сайти
- навички
- So
- соціальна
- соціальні питання
- соціальні мережі
- Софтвер
- деякі
- іноді
- Source
- джерело
- Джерела
- Простір
- конкретний
- конкретно
- специфіка
- Рекламні
- SPORTS
- етапи
- статистичний
- розповідання
- Стратегія
- тема
- такі
- підходящий
- Підтриманий
- Переконайтеся
- з урахуванням
- Завдання
- Навчання
- технічний
- технічні навички
- текст
- ніж
- Що
- Команда
- світ
- їх
- Їх
- Там.
- Ці
- вони
- це
- ті
- час
- до
- сьогодні
- інструмент
- топ
- теми
- торгувати
- традиційний
- правда
- тип
- союз
- United
- Об'єднані Нації
- Всесвіт
- університет
- Університет Каліфорнії
- до
- незвичайний
- us
- нас уряд
- використання
- використовуваний
- корисний
- зручно
- користувачі
- різноманітність
- різний
- величезний
- дуже
- дуже різноманітні
- бачення
- візуалізації
- життєво важливий
- бажаючий
- було
- Багатство
- Web
- веб-сайти
- Добробут
- ДОБРЕ
- добре відомі
- який
- всі
- чий
- чому
- широкий
- Широкий діапазон
- волі
- з
- Work
- робочий
- працює
- світ
- лист
- XML
- ви
- вашу
- зефірнет
- Zip