16 найпопулярніших джерел технічних даних для передових проектів з обробки даних - KDnuggets

16 найпопулярніших джерел технічних даних для передових проектів з обробки даних – KDnuggets

Вихідний вузол: 3081921

16 найкращих джерел технічних даних для передових проектів Data Science
Зображення автора
 

Ви читали на цих сторінках (і я винен у тому, що написав деякі з цих статей), що проекти науки про дані мають вирішальне значення для розвитку всього пакету технічних навичок науки про дані. Це правда, вони є. Але також важливо мати високоякісні набори даних для ваших наукових проектів. Збирати якісні дані просто один із етапів проекту data science, але той, який може це зробити або зламати.

Питання в тому, де знайти ці жахливі дані? На щастя, численні веб-сайти пропонують велику кількість даних для різних цілей.

 

16 найкращих джерел технічних даних для передових проектів Data Science
Зображення автора

Ви чули про Згорнути, мабуть, найвідоміша платформа в спільноті науки про дані. Він містить величезну кількість наборів даних у різних форматах (CSV, JSON, SQLite, BigQuery) і з багатьох галузей і тем, таких як здоров’я, автомобілебудування, мистецтво та розваги, біологія, соціальні науки, інвестиції, соціальні мережі, спорт тощо. на. Ви також можете шукати набори даних залежно від їх технічної спрямованості, наприклад, інформатика, класифікація, комп’ютерне бачення, НЛП або візуалізація даних.

Наразі доступно 274,855 XNUMX наборів даних, тому вам не бракуватиме даних.

Зручний інтерфейс Kaggle та активні форуми спільноти роблять його чудовим ресурсом як для новачків, так і для професіоналів.

Якщо ви ентузіаст машинного навчання, то Репозиторій машинного навчання UCI має бути вашим сайтом переходу. Як випливає з назви, це сховище створено Каліфорнійським університетом в Ірвайні (UCI). Вони зібрали велику колекцію наборів даних, призначених для машинного навчання. Оскільки набори даних охоплюють різні теми, вони особливо корисні Ці набори даних охоплюють широкий спектр тем і особливо корисні для тих, хто хоче попрактикуватися та вдосконалити свої навички машинного навчання.

Зараз існує 653 набори даних; ви можете переглядати їх за типом даних, предметною областю, завданням, кількістю функцій і екземплярів і типом функції.

StrataScratch надає 49 наборів даних і проектів, отриманих від реальних компаній. Це особливо корисно для тих, хто готується до інтерв’ю з науки про дані, оскільки це допомагає користувачам розвивати свої технічні навички та здатність отримувати бізнес-розуміння з даних. Це дає змогу використовувати практичний і галузевий підхід до наукових проектів даних.

Проекти охоплюють різні теми, такі як дослідження даних, інженерія даних, бізнес-аналіз, регресія, класифікація, NLP і кластеризація.

Пошук у наборах даних Google це інструмент, метою якого є пошук наборів даних у мережі. Ви вже знаєте, як ним користуватися, навіть якщо ніколи про це не чули. чому Ну, він виглядає і працює як звичайний пошук Google, тільки він зосереджений виключно на пошуку наборів даних. Це надзвичайно корисно, якщо ви шукаєте дані з різних джерел, наукових статей і державних баз даних.

Amazon's Публічні набори даних AWS program — ще один сайт, де можна знайти багато відкритих даних. Наразі доступні 494 набори даних, що є цінним ресурсом для науковців із обробки даних. Набори даних, які ви там знайдете, можна інтегрувати з хмарними сервісами AWS. Це може бути корисним, якщо ваші проекти вимагають більше обчислювальних ресурсів. 

Діапазон доступних даних включає, зокрема, геноміку, метеорологію та астрономію.

Data.gov це сховище даних, яке спонсорується урядом США і містить дані від різних організацій США. Він включає 283,935 132 наборів даних від XNUMX організацій США. Існує широкий спектр даних, таких як дані про сільське господарство, охорону здоров’я, фінанси, освіту, демографію, економіку та навколишнє середовище.

Набори даних доступні майже в 50 різних форматах, серед яких найпопулярніші HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON і TEXT.

FiveThirtyEight від ABC News є сховищем даних і коду їхніх статей і графіки. Це ідеальний ресурс для журналістів даних і всіх, хто цікавиться статистикою. Якщо ви зацікавлені в проектах, пов’язаних із поточними подіями, політикою, спортом тощо, це ваше джерело. 

Він пропонує понад 160 наборів даних з 2014 року до сьогодні.

Команда Відкриті дані Світового банку пропонує широкі набори даних, що обертаються навколо даних глобального розвитку. Ці дані включають показники економіки, навколишнього середовища та соціальних питань з різних країн світу. Якщо вас цікавить глобальний розвиток і соціально-економічні теми, ви можете знайти тут багато цікавих даних.

GitHub це не лише платформа для обміну кодом. Його також можна використовувати для пошуку наборів даних для проектів даних. Багато організацій та окремих користувачів розміщують свої набори даних у сховищах GitHub. Ці дані охоплюють широкий спектр тем, часто підкріплюються великою документацією та кодом для аналізу.

OpenML це онлайн-платформа для машинного навчання. Це також означає надання доступу до великої кількості даних. Зокрема, майже 5,400 наборів даних. Він призначений для обміну, організації та обговорення даних і результатів експериментів машинного навчання. OpenML можна інтегрувати з популярними середовищами машинного навчання, що є бонусом для вашого вивчення даних. 

Команда Subreddit наборів даних є джерелом даних, керованим спільнотою. Люди діляться всім на Reddit. Ну, вони також діляться та запитують набори даних для проектів даних. Інколи важко знайти там дані. Але не через брак даних. Навпаки! Місце переповнене даними, що іноді може зробити пошук даних досить хаотичним. Дані варіюються від дуже конкретних і незвичних до більш традиційних наборів даних. Оскільки це в основному форум, ви також можете брати участь в обговореннях і просити допомоги з наборами даних. 

Називається статистичне бюро Європейського Союзу Eurostat, і це повне джерело даних. Якщо ви зацікавлені у високоякісних статистичних даних про країни-члени ЄС, це повинно бути вашим основним джерелом даних. Дані про країни ЄС включають такі теми, як економіка, населення, охорона здоров'я та торгівля.

HDX це відкрита платформа, де можна знайти гуманітарні дані. Ним керує Управління ООН з координації гуманітарних питань. Ця платформа надає дані про гуманітарні кризи та надзвичайні ситуації в кожній країні світу. Це може бути корисним, якщо ви зацікавлені в проектах, які зосереджуються на глобальних проблемах, реагуванні на катастрофи та добробуті людей.

Існує 20,344 2,570 активних і XNUMX XNUMX архівних наборів даних з різними функціями та форматами.

на CDC, ви можете знайти дані, пов’язані зі здоров’ям. Набори даних зосереджені на різних станах здоров’я, факторах ризику та громадському здоров’ї. Отже, якщо ці теми вас цікавлять, ви знайдете тут багато корисної інформації.

Команда BLS на сайті є багато даних про економічні умови США, ринок праці, зміни цін, якість життя тощо. Якщо вам цікаві ці теми, ви знайдете багато якісних наборів даних. 

Останнє джерело даних, яке я згадаю NASA. Є багато даних про аерокосмічну, прикладну науку, програми, науку про Землю, управління/операції, необроблені дані, програмне забезпечення та космічну науку.

Він містить понад 10,000 XNUMX наборів даних, тож не заблукайте у його всесвіті даних!

Ці 16 веб-сайтів, я впевнений, дадуть вам достатньо даних для роботи до кінця часів, що і було моєю метою! Однак кількість даних - це ще не все.

Я вибрав ці сайти, оскільки вони нададуть вам дуже різноманітні набори даних, придатні для різноманітних наукових проектів. Специфіка набору даних відрізняється від галузі до галузі. Отже, робота з різними наборами даних також дозволяє отримати знання предметної області.

Незалежно від того, чи займаєтеся ви машинним навчанням, аналізом даних, журналістикою даних, статистичним аналізом або візуалізацією даних, ви завжди можете розраховувати на ці ресурси.

Тепер ви можете створити свій власний науковий проект! Якщо вам потрібні додаткові ідеї, ось деякі проекти науки про дані ви можете зробити як новачок.
 
 

Нейт Розіді є фахівцем із даних та стратегією продукту. Він також є ад’юнкт-професором, який викладає аналітику, і є засновником StrataScratch, платформа, яка допомагає науковцям з даних готуватися до інтерв’ю з реальними запитаннями для інтерв’ю від провідних компаній. Зв'яжіться з ним Twitter: StrataScratch or LinkedIn.

Часова мітка:

Більше від KDnuggets