16 najlepszych źródeł danych technicznych dla zaawansowanych projektów związanych z analizą danych - KDnuggets

16 najlepszych źródeł danych technicznych dla zaawansowanych projektów związanych z analizą danych – KDnuggets

Węzeł źródłowy: 3081921

16 najlepszych źródeł danych technicznych dla zaawansowanych projektów związanych z analizą danych
Zdjęcie autora
 

Czytałeś na tych stronach (i jestem winien napisania niektórych z tych artykułów), że projekty związane z analizą danych są kluczowe dla rozwoju całego pakietu umiejętności związanych z nauką o danych technicznych. To prawda, są. Ale istotne jest również posiadanie wysokiej jakości zbiorów danych na potrzeby projektów związanych z analizą danych. Gromadzenie danych wysokiej jakości jest po prostu jeden z etapów projektu data science, ale taki, który może go stworzyć lub złamać.

Pytanie brzmi: gdzie znaleźć te cholerne dane? Na szczęście wiele stron internetowych oferuje mnóstwo danych do różnych celów.

 

16 najlepszych źródeł danych technicznych dla zaawansowanych projektów związanych z analizą danych
Zdjęcie autora

słyszałeś o Kaggle, prawdopodobnie najbardziej znana platforma w społeczności analityki danych. Zawiera szeroką gamę zbiorów danych w różnych formatach (CSV, JSON, SQLite, BigQuery) oraz z wielu branż i tematów, takich jak zdrowie, motoryzacja, sztuka i rozrywka, biologia, nauki społeczne, inwestycje, sieci społecznościowe, sport itp. NA. Można także wyszukiwać zbiory danych w zależności od ich technicznego charakteru, np. informatyki, klasyfikacji, wizji komputerowej, NLP lub wizualizacji danych.

Obecnie dostępnych jest 274,855 XNUMX zbiorów danych, zatem na pewno nie zabraknie Ci danych.

Przyjazny dla użytkownika interfejs Kaggle i aktywne fora społeczności sprawiają, że jest to doskonałe źródło informacji zarówno dla początkujących, jak i profesjonalistów.

Jeśli jesteś entuzjastą uczenia maszynowego, Repozytorium uczenia maszynowego UCI powinna być Twoją ulubioną witryną. Jak sama nazwa wskazuje, repozytorium to zostało utworzone przez Uniwersytet Kalifornijski w Irvine (UCI). Zebrali obszerny zbiór zbiorów danych dostosowanych do uczenia maszynowego. Ponieważ zbiory danych obejmują różne tematy, są one szczególnie przydatne. Te zbiory danych obejmują szeroki zakres tematów i są szczególnie przydatne dla osób, które chcą ćwiczyć i doskonalić swoje umiejętności uczenia maszynowego.

Obecnie istnieją 653 zbiory danych; możesz je przeglądać według typu danych, obszaru tematycznego, zadania, liczby funkcji i instancji oraz typu funkcji.

StrataScratch udostępnia 49 zbiorów danych i projektów pochodzących od rzeczywistych firm. Jest to szczególnie korzystne dla osób przygotowujących się do rozmów kwalifikacyjnych w zakresie analityki danych, ponieważ pomaga użytkownikom rozwijać umiejętności techniczne i umiejętność wyciągania wniosków biznesowych z danych. Pozwala to na praktyczne i istotne dla branży podejście do projektów związanych z nauką o danych.

Projekty obejmują różne tematy, takie jak eksploracja danych, inżynieria danych, analiza biznesowa, regresja, klasyfikacja, NLP i klastrowanie.

Wyszukiwanie zbiorów danych Google to narzędzie, którego zadaniem jest wyszukiwanie zbiorów danych w Internecie. Już wiesz, jak z niego korzystać, nawet jeśli do tej pory o tym nie słyszałeś. Dlaczego? Cóż, wygląda i działa jak zwykła wyszukiwarka Google, z tą różnicą, że koncentruje się wyłącznie na wyszukiwaniu zbiorów danych. Jest to niezwykle przydatne, jeśli szukasz danych z różnych źródeł, artykułów naukowych i rządowych baz danych.

Amazon Publiczne zbiory danych AWS program to kolejna strona, na której można znaleźć wiele otwartych danych. Obecnie dostępne są 494 zbiory danych, co sprawia, że ​​jest to cenne źródło informacji dla analityków danych. Zbiory danych, które tam znajdziesz, można zintegrować z usługami chmurowymi AWS. Może to być przydatne, jeśli Twoje projekty wymagają większych zasobów obliczeniowych. 

Zakres dostępnych danych obejmuje między innymi genomikę, meteorologię i astronomię.

Data.gov to repozytorium danych sponsorowane przez rząd USA i zawierające dane z różnych organizacji amerykańskich. Zawiera 283,935 132 zbiorów danych ze XNUMX organizacji amerykańskich. Dostępnych jest wiele różnych danych, takich jak rolnictwo, zdrowie publiczne, finanse, edukacja, demografia, ekonomia i dane dotyczące środowiska.

Zbiory danych są dostępne w prawie 50 różnych formatach, z których najpopularniejsze obejmują HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON i TEXT.

Pięćdziesiąta Lata by ABC News to repozytorium danych i kodów artykułów i grafik. To doskonałe źródło informacji dla dziennikarzy zajmujących się danymi i wszystkich zainteresowanych opowiadaniem historii statystycznych. Jeśli interesuje Cię realizacja projektów związanych z bieżącymi wydarzeniami, polityką, sportem i nie tylko, to jest Twoje źródło. 

Oferuje ponad 160 zbiorów danych od 2014 roku do chwili obecnej.

Połączenia Otwarte dane Banku Światowego oferuje obszerne zbiory danych dotyczące globalnych danych rozwojowych. Dane te obejmują wskaźniki dotyczące gospodarki, środowiska i kwestii społecznych z krajów na całym świecie. Jeśli interesujesz się rozwojem globalnym i tematyką społeczno-ekonomiczną, możesz znaleźć tutaj wiele interesujących danych.

GitHub to nie tylko platforma do dzielenia się kodem. Można go również używać do wyszukiwania zestawów danych dla projektów danych. Wiele organizacji i użytkowników indywidualnych hostuje swoje zbiory danych w repozytoriach GitHub. Dane te obejmują szeroki zakres tematów, często poparte obszerną dokumentacją i kodem do analizy.

OtwórzML to internetowa platforma do uczenia maszynowego. Oznacza to również zapewnienie dostępu do dużej ilości danych. A dokładniej prawie 5,400 zbiorów danych. Służy do udostępniania, organizowania i omawiania danych oraz wyników eksperymentów związanych z uczeniem maszynowym. OpenML można zintegrować z popularnymi środowiskami uczenia maszynowego, co stanowi dodatkową zaletę w nauce nauki o danych. 

Połączenia Subreddit zbiorów danych jest źródłem danych kierowanym przez społeczność. Ludzie dzielą się wszystkim na Reddicie. Cóż, udostępniają także zbiory danych i żądają ich do projektów danych. Czasem ciężko tam znaleźć dane. Ale nie z powodu braku danych. Przeciwnie! Miejsce jest przepełnione danymi, co może czasami sprawić, że wyszukiwanie danych będzie dość chaotyczne. Zakres danych obejmuje zarówno bardzo szczegółowe i nietypowe, jak i bardziej tradycyjne zbiory danych. Ponieważ jest to w zasadzie forum, możesz także brać udział w dyskusjach i prosić o pomoc dotyczącą zbiorów danych. 

Urząd Statystyczny Unii Europejskiej nazywa się Eurostati jest to kompleksowe źródło danych. Jeśli interesują Cię wysokiej jakości dane statystyczne dotyczące krajów członkowskich UE, powinno to być Twoje główne źródło danych. Dane dotyczące krajów UE obejmują takie tematy, jak gospodarka, populacja, zdrowie i handel.

HDX to otwarta platforma, na której można znaleźć dane humanitarne. Zarządza nim Biuro Narodów Zjednoczonych ds. Koordynacji Spraw Humanitarnych. Platforma ta dostarcza danych dotyczących kryzysów humanitarnych i sytuacji nadzwyczajnych w każdym kraju na świecie. Może się to przydać, jeśli zajmujesz się projektami skupiającymi się na problemach globalnych, reagowaniu na katastrofy i dobrobycie ludzi.

Istnieje 20,344 2,570 aktywnych i XNUMX zarchiwizowanych zbiorów danych o różnych funkcjach i formatach.

Na CDC, możesz znaleźć dane dotyczące zdrowia. Zbiory danych skupiają się na różnych schorzeniach, czynnikach ryzyka i zdrowiu publicznym. Jeśli więc są to tematy, które Cię interesują, znajdziesz tutaj wiele przydatnych danych.

Połączenia BLS witryna zawiera wiele danych na temat warunków gospodarczych w USA, rynku pracy, zmian cen, jakości życia itp. Jeśli interesują Cię te tematy, znajdziesz wiele wysokiej jakości zbiorów danych. 

Ostatnim źródłem danych, o którym wspomnę, jest NASA. Istnieje wiele danych na temat lotnictwa, nauk stosowanych, aplikacji, nauk o Ziemi, zarządzania/operacji, surowych danych, oprogramowania i nauk o kosmosie.

Ma ponad 10,000 XNUMX zbiorów danych, więc nie zgub się w jego wszechświecie danych!

Jestem pewien, że te 16 stron internetowych zapewni Ci wystarczającą ilość danych do pracy do końca czasu, co właśnie było moim celem! Ilość danych to jednak nie wszystko.

Wybrałem te witryny, ponieważ zapewniają one bardzo zróżnicowany zakres zbiorów danych odpowiednich dla różnych projektów związanych z nauką o danych. Specyfika zbioru danych różni się w zależności od branży. Zatem praca z różnymi zbiorami danych pozwala także na zdobycie wiedzy dziedzinowej.

Niezależnie od tego, czy zajmujesz się uczeniem maszynowym, analizą danych, dziennikarstwem danych, analizą statystyczną czy wizualizacją danych, zawsze możesz liczyć na te zasoby.

Teraz możesz wykonać własny projekt związany z analizą danych! Jeśli potrzebujesz więcej pomysłów, oto kilka projekty z zakresu nauki o danych możesz to zrobić jako początkujący.
 
 

Nate'a Rosidiego jest analitykiem danych i strategii produktu. Jest także adiunktem wykładającym analitykę i jest założycielem StrataScratch, platforma pomagająca analitykom danych przygotować się do rozmów kwalifikacyjnych z prawdziwymi pytaniami do wywiadów z czołowymi firmami. Połącz się z nim dalej Twitter: StrataScratch or LinkedIn.

Znak czasu:

Więcej z Knuggety