고급 데이터 과학 프로젝트를 위한 상위 16개 기술 데이터 소스 - KDnuggets

고급 데이터 과학 프로젝트를 위한 상위 16개 기술 데이터 소스 – KDnuggets

소스 노드 : 3081921

고급 데이터 과학 프로젝트를 위한 상위 16개 기술 데이터 소스
작성자 별 이미지
 

여러분은 이 페이지에서 데이터 과학 프로젝트가 기술 데이터 과학 기술의 전체 패키지를 개발하는 데 중요하다는 내용을 읽었습니다(그리고 저는 그러한 기사 중 일부를 쓴 것입니다). 그건 사실이에요. 그러나 또한 중요한 것은 데이터 과학 프로젝트를 위한 고품질 데이터 세트를 보유하는 것입니다. 양질의 데이터를 수집하는 것은 단지 데이터 과학 프로젝트의 단계 중 하나, 그러나 그것을 만들거나 깨뜨릴 수 있는 것입니다.

문제는 이 끔찍한 데이터를 어디서 찾을 수 있느냐는 것입니다. 다행스럽게도 수많은 웹사이트에서 다양한 목적으로 풍부한 데이터를 제공하고 있습니다.

 

고급 데이터 과학 프로젝트를 위한 상위 16개 기술 데이터 소스
작성자 별 이미지

당신은 카글, 아마도 데이터 과학 커뮤니티에서 가장 잘 알려진 플랫폼일 것입니다. 다양한 형식(CSV, JSON, SQLite, BigQuery)과 건강, 자동차, 예술 및 엔터테인먼트, 생물학, 사회 과학, 투자, 소셜 네트워크, 스포츠 등 다양한 산업 및 주제의 광범위한 데이터세트를 호스팅합니다. 에. 컴퓨터 과학, 분류, 컴퓨터 비전, NLP 또는 데이터 시각화 등 기술적 초점에 따라 데이터 세트를 검색할 수도 있습니다.

현재 사용 가능한 데이터 세트는 274,855개이므로 데이터가 부족하지 않습니다.

Kaggle의 사용자 친화적인 인터페이스와 활발한 커뮤니티 포럼은 초보자와 전문가 모두에게 훌륭한 리소스입니다.

머신러닝을 좋아하는 분이라면 UCI 머신 러닝 리포지토리 귀하의 방문 사이트가 되어야 합니다. 이름에서 알 수 있듯이 이 저장소는 University of California, Irvine(UCI)에서 생성되었습니다. 그들은 기계 학습에 맞춰진 광범위한 데이터 세트 컬렉션을 수집했습니다. 데이터 세트는 다양한 주제를 다루기 때문에 특히 유용합니다. 이 데이터 세트는 광범위한 주제를 다루며 기계 학습 기술을 연습하고 향상시키려는 사람들에게 특히 유용합니다.

현재 653개의 데이터 세트가 있습니다. 데이터 유형, 주제 영역, 작업, 기능 및 인스턴스 수, 기능 유형별로 찾아볼 수 있습니다.

스트라타스크래치 실제 기업에서 가져온 49개의 데이터세트와 프로젝트를 제공합니다. 이는 사용자가 데이터에서 비즈니스 통찰력을 도출하는 기술과 능력을 개발하는 데 도움이 되므로 데이터 과학 인터뷰를 준비하는 사람들에게 특히 유용합니다. 이를 통해 데이터 과학 프로젝트에 대한 실용적이고 산업 관련 접근 방식이 가능해졌습니다.

프로젝트는 데이터 탐색, 데이터 엔지니어링, 비즈니스 분석, 회귀, 분류, NLP 및 클러스터링과 같은 다양한 주제를 다룹니다.

구글 데이터세트 검색 웹에서 데이터 세트를 찾는 것이 목적인 도구입니다. 지금까지 들어본 적이 없더라도 이미 사용 방법을 알고 있습니다. 왜? 글쎄요, 일반 Google 검색처럼 보이고 작동하지만 데이터 세트를 찾는 데만 초점을 맞추고 있습니다. 다양한 소스, 학술 논문, 정부 데이터베이스에서 데이터를 찾는 경우 매우 유용합니다.

아마존 AWS 공개 데이터 세트 프로그램은 많은 공개 데이터를 찾을 수 있는 또 다른 사이트입니다. 현재 494개의 데이터 세트를 사용할 수 있어 데이터 과학자에게 귀중한 리소스입니다. 여기에서 찾은 데이터 세트는 AWS 클라우드 서비스와 통합될 수 있습니다. 프로젝트에 더 많은 컴퓨팅 리소스가 필요한 경우 이는 도움이 될 수 있습니다. 

사용 가능한 데이터 범위에는 유전체학, 기상학, 천문학 등이 포함됩니다.

Data.gov 미국 정부가 후원하는 데이터 저장소이며 다양한 미국 조직의 데이터가 포함되어 있습니다. 여기에는 283,935개 미국 조직의 132개 데이터 세트가 포함되어 있습니다. 농업, 공중 보건, 금융, 교육, 인구통계, 경제, 환경 데이터 등 다양한 데이터가 있습니다.

데이터세트는 HTML, XML, ZIP, CSV, PDF, ArcGIS GeoServices REST API, KML, GeoJSON, JSON, TEXT를 포함하여 가장 널리 사용되는 약 50가지 형식으로 제공됩니다.

FiveThirtyEight ABC News의 기사와 그래픽의 데이터 및 코드 저장소입니다. 데이터 저널리스트와 통계 스토리텔링에 관심이 있는 모든 사람에게 완벽한 리소스입니다. 시사, 정치, 스포츠 등과 관련된 프로젝트를 수행하는 데 관심이 있다면 이것이 바로 출처입니다. 

160년부터 현재까지 2014개 이상의 데이터 세트를 제공합니다.

XNUMXD덴탈의 세계 은행 오픈 데이터 글로벌 개발 데이터를 중심으로 한 광범위한 데이터 세트를 제공합니다. 이 데이터에는 전 세계 국가의 경제, 환경, 사회 문제에 대한 지표가 포함되어 있습니다. 글로벌 개발과 사회 경제적 주제에 관심이 있다면 여기에서 흥미로운 데이터를 많이 찾을 수 있습니다.

GitHub의 는 단지 코드 공유를 위한 플랫폼이 아닙니다. 데이터 프로젝트를 위한 데이터 세트를 찾는 데에도 사용할 수 있습니다. 많은 조직과 개인 사용자가 GitHub 리포지토리에서 데이터 세트를 호스팅합니다. 이 데이터는 광범위한 주제를 다루며, 종종 분석을 위한 광범위한 문서와 코드를 통해 지원됩니다.

오픈ML 머신러닝을 위한 온라인 플랫폼입니다. 이는 또한 많은 데이터에 대한 액세스 권한을 제공한다는 의미이기도 합니다. 좀 더 구체적으로 말하면 거의 5,400개의 데이터세트입니다. 머신러닝 실험의 데이터와 결과를 공유, 구성, 논의하기 위해 설계되었습니다. OpenML은 널리 사용되는 기계 학습 환경과 통합될 수 있으며 이는 데이터 과학 학습을 위한 보너스입니다. 

XNUMXD덴탈의 데이터 세트 하위 레딧 커뮤니티 중심의 데이터 소스입니다. 사람들은 Reddit에서 모든 것을 공유합니다. 글쎄, 그들은 또한 데이터 프로젝트를 위한 데이터 세트를 공유하고 요청합니다. 때로는 거기에서 데이터를 찾기가 어렵습니다. 하지만 데이터가 부족해서가 아니다. 반대로! 그 장소는 데이터로 가득 차 있어 때로는 데이터 검색이 상당히 혼란스러울 수 있습니다. 데이터는 매우 구체적이고 특이한 것부터 보다 전통적인 데이터세트까지 다양합니다. 이는 기본적으로 포럼이므로 토론에 참여하고 데이터 세트에 대한 도움을 요청할 수도 있습니다. 

유럽연합 통계청의 이름은 다음과 같습니다. Eurostat이며 포괄적인 데이터 소스입니다. EU 회원국에 대한 고품질 통계 데이터에 관심이 있다면 이것이 주요 데이터 소스가 되어야 합니다. EU 국가에 대한 데이터에는 경제, 인구, 건강, 무역 등의 주제가 포함됩니다.

HDX 인도주의적 데이터를 찾아볼 수 있는 오픈 플랫폼입니다. 유엔 인도주의업무조정국이 관리한다. 이 플랫폼은 전 세계 모든 국가의 인도주의적 위기 및 긴급 상황에 관한 데이터를 제공합니다. 글로벌 문제, 재해 대응, 인간 복지에 초점을 맞춘 프로젝트에 참여하는 경우 이 기능이 유용할 수 있습니다.

다양한 기능과 형식을 갖춘 20,344개의 활성 데이터세트와 2,570개의 보관된 데이터세트가 있습니다.

CDC, 건강과 관련된 데이터를 찾아보실 수 있습니다. 데이터 세트는 다양한 건강 상태, 위험 요인 및 공중 보건에 중점을 두고 있습니다. 따라서 이러한 주제에 관심이 있다면 여기에서 유용한 데이터를 많이 찾을 수 있습니다.

XNUMXD덴탈의 BLS 사이트에는 미국 경제 상황, 노동 시장, 물가 변화, 삶의 질 등에 관한 많은 데이터가 있습니다. 해당 주제에 관심이 있다면 고품질 데이터 세트를 많이 찾을 수 있습니다. 

제가 언급할 마지막 데이터 소스는 NASA. 항공우주, 응용 과학, 앱, 지구 과학, 관리/운영, 원시 데이터, 소프트웨어 및 우주 과학에 대한 많은 데이터가 있습니다.

10,000개 이상의 데이터 세트가 있으므로 데이터의 세계에서 길을 잃지 마세요!

이 16개 웹사이트는 여러분에게 시간이 끝날 때까지 작업할 수 있는 충분한 데이터를 제공할 것이라고 확신합니다. 이것이 바로 제 목표였습니다! 그러나 데이터의 양이 전부는 아닙니다.

저는 다양한 데이터 과학 프로젝트에 적합한 매우 다양한 데이터세트를 제공할 것이기 때문에 이 사이트를 선택했습니다. 데이터 세트 세부 사항은 업계마다 다릅니다. 따라서 다양한 데이터 세트를 사용하여 작업하면 도메인 지식을 얻을 수도 있습니다.

기계 학습, 데이터 분석, 데이터 저널리즘, 통계 분석 또는 데이터 시각화를 탐구하는 경우 언제든지 이러한 리소스를 활용할 수 있습니다.

이제 나만의 데이터 과학 프로젝트를 수행할 수 있습니다! 더 많은 아이디어가 필요하면 다음을 참조하세요. 데이터 과학 프로젝트 초보자도 할 수 있습니다.
 
 

네이트 로시디 데이터 과학자이자 제품 전략 분야의 전문가입니다. 그는 분석을 가르치는 겸임 교수이기도 하며, 스트라타스크래치, 데이터 사이언티스트가 상위 기업의 실제 인터뷰 질문을 통해 인터뷰를 준비하는 데 도움이 되는 플랫폼입니다. 그와 연결 트위터: StrataScratch or 링크드인.

타임 스탬프 :

더보기 너 겟츠