高度なデータサイエンスプロジェクトのトップ 16 テクニカルデータソース - KDnuggets

プラトン再発行

フォロワー： 0

高度なデータサイエンスプロジェクトの技術データソーストップ 16
著者による画像

これらのページで、データサイエンスプロジェクトが技術的なデータサイエンススキルのパッケージ全体を開発するために重要であることを読んだことがあるでしょう (私もそれらの記事のいくつかを書いています)。それは本当です、彼らはそうです。しかし、データサイエンスプロジェクトに高品質のデータセットを用意することも重要です。質の高いデータを収集することは、データサイエンスプロジェクトの段階の 1 つ、しかし、それを成功させるか壊すことができるものです。

問題は、この膨大なデータをどこで見つけられるかということです。幸いなことに、多数の Web サイトがさまざまな目的に豊富なデータを提供しています。

高度なデータサイエンスプロジェクトの技術データソーストップ 16
著者による画像

あなたはについて聞いた Kaggle、おそらくデータサイエンスコミュニティで最もよく知られたプラットフォームです。さまざまな形式 (CSV、JSON、SQLite、BigQuery) で、健康、自動車、芸術とエンターテイメント、生物学、社会科学、投資、ソーシャルネットワーク、スポーツなどの複数の業界やトピックからの膨大なデータセットをホストしています。の上。また、コンピューターサイエンス、分類、コンピュータービジョン、NLP、データ視覚化などの技術的焦点に応じてデータセットを検索することもできます。

現在、274,855 のデータセットが利用できるため、データが不足することはありません。

Kaggle のユーザーフレンドリーなインターフェイスと活発なコミュニティフォーラムにより、Kaggle は初心者と専門家の両方にとって優れたリソースになります。

あなたが機械学習の愛好家であれば、 UCI機械学習リポジトリあなたの頼りになるサイトになるはずです。名前が示すように、このリポジトリはカリフォルニア大学アーバイン校 (UCI) によって作成されています。彼らは、機械学習用にカスタマイズされたデータセットの広範なコレクションを収集しました。データセットはさまざまなトピックをカバーしているため、特に役立ちます。これらのデータセットは幅広いトピックをカバーしており、機械学習スキルを練習して向上させたい人にとって特に役立ちます。

現在 653 のデータセットがあります。データタイプ、サブジェクト領域、タスク、機能とインスタンスの数、機能タイプごとにそれらを参照できます。

ストラタスクラッチ実際の企業から調達した 49 のデータセットとプロジェクトを提供します。これは、ユーザーの技術スキルやデータからビジネス上の洞察を引き出す能力を開発するのに役立つため、データサイエンスの面接の準備をしている人にとって特に有益です。これにより、データサイエンスプロジェクトに対する実践的かつ業界関連のアプローチが可能になります。

プロジェクトは、データ探索、データエンジニアリング、ビジネス分析、回帰、分類、NLP、クラスタリングなどのさまざまなトピックをカバーしています。

Googleデータセット検索は、Web 上のデータセットを検索することを目的としたツールです。これまで聞いたことがなくても、すでにその使い方を知っています。なぜ？見た目も動作も通常の Google 検索と同じですが、データセットの検索のみに重点を置いている点が異なります。さまざまなソース、学術論文、政府データベースからデータを探している場合に非常に便利です。

Amazonの AWS パブリックデータセットプログラムは、多くのオープンデータを見つけることができるもう 494 つのサイトです。現在 XNUMX のデータセットが利用可能であり、データサイエンティストにとって貴重なリソースです。そこにあるデータセットは、AWS クラウドサービスと統合できます。これは、プロジェクトでより多くのコンピューティングリソースが必要な場合に役立つ可能性があります。

利用可能なデータには、ゲノミクス、気象学、天文学などが含まれます。

Data.gov は米国政府が後援するデータリポジトリであり、米国のさまざまな組織からのデータが含まれています。これには、米国の 283,935 の組織からの 132 のデータセットが含まれています。農業、公衆衛生、金融、教育、人口動態、経済、環境データなど、さまざまなデータがあります。

データセットには約 50 種類の異なる形式があり、最も一般的な形式には、HTML、XML、ZIP、CSV、PDF、ArcGIS GeoServices REST API、KML、GeoJSON、JSON、TEXT が含まれます。

FiveThirtyEight by ABC News は、記事とグラフィックのデータとコードのリポジトリです。これは、データジャーナリストや統計的なストーリーテリングに興味がある人にとって完璧なリソースです。時事問題、政治、スポーツなどに関わるプロジェクトに興味がある場合は、これが情報源です。

160 年から現在までの 2014 以上のデータセットを提供しています。

　世界銀行オープンデータは、グローバルな開発データを中心とした広範なデータセットを提供します。このデータには、世界各国の経済、環境、社会問題に関する指標が含まれています。世界的な開発や社会経済的なトピックに興味がある場合は、ここで興味深いデータがたくさん見つかるかもしれません。

GitHubのコードを共有するためのプラットフォームだけではありません。データプロジェクトのデータセットを検索するためにも使用できます。多くの組織や個人ユーザーが GitHub リポジトリでデータセットをホストしています。このデータは幅広いトピックをカバーしており、多くの場合、分析用の広範なドキュメントやコードによってサポートされています。

OpenML は機械学習のためのオンラインプラットフォームです。これは、大量のデータへのアクセスを可能にすることも意味します。より具体的には、約 5,400 のデータセットです。機械学習の実験のデータと結果を共有、整理、議論するために設計されています。 OpenML は一般的な機械学習環境と統合できるため、データサイエンスの学習に有利になります。

　データセットのサブレディットはコミュニティ主導のデータソースです。人々は reddit であらゆるものを共有します。そうですね、彼らはデータプロジェクトのデータセットを共有したりリクエストしたりすることもあります。そこでデータを見つけるのが難しい場合があります。しかし、それはデータ不足のせいではありません。それどころか！この場所にはデータが溢れているため、データの検索が非常に混乱することがあります。データは、非常に特殊で珍しいものから、より伝統的なデータセットまで多岐にわたります。これは基本的にフォーラムであるため、ディスカッションに参加したり、データセットに関する支援を求めることもできます。

欧州連合の統計局は次のように呼ばれます。ユーロスタット、そしてそれは包括的なデータソースです。 EU 加盟国に関する高品質の統計データに興味がある場合は、これが主要なデータソースとなるはずです。 EU 諸国に関するデータには、経済、人口、健康、貿易などのトピックが含まれます。

HDX は、人道的データを見つけることができるオープンプラットフォームです。国連人道問題調整事務所が管理しています。このプラットフォームは、世界各国の人道危機や緊急事態を中心としたデータを提供します。地球規模の問題、災害対応、人類の福祉に焦点を当てたプロジェクトに興味がある場合は、これが役立つかもしれません。

さまざまな機能と形式を備えた 20,344 のアクティブなデータセットと 2,570 のアーカイブされたデータセットがあります。

ソフトウェア設定ページで、下図のように CDC、健康関連のデータを見つけることができます。データセットは、さまざまな健康状態、リスク要因、公衆衛生に焦点を当てています。したがって、これらのトピックに興味がある場合は、ここで多くの有用なデータを見つけることができます。

　 BLS このサイトには、米国の経済状況、労働市場、物価変動、生活の質などに関する大量のデータが含まれています。これらのトピックに興味がある場合は、質の高いデータセットがたくさん見つかるでしょう。

最後に言及するデータソースは次のとおりです。米航空宇宙局（NASA）。航空宇宙、応用科学、アプリ、地球科学、管理/運用、生データ、ソフトウェア、宇宙科学に関するデータがたくさんあります。

10,000 を超えるデータセットがあるため、データの世界に迷わないようにしてください。

これら 16 の Web サイトは、終末まで作業するのに十分なデータを提供してくれると確信しています。これがまさに私の目標でした。ただし、データ量がすべてではありません。

これらのサイトを選択したのは、さまざまなデータサイエンスプロジェクトに適した非常に多様なデータセットを提供するためです。データセットの詳細は業界ごとに異なります。したがって、さまざまなデータセットを操作することで、ドメインの知識を得ることができます。

機械学習、データ分析、データジャーナリズム、統計分析、データ視覚化のいずれを深く掘り下げている場合でも、これらのリソースを常に活用できます。

これで、独自のデータサイエンスプロジェクトを実行できるようになりました。さらにアイデアが必要な場合は、ここにいくつかありますデータサイエンスプロジェクト初心者でもできます。

ネイト・ロシディ データサイエンティストであり、製品戦略に携わっています。彼はまた、分析を教える非常勤教授であり、ストラタスクラッチ、データサイエンティストがトップ企業からの実際の面接の質問で面接の準備をするのを支援するプラットフォーム。彼とつながる Twitter：StrataScratch or LinkedIn.