著者による画像
これらのページで、データ サイエンス プロジェクトが技術的なデータ サイエンス スキルのパッケージ全体を開発するために重要であることを読んだことがあるでしょう (私もそれらの記事のいくつかを書いています)。それは本当です、彼らはそうです。しかし、データ サイエンス プロジェクトに高品質のデータセットを用意することも重要です。質の高いデータを収集することは、 データ サイエンス プロジェクトの段階の 1 つ、しかし、それを成功させるか壊すことができるものです。
問題は、この膨大なデータをどこで見つけられるかということです。幸いなことに、多数の Web サイトがさまざまな目的に豊富なデータを提供しています。
著者による画像
あなたはについて聞いた Kaggle、おそらくデータ サイエンス コミュニティで最もよく知られたプラットフォームです。さまざまな形式 (CSV、JSON、SQLite、BigQuery) で、健康、自動車、芸術とエンターテイメント、生物学、社会科学、投資、ソーシャル ネットワーク、スポーツなどの複数の業界やトピックからの膨大なデータセットをホストしています。の上。また、コンピューター サイエンス、分類、コンピューター ビジョン、NLP、データ視覚化などの技術的焦点に応じてデータセットを検索することもできます。
現在、274,855 のデータセットが利用できるため、データが不足することはありません。
Kaggle のユーザーフレンドリーなインターフェイスと活発なコミュニティ フォーラムにより、Kaggle は初心者と専門家の両方にとって優れたリソースになります。
あなたが機械学習の愛好家であれば、 UCI機械学習リポジトリ あなたの頼りになるサイトになるはずです。名前が示すように、このリポジトリはカリフォルニア大学アーバイン校 (UCI) によって作成されています。彼らは、機械学習用にカスタマイズされたデータセットの広範なコレクションを収集しました。データセットはさまざまなトピックをカバーしているため、特に役立ちます。 これらのデータセットは幅広いトピックをカバーしており、機械学習スキルを練習して向上させたい人にとって特に役立ちます。
現在 653 のデータセットがあります。データ タイプ、サブジェクト領域、タスク、機能とインスタンスの数、機能タイプごとにそれらを参照できます。
ストラタスクラッチ 実際の企業から調達した 49 のデータセットとプロジェクトを提供します。これは、ユーザーの技術スキルやデータからビジネス上の洞察を引き出す能力を開発するのに役立つため、データ サイエンスの面接の準備をしている人にとって特に有益です。これにより、データ サイエンス プロジェクトに対する実践的かつ業界関連のアプローチが可能になります。
プロジェクトは、データ探索、データ エンジニアリング、ビジネス分析、回帰、分類、NLP、クラスタリングなどのさまざまなトピックをカバーしています。
Googleデータセット検索 は、Web 上のデータセットを検索することを目的としたツールです。これまで聞いたことがなくても、すでにその使い方を知っています。なぜ?見た目も動作も通常の Google 検索と同じですが、データセットの検索のみに重点を置いている点が異なります。さまざまなソース、学術論文、政府データベースからデータを探している場合に非常に便利です。
Amazonの AWS パブリック データセット プログラムは、多くのオープン データを見つけることができるもう 494 つのサイトです。現在 XNUMX のデータセットが利用可能であり、データ サイエンティストにとって貴重なリソースです。そこにあるデータセットは、AWS クラウド サービスと統合できます。これは、プロジェクトでより多くのコンピューティング リソースが必要な場合に役立つ可能性があります。
利用可能なデータには、ゲノミクス、気象学、天文学などが含まれます。
Data.gov は米国政府が後援するデータ リポジトリであり、米国のさまざまな組織からのデータが含まれています。これには、米国の 283,935 の組織からの 132 のデータセットが含まれています。農業、公衆衛生、金融、教育、人口動態、経済、環境データなど、さまざまなデータがあります。
データセットには約 50 種類の異なる形式があり、最も一般的な形式には、HTML、XML、ZIP、CSV、PDF、ArcGIS GeoServices REST API、KML、GeoJSON、JSON、TEXT が含まれます。
FiveThirtyEight by ABC News は、記事とグラフィックのデータとコードのリポジトリです。これは、データ ジャーナリストや統計的なストーリーテリングに興味がある人にとって完璧なリソースです。時事問題、政治、スポーツなどに関わるプロジェクトに興味がある場合は、これが情報源です。
160 年から現在までの 2014 以上のデータセットを提供しています。
世界銀行オープンデータ は、グローバルな開発データを中心とした広範なデータセットを提供します。このデータには、世界各国の経済、環境、社会問題に関する指標が含まれています。世界的な開発や社会経済的なトピックに興味がある場合は、ここで興味深いデータがたくさん見つかるかもしれません。
GitHubの コードを共有するためのプラットフォームだけではありません。データ プロジェクトのデータセットを検索するためにも使用できます。多くの組織や個人ユーザーが GitHub リポジトリでデータセットをホストしています。このデータは幅広いトピックをカバーしており、多くの場合、分析用の広範なドキュメントやコードによってサポートされています。
OpenML は機械学習のためのオンライン プラットフォームです。これは、大量のデータへのアクセスを可能にすることも意味します。より具体的には、約 5,400 のデータセットです。機械学習の実験のデータと結果を共有、整理、議論するために設計されています。 OpenML は一般的な機械学習環境と統合できるため、データ サイエンスの学習に有利になります。
データセットのサブレディット はコミュニティ主導のデータ ソースです。人々は reddit であらゆるものを共有します。そうですね、彼らはデータ プロジェクトのデータセットを共有したりリクエストしたりすることもあります。そこでデータを見つけるのが難しい場合があります。しかし、それはデータ不足のせいではありません。それどころか!この場所にはデータが溢れているため、データの検索が非常に混乱することがあります。データは、非常に特殊で珍しいものから、より伝統的なデータセットまで多岐にわたります。これは基本的にフォーラムであるため、ディスカッションに参加したり、データセットに関する支援を求めることもできます。
欧州連合の統計局は次のように呼ばれます。 ユーロスタット、そしてそれは包括的なデータソースです。 EU 加盟国に関する高品質の統計データに興味がある場合は、これが主要なデータ ソースとなるはずです。 EU 諸国に関するデータには、経済、人口、健康、貿易などのトピックが含まれます。
HDX は、人道的データを見つけることができるオープン プラットフォームです。国連人道問題調整事務所が管理しています。このプラットフォームは、世界各国の人道危機や緊急事態を中心としたデータを提供します。地球規模の問題、災害対応、人類の福祉に焦点を当てたプロジェクトに興味がある場合は、これが役立つかもしれません。
さまざまな機能と形式を備えた 20,344 のアクティブなデータセットと 2,570 のアーカイブされたデータセットがあります。
ソフトウェア設定ページで、下図のように CDC、健康関連のデータを見つけることができます。データセットは、さまざまな健康状態、リスク要因、公衆衛生に焦点を当てています。したがって、これらのトピックに興味がある場合は、ここで多くの有用なデータを見つけることができます。
BLS このサイトには、米国の経済状況、労働市場、物価変動、生活の質などに関する大量のデータが含まれています。これらのトピックに興味がある場合は、質の高いデータセットがたくさん見つかるでしょう。
最後に言及するデータソースは次のとおりです。 米航空宇宙局(NASA)。航空宇宙、応用科学、アプリ、地球科学、管理/運用、生データ、ソフトウェア、宇宙科学に関するデータがたくさんあります。
10,000 を超えるデータセットがあるため、データの世界に迷わないようにしてください。
これら 16 の Web サイトは、終末まで作業するのに十分なデータを提供してくれると確信しています。これがまさに私の目標でした。ただし、データ量がすべてではありません。
これらのサイトを選択したのは、さまざまなデータ サイエンス プロジェクトに適した非常に多様なデータセットを提供するためです。データセットの詳細は業界ごとに異なります。したがって、さまざまなデータセットを操作することで、ドメインの知識を得ることができます。
機械学習、データ分析、データ ジャーナリズム、統計分析、データ視覚化のいずれを深く掘り下げている場合でも、これらのリソースを常に活用できます。
これで、独自のデータ サイエンス プロジェクトを実行できるようになりました。さらにアイデアが必要な場合は、ここにいくつかあります データサイエンスプロジェクト 初心者でもできます。
ネイト・ロシディ データサイエンティストであり、製品戦略に携わっています。 彼はまた、分析を教える非常勤教授であり、 ストラタスクラッチ、データサイエンティストがトップ企業からの実際の面接の質問で面接の準備をするのを支援するプラットフォーム。 彼とつながる Twitter:StrataScratch or LinkedIn.
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/top-16-technical-data-sources-for-advanced-data-science-projects?utm_source=rss&utm_medium=rss&utm_campaign=top-16-technical-data-sources-for-advanced-data-science-projects
- :持っている
- :は
- :not
- :どこ
- 000
- 10
- 16
- 160
- 20
- 2014
- 400
- 49
- 50
- a
- ABC
- 能力
- 私たちについて
- それについて
- アカデミック
- アクセス
- 越えて
- アクティブ
- 実際の
- 付属
- 高度な
- 航空宇宙
- 業務
- 農業
- ことができます
- ほとんど
- 既に
- また
- 常に
- 間で
- 量
- an
- 分析
- 分析論
- および
- 別の
- 誰も
- API
- 適用された
- アプローチ
- アプリ
- です
- AREA
- 周りに
- 配列
- 物品
- 芸術
- AS
- 頼む
- 援助
- 天文学
- 自動車
- 利用できます
- AWS
- 銀行
- 基本的に
- BE
- なぜなら
- 初級
- 初心者
- 有益な
- ビッグクエリ
- 生物学
- ボーナス
- 両言語で
- ブレーク
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- カリフォルニア州
- 呼ばれます
- 缶
- CDC
- 変更
- 選ばれた
- 分類
- クラウド
- クラウドサービス
- クラスタリング
- コード
- 収集
- コレクション
- COM
- 来ます
- コミュニティ
- コミュニティ主導
- 企業
- 包括的な
- コンピュータ
- コンピュータサイエンス
- Computer Vision
- コンピューティング
- 条件
- お問合せ
- 含まれています
- コーディネーション
- 可能性
- カウント
- 国
- 国
- カバー
- カバー
- 作成した
- 危機
- 重大な
- 電流プローブ
- 現在
- データ
- データ分析
- データサイエンス
- データサイエンティスト
- データの可視化
- データベースを追加しました
- データセット
- 人口動態
- によっては
- 派生する
- 設計
- 開発する
- 開発
- 開発
- 異なる
- 異なります
- 難しい
- 災害
- 議論
- 議論
- 異なる
- do
- ドキュメント
- すること
- ドメイン
- ドント
- e
- EARTH
- 経済
- 経済状況
- Economics
- 経済
- 教育
- end
- エンジニアリング
- 十分な
- エンターテインメント
- 熱狂者
- 環境
- 環境の
- 環境
- 特に
- 等
- エーテル(ETH)
- EU
- ヨーロッパ
- 欧州言語
- 欧州連合
- さらに
- イベント
- あらゆる
- すべてのもの
- 優れた
- 排他的に
- 実験
- 探査
- 広範囲
- 非常に
- 要因
- 特徴
- 特徴
- ファイナンス
- もう完成させ、ワークスペースに掲示しましたか?
- 発見
- フォーカス
- 焦点を当て
- 焦点
- 幸いにも
- フォーラム
- フォーラム
- AIとMoku
- から
- 利得
- ゲノミクス
- 取得する
- GitHubの
- 与える
- 与え
- グローバル
- でログイン
- グーグル検索
- 政府・公共機関
- グラフィック
- 罪を犯しました
- 持って
- he
- 健康
- 聞いた
- 役立つ
- 助け
- ことができます
- こちら
- 高品質
- 非常に
- 彼に
- host
- ホスト
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 人間
- 人道的な
- 私は
- ICS
- 考え
- if
- 改善します
- in
- 含ま
- 含めて
- インジケータ
- 個人
- 産業
- 産業を変えます
- 洞察
- インスタンス
- 統合された
- 興味がある
- 興味深い
- インタフェース
- インタビュー
- 面接の質問
- 記事執筆
- に
- 投資
- 巻き込む
- 問題
- IT
- ITS
- ジャーナリズム
- ジャーナリスト
- JSON
- ただ
- KDナゲット
- 知っている
- 知識
- 労働
- 労働市場
- 欠如
- 欠けている
- 姓
- 学習
- 生活
- ような
- 探して
- LOOKS
- 失われた
- たくさん
- たくさん
- 機械
- 機械学習
- メイン
- make
- マネージド
- 市場
- 手段
- メンバー
- 言及
- かもしれない
- 他には?
- 最も
- 一番人気
- の試合に
- my
- 名
- 米航空宇宙局(NASA)
- 国連
- 必要
- ネットワーク
- 決して
- ニュース
- NLP
- 今
- 数
- 多数の
- of
- 提供すること
- オファー
- Office
- 頻繁に
- on
- ONE
- オンライン
- の
- 開いた
- 開いているデータ
- or
- 組織
- 整理する
- その他
- 自分の
- パッケージ
- ページ
- 論文
- 参加する
- 特に
- のワークプ
- 完璧
- 場所
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 政治
- 人気
- 人口
- 実用的
- 練習
- 貴重な
- 正確に
- 準備
- 準備中
- ブランド
- 多分
- プロダクト
- 専門家
- 東京大学大学院海洋学研究室教授
- 演奏曲目
- プロジェクト(実績作品)
- 提供します
- は、大阪で
- 公共
- 公衆衛生
- 目的
- 目的
- 品質
- 品質データ
- 質問
- 質問
- 非常に
- 範囲
- 範囲
- Raw
- 生データ
- 読む
- リアル
- 回帰
- レギュラー
- 倉庫
- 要求
- 必要とする
- 研究
- リソースを追加する。
- リソース
- 応答
- REST
- 結果
- リスク
- 危険因子
- s
- 言う
- 科学
- 科学者
- 科学者たち
- を検索
- サービス
- シェアする
- シェアリング
- すべき
- ウェブサイト
- サイト
- スキル
- So
- 社会
- 社会問題
- ソーシャルネットワーク
- ソフトウェア
- 一部
- 時々
- ソース
- 調達
- ソース
- スペース
- 特定の
- 特に
- 詳細
- スポンサー
- スポーツ
- ステージ
- 統計的
- ストーリーテリング
- 戦略
- テーマ
- そのような
- 適当
- サポート
- 確か
- テーラード
- 仕事
- ティーチング
- 技術的
- 技術的なスキル
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- 世界
- アプリ環境に合わせて
- それら
- そこ。
- ボーマン
- 彼ら
- この
- それらの
- 時間
- 〜へ
- 今日
- ツール
- top
- トピック
- トレード
- 伝統的な
- true
- type
- 組合
- ユナイテッド
- 国連
- 宇宙
- 大学
- カリフォルニア大学
- まで
- 珍しいです
- us
- 私たち政府
- つかいます
- 中古
- 便利
- 「DeckleBenchは非常に使いやすく最適なソリューションを簡単に見つけることができるため、稼働率が向上しコストも削減した。当社の旧システムは良かったが改善は期待していなかった。
- users
- 多様
- さまざまな
- 広大な
- 非常に
- 非常に多様
- ビジョン
- 可視化
- 極めて重要な
- 欲しい
- ました
- 富
- ウェブ
- ウェブサイト
- 福祉
- WELL
- 周知
- which
- 全体
- その
- なぜ
- ワイド
- 広い範囲
- 意志
- 仕事
- ワーキング
- 作品
- 世界
- 書き込み
- XML
- 貴社
- あなたの
- ゼファーネット
- 〒