poloniex-acgrees-to-settle-with-the-sec-for-more-than-10m.png

なぜ、どのように「生産データサイエンス」を学ぶ必要がありますか?

ソースノード: 1858780

ゴールドブログなぜ、どのように「生産データサイエンス」を学ぶ必要がありますか?

プロダクティブ データ サイエンスとは何ですか?またそのコンポーネントにはどのようなものがありますか?




画像ソースPixabay (無料画像)

データサイエンスワークフローの効率化

 
データ サイエンスと機械学習は、さまざまな程度の効率と生産性で実践できます。 アプリケーション分野や専門分野に関係なく、データサイエンティストは、初心者であろうと経験豊富な専門家であろうと、次のことを行うよう努める必要があります。 効率を高める 典型的なデータサイエンスタスクのあらゆる側面において、

  • 統計分析、
  • 視覚化、
  • モデルの選択、特徴量エンジニアリング、
  • コード品質テスト、モジュール化、
  • 並列処理、
  • 簡単な Web アプリの導入



画像ソースPixabay (無料画像)

 

これは、これらのタスクをすべて実行することを意味します。

  • より高速で
  • より高速なデバッグ
  • 同期した方法で
  • 利用可能なあらゆるハードウェア リソースを最大限に活用することで、

このプロセスで何を学ぶことが期待できますか?

 
誰かが「」を教えていると想像してみましょう。生産的なデータサイエンス」コースを受講するか、それに関する本を執筆します。言語フレームワークとして Python を使用します。 このようなコースや書籍から一般的に期待されることは何でしょうか?



画像ソースPixabay (無料画像)

 

このコース/本は、次のことを希望する人を対象としています。 標準的なやり方を飛び越える データ サイエンスと機械学習のタスクを実行し、Python データ サイエンス エコシステムの全領域を利用して、より高いレベルの生産性を実現します。

読者は、標準プロセスの非効率性やボトルネックに注意する方法と、既成概念にとらわれずに考える方法を学ぶ必要があります。

反復的なデータサイエンスタスクの自動化 これは、読者がこの本を読むことで培われる重要な考え方です。 多くの場合、Python エコシステムにすでに存在しているものの、標準的なデータ サイエンスでは教えられていない高度なソフトウェア ツールを利用して、既存のコーディング手法を拡張して大規模なデータセットを高効率で処理する方法も学びます。

これは、Numpy や Pandas のような標準ライブラリを教える通常の Python クックブックであってはなりません。

むしろ、次のような便利なテクニックに重点を置く必要があります。 メモリ使用量と実行速度を測定する ML モデルの、 品質テスト データサイエンスパイプライン、 モジュール化する アプリ開発のためのデータ サイエンス パイプラインなど。また、非常に便利な Python ライブラリもカバーする必要があります。 自動化する および スピードアップ データサイエンティストの日常業務。

さらに、データ サイエンティストを支援するツールやパッケージについても触れるべきです。 大規模で複雑なデータセットへの取り組み 標準的な Python データ サイエンス テクノロジの知恵に従った場合に可能だった方法よりも、はるかに最適な方法で実現できます。

習得すべき具体的なスキル

 



画像ソースPixabay (無料画像)

 

具体的に言うと、学習と実践のために習得すべき具体的なスキルをいくつかまとめてみましょう。 生産的なデータサイエンス。 各スキルの参考となる代表的な記事へのリンクも載せてみました。

  1.  データサイエンス用の高速かつ効率的なコードを作成する/ML とその速度と効率を測定する方法 (この記事を参照してください)
  2. 生産性を向上させるためにモジュール化された表現力豊かなデータ サイエンス パイプラインを構築する方法 (この記事を参照してください)
  3. データ サイエンスと ML モデルのテスト モジュールを作成する方法 (この記事を参照してください)
  4. 大規模で複雑なデータセットを効率的に処理する方法 (従来の DS ツールでは困難でした)
  5. 特殊なディープラーニング モデリングだけでなく、あらゆる種類のデータ サイエンスや分析タスクに GPU とマルチコア プロセッサを最大限に活用する方法 (この記事を参照してください)
  6. データ サイエンス/ML のアイデアまたはモデルのチューニングのデモ用の簡単な GUI アプリを作成する方法 (この記事を参照してください)、またはアプリレベルで ML モデルとデータ分析コードを簡単に (そして迅速に) デプロイする方法 (この記事を参照してください)

このトピックに関する理想的な本は…

 



画像ソースPixabay (無料画像)

 

  1. 気をつける方法を教える 非効率性とボトルネック 標準的なデータ サイエンス コードと、それらの問題を解決するために既成概念を超えて考える方法について説明します。
  2. 探索的データ分析、視覚化、深層学習など、さまざまな状況で生産性を向上させる、モジュール化された効率的なデータ分析および機械学習コードの作成方法を学びます。
  3. ソフトウェアテスト、モジュール開発、 GUIプログラミングML モデルのデプロイメント これらは、新進気鋭のデータ サイエンティストにとって非常に貴重なスキルセットであり、標準的なデータ サイエンス書籍でまとめて見つけるのは困難です。
  4. 並列コンピューティングをカバーします (例: ダスク、レイ)、スケーラビリティ(例: ヴェクス、モディン)、および GPU を利用したデータ サイエンス スタック (急流) 実践的な例を示します。
  5. より広範な側面につながるデータ サイエンス ツールの、より大きく拡大し続ける Python エコシステムを読者に公開し、案内します。 ソフトウェア工学 そして実稼働レベルの展開。

具体的な例: GPU を活用した分散型データ サイエンス

 
GPU と分散コンピューティングの使用は、コア AI/ML タスクに関して学界やビジネス界で広く議論されていますが、通常のデータ サイエンスやデータ エンジニアリング タスクにおける GPU の有用性についてはあまり取り上げられていません。 ただし、日常的な統計分析やその他のデータ サイエンス タスクに GPU を使用すると、ことわざの実現に向けて大いに役立ちます。 「生産的なデータサイエンティスト」"

例えば、 ソフトウェア ライブラリと API の RAPIDS スイート 通常のデータサイエンティスト (必ずしもディープラーニングの実践者である必要はない) に、実行するためのオプションと柔軟性を提供します。 エンドツーエンドのデータ サイエンスと分析のパイプラインは完全に GPU 上にあります。



画像ソース: 著者作成のコラージュ

 

これらのライブラリは、控えめな GPU で使用した場合でも、通常の Python ライブラリと比べて速度が大幅に向上します。 当然のことながら、私たちはできる限りこれらを受け入れる必要があります。 生産的なデータサイエンス ワークフロー。


 

同様に、Python 言語のシングルコアの性質の限界を超えて、典型的なデータ サイエンティストのペルソナから離れることなく並列コンピューティング パラダイムを受け入れる優れたオープンソースの機会があります。



画像ソース: 著者作成のコラージュ

まとめ

 
のユーティリティとコアコンポーネントについて説明しました。 生産的なデータサイエンス ワークフロー。 私たちは、このテーマに関する理想的なコースや本が読者にどのようなものを提供するかを想像しました。 いくつかの具体例に触れ、メリットを説明しました。 いくつかの関連リソースも、習得すべきスキルの文脈で提供されています。

作者を確認できます GitHubの リポジトリ 機械学習とデータサイエンスのコード、アイデア、リソース。 私と同じように、AI /機械学習/データサイエンスに情熱を持っている場合は、お気軽に LinkedInに追加してください or Twitterで私に従ってください.

 
元の。 許可を得て転載。

関連する

出典: https://www.kdnuggets.com/2021/07/learn-production-data-science.html

タイムスタンプ:

より多くの KDナゲット