著者による画像
機械学習とデータ サイエンスについては多くのコースやリソースが利用できますが、データ エンジニアリングについてはほとんどありません。これにはいくつかの疑問が生じます。難しい分野なのでしょうか?低賃金を提供しているのでしょうか?他の技術者の役割と同じくらい魅力的だと思われていませんか?しかし現実には、多くの企業がデータ エンジニアリングの人材を積極的に求めており、場合によっては 200,000 万ドルを超える高額な給与を提供しています。データ エンジニアは、データ プラットフォームのアーキテクトとして重要な役割を果たし、データ サイエンティストや機械学習の専門家が効果的に機能できるようにする基礎システムを設計および構築します。
この業界のギャップに対処するために、DataTalkClub は革新的な無料ブートキャンプを導入しました。データエンジニアリングZoomcamp”。このコースは、データ エンジニアリングにおける重要なスキルと実践的な経験を身につけ、キャリアを変えようとしている初心者や専門家を支援するように設計されています。
これは 6週間のブートキャンプ 複数のコース、読み物、ワークショップ、プロジェクトを通じて学習します。各モジュールの最後には、学んだ内容を実践するための宿題が与えられます。
- Week 1: GCP、Docker、Postgres、Terraform、および環境セットアップの概要。
- Week 2: Mage を使用したワークフロー オーケストレーション。
- Week 3: BigQuery によるデータ ウェアハウジングと BigQuery による機械学習。
- Week 4: dbt、Google Data Studio、Metabase の分析エンジニア。
- Week 5: Sparkによるバッチ処理。
- Week 6: カフカとのストリーミング。
Image from
DataTalksClub / data-engineering-zoomcamp
シラバスには 6 つのモジュール、2 つのワークショップ、およびプロのデータ エンジニアになるために必要なすべてをカバーするプロジェクトが含まれています。
モジュール 1: コンテナ化とコードとしてのインフラストラクチャをマスターする
このモジュールでは、Docker と Postgres について学習します。基本から始めて、データ パイプラインの作成、Docker での Postgres の実行などに関する詳細なチュートリアルに進みます。
このモジュールでは、pgAdmin、Docker-compose、SQL 復習トピックなどの重要なツールもカバーしており、Docker ネットワークに関するオプションのコンテンツや Windows サブシステム Linux ユーザー向けの特別なウォークスルーも含まれています。最後に、このコースでは GCP と Terraform について紹介し、最新のクラウドベースの環境に不可欠なコンテナ化とコードとしてのインフラストラクチャの全体的な理解を提供します。
モジュール 2: ワークフロー オーケストレーション技術
このモジュールでは、データ変換と統合のための革新的なオープンソース ハイブリッド フレームワークである Mage について詳しく説明します。このモジュールはワークフロー オーケストレーションの基本から始まり、Docker を介したセットアップや、API から Postgres および Google Cloud Storage (GCS)、さらに BigQuery への ETL パイプラインの構築など、Mage を使用した実践的な演習に進みます。
このモジュールのビデオ、リソース、実践的なタスクの組み合わせにより、包括的な学習体験が保証され、学習者は Mage を使用して高度なデータ ワークフローを管理するスキルを身につけることができます。
ワークショップ 1: データ取り込み戦略
最初のワークショップでは、効率的なデータ取り込みパイプラインの構築をマスターします。このワークショップは、API やファイルからのデータの抽出、データの正規化とロード、増分ロード手法などの重要なスキルに焦点を当てています。このワークショップを完了すると、上級データ エンジニアのように効率的なデータ パイプラインを作成できるようになります。
モジュール 3: データ ウェアハウジング
このモジュールは、BigQuery を使用したデータ ウェアハウジングに焦点を当てた、データ ストレージと分析について詳しく説明します。パーティショニングやクラスタリングなどの主要な概念を取り上げ、BigQuery のベスト プラクティスについて詳しく説明します。このモジュールは高度なトピック、特に機械学習 (ML) と BigQuery の統合に進み、ML 用の SQL の使用に焦点を当て、ハイパーパラメータ調整、機能の前処理、モデルのデプロイに関するリソースを提供します。
モジュール 4: 分析エンジニアリング
分析エンジニアリング モジュールは、既存のデータ ウェアハウス (BigQuery または PostgreSQL) で dbt (データ構築ツール) を使用してプロジェクトを構築することに重点を置いています。
このモジュールでは、クラウド環境とローカル環境の両方での dbt のセットアップ、分析エンジニアリングの概念、ETL と ELT、データ モデリングの紹介について説明します。インクリメンタル モデル、タグ、フック、スナップショットなどの高度な dbt 機能についても説明します。
最後に、このモジュールでは、Google データスタジオやメタベースなどのツールを使用して変換されたデータを視覚化する手法を紹介し、トラブルシューティングと効率的なデータ読み込みのためのリソースを提供します。
モジュール 5: バッチ処理の習熟度
このモジュールでは、Apache Spark を使用したバッチ処理について説明します。バッチ処理と Spark の概要から始まり、Windows、Linux、MacOS のインストール手順も説明します。
これには、Spark SQL と DataFrame の探索、データの準備、SQL 操作の実行、Spark の内部構造の理解が含まれます。最後に、クラウドで Spark を実行し、Spark を BigQuery と統合することで終了します。
モジュール 6: Kafka を使用したデータのストリーミング技術
このモジュールは、ストリーム処理の概念の紹介から始まり、続いて、Kafka の基礎、Confluent Cloud との統合、プロデューサーとコンシューマが関与する実践的なアプリケーションなど、Kafka について詳しく説明します。
このモジュールでは、Kafka の構成とストリームについても説明し、ストリーム結合、テスト、ウィンドウ処理、Kafka ksqldb と Connect の使用などのトピックに対処します。さらに、焦点を Python および JVM 環境に拡張し、Python ストリーム処理用の Faust、Pyspark – 構造化ストリーミング、Kafka ストリーム用の Scala の例を取り上げます。
ワークショップ 2: SQL を使用したストリーム処理
RisingWave を使用してストリーミング データを処理および管理する方法を学習します。RisingWave は、ストリーム処理アプリケーションを強化する PostgreSQL スタイルのエクスペリエンスを備えたコスト効率の高いソリューションを提供します。
プロジェクト: 実世界データ エンジニアリング アプリケーション
このプロジェクトの目的は、このコースで学んだすべての概念を実装して、エンドツーエンドのデータ パイプラインを構築することです。データセットを選択して 2 つのタイルで構成されるダッシュボードを作成し、データを処理してデータ レイクに保存するパイプラインを構築し、処理されたデータをデータ レイクからデータ ウェアハウスに転送するパイプラインを構築し、変換します。データ ウェアハウス内のデータをダッシュボード用に準備し、最後にデータを視覚的に表示するダッシュボードを構築します。
2024年コホートの詳細
- 登録: 今すぐ登録する
- 開始日: 15 年 2024 月 17 日、00:XNUMX CET
- ガイド付きサポートによる自分のペースでの学習
- コホートフォルダー 宿題と期限がある
- 対話 スラックコミュニティ ピアラーニング用
前提条件
- 基本的なコーディングとコマンドラインのスキル
- SQLの基礎
- Python: 有益ではあるが必須ではない
専門のインストラクターがあなたの旅を導きます
- アンクシュ・カンナ
- ビクトリア・ペレス・モラ
- アレクセイ・グリゴレフ
- マット・パーマー
- ルイス・オリヴェイラ
- マイケル・シューメーカー
2024 年コホートに参加して、素晴らしいデータ エンジニアリング コミュニティで学習を始めましょう。専門家主導のトレーニング、実践経験、業界のニーズに合わせたカリキュラムを備えたこのブートキャンプでは、必要なスキルを身につけるだけでなく、高収入で需要の高いキャリアパスの最前線に立つことができます。今すぐ登録して、あなたの願望を現実に変えましょう!
アビッド・アリ・アワン (@ 1abidaliawan)は、機械学習モデルの構築を愛する認定データサイエンティストの専門家です。 現在、彼はコンテンツの作成と、機械学習とデータサイエンステクノロジーに関する技術ブログの執筆に注力しています。 Abidは、技術管理の修士号と電気通信工学の学士号を取得しています。 彼のビジョンは、精神疾患に苦しんでいる学生のためにグラフニューラルネットワークを使用してAI製品を構築することです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.kdnuggets.com/the-only-free-course-you-need-to-become-a-professional-data-engineer?utm_source=rss&utm_medium=rss&utm_campaign=the-only-free-course-you-need-to-become-a-professional-data-engineer
- :持っている
- :は
- :not
- :どこ
- $UP
- 000
- 1
- 視聴者の38%が
- 17
- 2024
- a
- できる
- 私たちについて
- 積極的に
- さらに
- アドレッシング
- 高度な
- 前進
- 後
- AI
- すべて
- 沿って
- また
- 驚くべき
- an
- 分析
- 分析的
- 分析論
- および
- とインフラ
- アパッチ
- Apache Spark
- API
- API
- 建築家
- です
- 宝品
- AS
- At
- 利用できます
- の基礎
- BE
- になる
- になる
- 初心者
- 有益な
- BEST
- ベストプラクティス
- ビッグクエリ
- ブログ
- 両言語で
- ビルド
- 建物
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- キャリア
- キャリア
- 認証
- クラウド
- クラスタリング
- コード
- コーディング
- コホート
- コミュニティ
- 企業
- 完了
- 包括的な
- コンセプト
- 結論
- ジャンクション
- お問合せ
- 見なさ
- からなる
- 構築する
- 消費者
- 含まれています
- コンテンツ
- コンテンツ作成
- ここから
- コース
- カバー
- 作ります
- 作成
- 創造
- 重大な
- 現在
- カリキュラム
- ダッシュボード
- データ
- データエンジニア
- データレイク
- データサイエンス
- データサイエンティスト
- データストレージ
- データウェアハウス
- 日付
- 度
- 展開
- 設計
- 設計
- 詳細な
- 難しい
- デッカー
- 各
- 効果的に
- 効率的な
- どちら
- エンパワー
- enable
- end
- 端から端まで
- エンジニア
- エンジニアリング
- エンジニア
- 登録します
- 確実に
- 環境
- 環境
- 本質的な
- エーテル(ETH)
- すべてのもの
- 例
- エキサイティング
- 既存の
- 体験
- 専門家
- 探査
- 探る
- 拡張する
- 特徴
- 特徴
- 特色
- 少数の
- フィールド
- 最後に
- 名
- フォーカス
- 焦点を当てて
- 焦点
- 続いて
- 最前線
- 基礎
- フレームワーク
- 無料版
- から
- function
- 基礎
- ギャップ
- GCP
- 与えられた
- でログイン
- Googleクラウド
- グラフ
- グラフ ニューラル ネットワーク
- ガイド付きの
- 実践的な
- 持ってる
- he
- 強調表示
- 彼の
- 保持している
- 包括的な
- 宿題
- フック
- しかしながら
- HTTPS
- ハイブリッド
- ハイパーパラメータ調整
- 病気
- 実装する
- in
- 綿密な
- 含ま
- 含めて
- インクリメンタル
- 産業を変えます
- インフラ
- 革新的な
- インストール
- 説明書
- 統合
- 統合
- に
- 導入
- 紹介します
- 導入
- 概要
- 紹介
- 関与
- IT
- ITS
- 1月
- ジョイン
- カフカ
- KDナゲット
- キー
- 湖
- 主要な
- LEARN
- 学んだ
- 学習者
- 学習
- ような
- LINE
- linuxの
- ローディング
- ローカル
- 探して
- で
- ロー
- もうかる
- 機械
- 機械学習
- MacOSの
- 管理します
- 管理
- 義務的な
- 多くの
- マスター
- マスタリング
- 材料
- メンタル
- 精神疾患
- ML
- モデリング
- モデル
- モダン
- モジュール
- モジュール
- 他には?
- の試合に
- 必要
- 必要
- 必要とされる
- ニーズ
- ネットワーク
- ネットワーキング
- ニューラル
- ニューラルネットワーク
- 客観
- of
- 提供すること
- オファー
- on
- の
- オープンソース
- 業務執行統括
- or
- 編成
- その他
- 私たちの
- パーマー
- 特に
- path
- 支払う
- ピア
- 実行
- パイプライン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- ポジション
- Postgresql
- 実用的
- 実用化
- 練習
- プラクティス
- 準備中
- 現在
- プロセス
- 処理されました
- 処理
- 生産者
- プロダクト
- プロ
- 専門家
- 進行中
- プロジェクト
- プロジェクト(実績作品)
- は、大阪で
- 提供
- Python
- 質問
- 提起
- リーディング
- 現実の世界
- 現実
- リソース
- 職種
- 役割
- ランニング
- s
- 給与
- スカラ
- 科学
- 科学者
- 科学者たち
- を求める
- 選択
- シニア
- 設定
- スキル
- スラック
- 溶液
- 一部
- 時々
- 洗練された
- スパーク
- 特別
- SQL
- start
- 起動
- ストレージ利用料
- 流れ
- ストリーミング
- ストリーム
- 構造化された
- 苦労して
- 生徒
- 研究
- かなりの
- そのような
- サポート
- スイッチ
- システム
- テーラード
- 才能
- タスク
- テク
- 技術的
- テクニック
- テクノロジー
- テクノロジー
- テレコミュニケーション
- テラフォーム
- テスト
- それ
- 基礎
- その後
- この
- 介して
- 〜へ
- 今日
- ツール
- 豊富なツール群
- トピック
- トレーニング
- 転送
- 最適化の適用
- 変換
- 変形させる
- 変換
- 変換
- チュートリアル
- 2
- 理解する
- USD
- つかいます
- users
- Ve
- 非常に
- 、
- 動画
- ビジョン
- 視覚的に
- vs
- 倉庫
- 倉庫保管
- we
- この試験は
- which
- 誰
- 意志
- ウィンドウズ
- ワークフロー
- ワークフロー
- ワークショップ
- ワークショップ
- 書き込み
- 貴社
- あなたの
- ゼファーネット