Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных - KDnuggets

Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных – KDnuggets

Исходный узел: 3084924

Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных
Изображение по автору
 

Существует множество курсов и ресурсов по машинному обучению и науке о данных, но очень мало по инженерии данных. Это вызывает некоторые вопросы. Это сложная сфера? Предлагает низкую зарплату? Разве это не так же интересно, как и другие технические роли? Однако реальность такова, что многие компании активно ищут талантливых специалистов по обработке данных и предлагают солидные зарплаты, иногда превышающие 200,000 XNUMX долларов США. Инженеры по обработке данных играют решающую роль в качестве архитекторов платформ данных, проектируя и создавая основополагающие системы, которые позволяют ученым, работающим с данными, и экспертам по машинному обучению эффективно функционировать.

Чтобы устранить этот пробел в отрасли, DataTalkClub представил преобразующий бесплатный учебный курс».Инжиниринг данных Zoomcamp«. Этот курс предназначен для того, чтобы дать новичкам или профессионалам, желающим сменить карьеру, необходимые навыки и практический опыт в области разработки данных.

Это 6-недельный буткемп где вы будете учиться с помощью нескольких курсов, материалов для чтения, семинаров и проектов. В конце каждого модуля вам будет дано домашнее задание для закрепления полученных знаний.

  1. Неделя 1: Введение в GCP, Docker, Postgres, Terraform и настройку среды.
  2. Неделя 2: Оркестрация рабочего процесса с помощью Mage. 
  3. Неделя 3: Хранилище данных с помощью BigQuery и машинное обучение с помощью BigQuery. 
  4. Неделя 4: Инженер-аналитик с dbt, Google Data Studio и Metabase.
  5. Неделя 5: Пакетная обработка с помощью Spark.
  6. Неделя 6: Стриминг с Кафкой. 

 

Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных
Изображение из DataTalksClub / data-engineering-zoomcamp

Программа содержит 6 модулей, 2 семинара и проект, который охватывает все необходимое для того, чтобы стать профессиональным инженером по данным.

Модуль 1: Освоение контейнеризации и инфраструктуры как кода

В этом модуле вы узнаете о Docker и Postgres, начиная с основ и заканчивая подробными руководствами по созданию конвейеров данных, запуску Postgres с Docker и многому другому. 

В модуле также рассматриваются основные инструменты, такие как pgAdmin, Docker-compose и темы повышения квалификации по SQL, а также дополнительный контент по сети Docker и специальное пошаговое руководство для пользователей подсистемы Windows Linux. В конце курс познакомит вас с GCP и Terraform, предоставив целостное понимание контейнеризации и инфраструктуры как кода, необходимого для современных облачных сред.

Модуль 2: Методы оркестрации рабочих процессов

Модуль предлагает углубленное изучение Mage, инновационной гибридной среды с открытым исходным кодом для преобразования и интеграции данных. Этот модуль начинается с основ оркестрации рабочих процессов, переходит к практическим упражнениям с Mage, включая его настройку через Docker и построение конвейеров ETL от API к Postgres и Google Cloud Storage (GCS), а затем к BigQuery. 

Сочетание видео, ресурсов и практических заданий в модуле обеспечивает всесторонний опыт обучения, давая учащимся навыки управления сложными рабочими процессами с данными с помощью Mage.

Семинар 1: Стратегии приема данных

На первом семинаре вы освоите построение эффективных конвейеров приема данных. Семинар посвящен таким важным навыкам, как извлечение данных из API и файлов, нормализация и загрузка данных, а также методы поэтапной загрузки. После завершения этого семинара вы сможете создавать эффективные конвейеры данных, как старший инженер по обработке данных.

Модуль 3: Хранилище данных

Модуль представляет собой углубленное исследование хранения и анализа данных с упором на хранение данных с использованием BigQuery. В нем рассматриваются ключевые понятия, такие как секционирование и кластеризация, а также лучшие практики BigQuery. Модуль переходит к более сложным темам, в частности к интеграции машинного обучения (ML) с BigQuery, освещению использования SQL для ML и предоставлению ресурсов по настройке гиперпараметров, предварительной обработке функций и развертыванию моделей. 

Модуль 4: Аналитическая инженерия

Модуль аналитической инженерии фокусируется на создании проекта с использованием dbt (инструмента построения данных) с существующим хранилищем данных BigQuery или PostgreSQL. 

Модуль охватывает настройку dbt как в облачной, так и в локальной среде, знакомит с концепциями аналитической инженерии, ETL и ELT, а также моделированием данных. Он также охватывает расширенные функции dbt, такие как инкрементные модели, теги, перехватчики и снимки. 

В конце модуль знакомит с методами визуализации преобразованных данных с использованием таких инструментов, как Google Data Studio и Metabase, а также предоставляет ресурсы для устранения неполадок и эффективной загрузки данных.

Модуль 5: Навыки пакетной обработки

В этом модуле рассматривается пакетная обработка с использованием Apache Spark, начиная с введения в пакетную обработку и Spark, а также инструкций по установке для Windows, Linux и MacOS. 

Он включает в себя изучение Spark SQL и DataFrames, подготовку данных, выполнение операций SQL и понимание внутреннего устройства Spark. Наконец, он завершается запуском Spark в облаке и интеграцией Spark с BigQuery.

Модуль 6: Искусство потоковой передачи данных с помощью Kafka

Модуль начинается с введения в концепции потоковой обработки, за которым следует углубленное изучение Kafka, включая его основы, интеграцию с Confluent Cloud и практические приложения с участием производителей и потребителей. 

Модуль также охватывает конфигурацию и потоки Kafka, затрагивая такие темы, как объединение потоков, тестирование, управление окнами и использование Kafka ksqldb и Connect. Кроме того, он расширяет свое внимание на среды Python и JVM, включая Faust для потоковой обработки Python, Pyspark — структурированная потоковая передача и примеры Scala для Kafka Streams. 

Семинар 2: Потоковая обработка с помощью SQL

Вы научитесь обрабатывать потоковые данные и управлять ими с помощью RisingWave, который представляет собой экономичное решение в стиле PostgreSQL, расширяющее возможности ваших приложений потоковой обработки.

Проект: Реальное приложение для обработки данных

Целью этого проекта является реализация всех концепций, которые мы изучили в этом курсе, для построения сквозного конвейера данных. Вы будете создавать информационную панель, состоящую из двух плиток, выбирая набор данных, создавая конвейер для обработки данных и сохраняя их в озере данных, создавая конвейер для передачи обработанных данных из озера данных в хранилище данных, преобразуя данные в хранилище данных и подготовка их для информационной панели и, наконец, создание информационной панели для визуального представления данных.

Подробности о когорте 2024 года

Предпосылки

  • Базовые навыки программирования и командной строки
  • Основы SQL
  • Python: полезно, но не обязательно

Опытные инструкторы, ведущие ваше путешествие

  • Анкуш Ханна
  • Виктория Перес Мола
  • Алексей Григорьев
  • Мэтт Палмер
  • Луис Оливейра
  • Майкл Шумейкер

Присоединяйтесь к нашей когорте 2024 года и начните учиться вместе с замечательным сообществом инженеров данных. Благодаря обучению под руководством экспертов, практическому опыту и учебной программе, адаптированной к потребностям отрасли, этот учебный лагерь не только дает вам необходимые навыки, но и ставит вас в авангарде прибыльной и востребованной карьеры. Зарегистрируйтесь сегодня и воплотите свои стремления в реальность!
 
 

Абид Али Аван (@ 1abidaliawan) — сертифицированный специалист по анализу данных, который любит создавать модели машинного обучения. В настоящее время он занимается созданием контента и ведением технических блогов по технологиям машинного обучения и обработки данных. Абид имеет степень магистра в области управления технологиями и степень бакалавра в области телекоммуникаций. Его видение состоит в том, чтобы создать продукт искусственного интеллекта с использованием графовой нейронной сети для студентов, борющихся с психическими заболеваниями.

Отметка времени:

Больше от КДнаггетс