Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных - KDnuggets

Переиздано Платоном

Читают: 0

Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных
Изображение по автору

Существует множество курсов и ресурсов по машинному обучению и науке о данных, но очень мало по инженерии данных. Это вызывает некоторые вопросы. Это сложная сфера? Предлагает низкую зарплату? Разве это не так же интересно, как и другие технические роли? Однако реальность такова, что многие компании активно ищут талантливых специалистов по обработке данных и предлагают солидные зарплаты, иногда превышающие 200,000 XNUMX долларов США. Инженеры по обработке данных играют решающую роль в качестве архитекторов платформ данных, проектируя и создавая основополагающие системы, которые позволяют ученым, работающим с данными, и экспертам по машинному обучению эффективно функционировать.

Чтобы устранить этот пробел в отрасли, DataTalkClub представил преобразующий бесплатный учебный курс».Инжиниринг данных Zoomcamp«. Этот курс предназначен для того, чтобы дать новичкам или профессионалам, желающим сменить карьеру, необходимые навыки и практический опыт в области разработки данных.

Это 6-недельный буткемп где вы будете учиться с помощью нескольких курсов, материалов для чтения, семинаров и проектов. В конце каждого модуля вам будет дано домашнее задание для закрепления полученных знаний.

Неделя 1: Введение в GCP, Docker, Postgres, Terraform и настройку среды.
Неделя 2: Оркестрация рабочего процесса с помощью Mage.
Неделя 3: Хранилище данных с помощью BigQuery и машинное обучение с помощью BigQuery.
Неделя 4: Инженер-аналитик с dbt, Google Data Studio и Metabase.
Неделя 5: Пакетная обработка с помощью Spark.
Неделя 6: Стриминг с Кафкой.

Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных
Изображение из DataTalksClub / data-engineering-zoomcamp

Программа содержит 6 модулей, 2 семинара и проект, который охватывает все необходимое для того, чтобы стать профессиональным инженером по данным.

Модуль 1: Освоение контейнеризации и инфраструктуры как кода

В этом модуле вы узнаете о Docker и Postgres, начиная с основ и заканчивая подробными руководствами по созданию конвейеров данных, запуску Postgres с Docker и многому другому.

В модуле также рассматриваются основные инструменты, такие как pgAdmin, Docker-compose и темы повышения квалификации по SQL, а также дополнительный контент по сети Docker и специальное пошаговое руководство для пользователей подсистемы Windows Linux. В конце курс познакомит вас с GCP и Terraform, предоставив целостное понимание контейнеризации и инфраструктуры как кода, необходимого для современных облачных сред.

Модуль 2: Методы оркестрации рабочих процессов

Модуль предлагает углубленное изучение Mage, инновационной гибридной среды с открытым исходным кодом для преобразования и интеграции данных. Этот модуль начинается с основ оркестрации рабочих процессов, переходит к практическим упражнениям с Mage, включая его настройку через Docker и построение конвейеров ETL от API к Postgres и Google Cloud Storage (GCS), а затем к BigQuery.

Сочетание видео, ресурсов и практических заданий в модуле обеспечивает всесторонний опыт обучения, давая учащимся навыки управления сложными рабочими процессами с данными с помощью Mage.

Семинар 1: Стратегии приема данных

На первом семинаре вы освоите построение эффективных конвейеров приема данных. Семинар посвящен таким важным навыкам, как извлечение данных из API и файлов, нормализация и загрузка данных, а также методы поэтапной загрузки. После завершения этого семинара вы сможете создавать эффективные конвейеры данных, как старший инженер по обработке данных.

Модуль 3: Хранилище данных

Модуль представляет собой углубленное исследование хранения и анализа данных с упором на хранение данных с использованием BigQuery. В нем рассматриваются ключевые понятия, такие как секционирование и кластеризация, а также лучшие практики BigQuery. Модуль переходит к более сложным темам, в частности к интеграции машинного обучения (ML) с BigQuery, освещению использования SQL для ML и предоставлению ресурсов по настройке гиперпараметров, предварительной обработке функций и развертыванию моделей.

Модуль 4: Аналитическая инженерия

Модуль аналитической инженерии фокусируется на создании проекта с использованием dbt (инструмента построения данных) с существующим хранилищем данных BigQuery или PostgreSQL.

Модуль охватывает настройку dbt как в облачной, так и в локальной среде, знакомит с концепциями аналитической инженерии, ETL и ELT, а также моделированием данных. Он также охватывает расширенные функции dbt, такие как инкрементные модели, теги, перехватчики и снимки.

В конце модуль знакомит с методами визуализации преобразованных данных с использованием таких инструментов, как Google Data Studio и Metabase, а также предоставляет ресурсы для устранения неполадок и эффективной загрузки данных.

Модуль 5: Навыки пакетной обработки

В этом модуле рассматривается пакетная обработка с использованием Apache Spark, начиная с введения в пакетную обработку и Spark, а также инструкций по установке для Windows, Linux и MacOS.

Он включает в себя изучение Spark SQL и DataFrames, подготовку данных, выполнение операций SQL и понимание внутреннего устройства Spark. Наконец, он завершается запуском Spark в облаке и интеграцией Spark с BigQuery.

Модуль 6: Искусство потоковой передачи данных с помощью Kafka

Модуль начинается с введения в концепции потоковой обработки, за которым следует углубленное изучение Kafka, включая его основы, интеграцию с Confluent Cloud и практические приложения с участием производителей и потребителей.

Модуль также охватывает конфигурацию и потоки Kafka, затрагивая такие темы, как объединение потоков, тестирование, управление окнами и использование Kafka ksqldb и Connect. Кроме того, он расширяет свое внимание на среды Python и JVM, включая Faust для потоковой обработки Python, Pyspark — структурированная потоковая передача и примеры Scala для Kafka Streams.

Семинар 2: Потоковая обработка с помощью SQL

Вы научитесь обрабатывать потоковые данные и управлять ими с помощью RisingWave, который представляет собой экономичное решение в стиле PostgreSQL, расширяющее возможности ваших приложений потоковой обработки.

Проект: Реальное приложение для обработки данных

Целью этого проекта является реализация всех концепций, которые мы изучили в этом курсе, для построения сквозного конвейера данных. Вы будете создавать информационную панель, состоящую из двух плиток, выбирая набор данных, создавая конвейер для обработки данных и сохраняя их в озере данных, создавая конвейер для передачи обработанных данных из озера данных в хранилище данных, преобразуя данные в хранилище данных и подготовка их для информационной панели и, наконец, создание информационной панели для визуального представления данных.

Подробности о когорте 2024 года

Регистрация: Зарегистрируйтесь сейчас
Дата начала: 15 января 2024 г., 17:00 CET.
Самостоятельное обучение с сопровождением
Папка когорты с домашними заданиями и сроками
Интерактивное Сообщество Slack для взаимного обучения

Предпосылки

Базовые навыки программирования и командной строки
Основы SQL
Python: полезно, но не обязательно

Опытные инструкторы, ведущие ваше путешествие

Анкуш Ханна
Виктория Перес Мола
Алексей Григорьев
Мэтт Палмер
Луис Оливейра
Майкл Шумейкер

Присоединяйтесь к нашей когорте 2024 года и начните учиться вместе с замечательным сообществом инженеров данных. Благодаря обучению под руководством экспертов, практическому опыту и учебной программе, адаптированной к потребностям отрасли, этот учебный лагерь не только дает вам необходимые навыки, но и ставит вас в авангарде прибыльной и востребованной карьеры. Зарегистрируйтесь сегодня и воплотите свои стремления в реальность!

Абид Али Аван (@ 1abidaliawan) — сертифицированный специалист по анализу данных, который любит создавать модели машинного обучения. В настоящее время он занимается созданием контента и ведением технических блогов по технологиям машинного обучения и обработки данных. Абид имеет степень магистра в области управления технологиями и степень бакалавра в области телекоммуникаций. Его видение состоит в том, чтобы создать продукт искусственного интеллекта с использованием графовой нейронной сети для студентов, борющихся с психическими заболеваниями.

Больше на этой теме

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://www.kdnuggets.com/the-only-free-course-you-need-to-become-a-professional-data-engineer?utm_source=rss&utm_medium=rss&utm_campaign=the-only-free-course-you-need-to-become-a-professional-data-engineer

Отметка времени: 26 января 2024

Единственный бесплатный курс, который вам нужен, чтобы стать профессиональным инженером данных – KDnuggets

Переиздано Платоном

Модуль 1: Освоение контейнеризации и инфраструктуры как кода

Модуль 2: Методы оркестрации рабочих процессов

Семинар 1: Стратегии приема данных

Модуль 3: Хранилище данных

Модуль 4: Аналитическая инженерия

Модуль 5: Навыки пакетной обработки

Модуль 6: Искусство потоковой передачи данных с помощью Kafka

Семинар 2: Потоковая обработка с помощью SQL

Проект: Реальное приложение для обработки данных

Подробности о когорте 2024 года

Предпосылки

Опытные инструкторы, ведущие ваше путешествие

Больше на этой теме

Больше от КДнаггетс

Инфраструктура проекта Data Science: как ее создать

Перетаскивание, анализ: рост науки о данных без программирования – KDnuggets

Фи-2: Маленькие LM, которые делают большие дела – KDnuggets

Практический подход к разработке признаков в машинном обучении — KDnuggets

Генетическое программирование на Python: проблема рюкзака

Как SAS может помочь карьерному росту практикующих специалистов – KDnuggets

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись