Jedyny bezpłatny kurs, którego potrzebujesz, aby zostać profesjonalnym inżynierem danych - KDnuggets

Opublikowane ponownie przez Plato

Obserwuje: 0

Jedyny bezpłatny kurs, którego potrzebujesz, aby zostać profesjonalnym inżynierem danych
Zdjęcie autora

Dostępnych jest wiele kursów i zasobów na temat uczenia maszynowego i nauki o danych, ale bardzo niewiele na temat inżynierii danych. Rodzi to pewne pytania. Czy to trudna dziedzina? Czy oferuje niskie wynagrodzenie? Czy nie jest to uważane za równie ekscytujące, jak inne role w branży technologicznej? Rzeczywistość jest jednak taka, że wiele firm aktywnie poszukuje talentów w dziedzinie inżynierii danych i oferuje wysokie wynagrodzenia, czasami przekraczające 200,000 XNUMX USD. Inżynierowie danych odgrywają kluczową rolę jako architekci platform danych, projektując i budując podstawowe systemy, które umożliwiają badaczom danych i ekspertom w zakresie uczenia maszynowego efektywne działanie.

Wypełniając tę lukę branżową, DataTalkClub wprowadził transformacyjny i bezpłatny bootcamp „Inżynieria danych Zoomcamp„. Celem tego kursu jest wyposażenie początkujących lub profesjonalistów pragnących zmienić karierę w niezbędne umiejętności i praktyczne doświadczenie w inżynierii danych.

To jest 6-tygodniowy bootcamp gdzie będziesz uczyć się poprzez wiele kursów, materiałów do czytania, warsztatów i projektów. Na koniec każdego modułu otrzymasz pracę domową, dzięki której możesz przećwiczyć zdobytą wiedzę.

Tydzień 1: Wprowadzenie do GCP, Dockera, Postgres, Terraform i konfiguracji środowiska.
Tydzień 2: Orkiestracja przepływu pracy za pomocą Mage.
Tydzień 3: Hurtownia danych z BigQuery i uczenie maszynowe z BigQuery.
Tydzień 4: Inżynier analityczny z dbt, Google Data Studio i Metabase.
Tydzień 5: Przetwarzanie wsadowe za pomocą platformy Spark.
Tydzień 6: Streaming z Kafką.

Jedyny bezpłatny kurs, którego potrzebujesz, aby zostać profesjonalnym inżynierem danych
Obraz z DataTalksClub/data-inżynieria-zoomcamp

Program nauczania obejmuje 6 modułów, 2 warsztaty i projekt obejmujący wszystko, co potrzebne, aby zostać profesjonalnym inżynierem danych.

Moduł 1: Opanowanie konteneryzacji i infrastruktury jako kodu

W tym module dowiesz się o Dockerze i Postgresie, zaczynając od podstaw, a kończąc na szczegółowych samouczkach na temat tworzenia potoków danych, uruchamiania Postgres z Dockerem i nie tylko.

Moduł obejmuje także podstawowe narzędzia, takie jak pgAdmin, Docker-compose i tematy odświeżania SQL, z opcjonalną treścią na temat sieci Docker i specjalnym przewodnikiem dla użytkowników Linuksa z podsystemem Windows. Na koniec kurs wprowadza Cię w GCP i Terraform, zapewniając całościowe zrozumienie konteneryzacji i infrastruktury jako kodu, niezbędnego w nowoczesnych środowiskach opartych na chmurze.

Moduł 2: Techniki orkiestracji przepływu pracy

Moduł oferuje dogłębną eksplorację Mage, innowacyjnej hybrydowej platformy open source do transformacji i integracji danych. Moduł ten rozpoczyna się od podstaw orkiestracji przepływu pracy, przechodząc do praktycznych ćwiczeń z Mage, w tym konfigurowania go za pomocą Dockera i budowania potoków ETL z API do Postgres i Google Cloud Storage (GCS), a następnie do BigQuery.

Mieszanka filmów, zasobów i praktycznych zadań modułu zapewnia wszechstronną naukę, wyposażając uczniów w umiejętności zarządzania skomplikowanymi przepływami danych za pomocą Mage.

Warsztat 1: Strategie pozyskiwania danych

Podczas pierwszego warsztatu opanujesz budowę wydajnych potoków pozyskiwania danych. Warsztaty skupiają się na podstawowych umiejętnościach, takich jak wyodrębnianie danych z interfejsów API i plików, normalizowanie i ładowanie danych oraz techniki ładowania przyrostowego. Po ukończeniu tego warsztatu będziesz w stanie tworzyć wydajne potoki danych niczym starszy inżynier danych.

Moduł 3: Hurtownia danych

Moduł obejmuje dogłębną eksplorację przechowywania i analizy danych, ze szczególnym uwzględnieniem hurtowni danych przy użyciu BigQuery. Omawia kluczowe pojęcia, takie jak partycjonowanie i grupowanie, a także omawia najlepsze praktyki BigQuery. Moduł przechodzi do zaawansowanych tematów, w szczególności integracji uczenia maszynowego (ML) z BigQuery, podkreślając wykorzystanie SQL do ML i udostępniając zasoby dotyczące dostrajania hiperparametrów, wstępnego przetwarzania funkcji i wdrażania modeli.

Moduł 4: Inżynieria analityczna

Moduł inżynierii analitycznej koncentruje się na budowaniu projektu przy użyciu dbt (narzędzie do budowania danych) z istniejącą hurtownią danych, BigQuery lub PostgreSQL.

Moduł obejmuje konfigurację dbt zarówno w środowisku chmurowym, jak i lokalnym, wprowadzenie koncepcji inżynierii analitycznej, ETL vs ELT oraz modelowanie danych. Obejmuje również zaawansowane funkcje dbt, takie jak modele przyrostowe, znaczniki, haki i migawki.

Na koniec moduł wprowadza techniki wizualizacji przekształconych danych za pomocą narzędzi takich jak Google Data Studio i Metabase, a także zapewnia zasoby do rozwiązywania problemów i wydajnego ładowania danych.

Moduł 5: Biegłość w przetwarzaniu wsadowym

Moduł ten obejmuje przetwarzanie wsadowe przy użyciu Apache Spark, zaczynając od wprowadzenia do przetwarzania wsadowego i platformy Spark, wraz z instrukcjami instalacji dla systemów Windows, Linux i MacOS.

Obejmuje eksplorację Spark SQL i DataFrames, przygotowywanie danych, wykonywanie operacji SQL i zrozumienie wewnętrznych elementów Spark. Na koniec uruchamiamy Sparka w chmurze i integrujemy Sparka z BigQuery.

Moduł 6: Sztuka przesyłania strumieniowego danych za pomocą Kafki

Moduł rozpoczyna się wprowadzeniem do koncepcji przetwarzania strumieniowego, po którym następuje dogłębna eksploracja Kafki, w tym jej podstaw, integracja z Confluent Cloud oraz praktyczne zastosowania z udziałem producentów i konsumentów.

Moduł obejmuje również konfigurację i strumienie Kafki, omawiając takie tematy, jak łączenie strumieni, testowanie, otwieranie okien i korzystanie z Kafka ksqldb & Connect. Dodatkowo koncentruje się na środowiskach Python i JVM, włączając Faust do przetwarzania strumieni w Pythonie, Pyspark – Structured Streaming i przykłady Scala dla strumieni Kafka.

Warsztat 2: Przetwarzanie strumieniowe za pomocą SQL

Dowiesz się, jak przetwarzać dane przesyłane strumieniowo i zarządzać nimi za pomocą RisingWave, które zapewnia ekonomiczne rozwiązanie z doświadczeniem w stylu PostgreSQL, zwiększające możliwości aplikacji przetwarzających strumienie.

Projekt: Aplikacja do inżynierii danych w świecie rzeczywistym

Celem tego projektu jest wdrożenie wszystkich koncepcji, których nauczyliśmy się podczas tego kursu, w celu zbudowania kompleksowego potoku danych. Będziesz tworzyć dashboard składający się z dwóch kafelków, wybierając zbiór danych, budując potok do przetwarzania danych i przechowywania ich w jeziorze danych, budując potok do przesyłania przetworzonych danych z jeziora danych do hurtowni danych, przekształcając danych w hurtowni danych i przygotowanie ich do dashboardu, a na koniec zbudowanie dashboardu umożliwiającego wizualną prezentację danych.

Szczegóły kohorty na rok 2024

Rejestracja: Zapisać się
Data rozpoczęcia: 15 stycznia 2024 r. o godzinie 17:00 CET
Samodzielna nauka z przewodnikiem
Folder kohorty z zadaniami domowymi i terminami
Interaktywny Slack Społeczność do wzajemnego uczenia się

Wymagania wstępne

Podstawowe umiejętności kodowania i wiersza poleceń
Podstawa w SQL
Python: korzystny, ale nie obowiązkowy

Doświadczeni instruktorzy poprowadzą Twoją podróż

Ankush Khanna
Wiktoria Perez Mola
Aleksiej Grigoriew
Matta Palmera
Luisa Oliveiry
Michał Szewc

Dołącz do naszej kohorty na rok 2024 i rozpocznij naukę w niesamowitej społeczności zajmującej się inżynierią danych. Dzięki szkoleniom prowadzonym przez ekspertów, praktycznemu doświadczeniu i programowi nauczania dostosowanemu do potrzeb branży, ten bootcamp nie tylko wyposaży Cię w niezbędne umiejętności, ale także zapewni Ci pozycję na czele lukratywnej i poszukiwanej ścieżki kariery. Zapisz się już dziś i zamień swoje aspiracje w rzeczywistość!

Abid Ali Awan (@ 1abidaliawan) jest certyfikowanym specjalistą ds. analityków danych, który uwielbia tworzyć modele uczenia maszynowego. Obecnie koncentruje się na tworzeniu treści i pisaniu blogów technicznych na temat technologii uczenia maszynowego i data science. Abid posiada tytuł magistra zarządzania technologią oraz tytuł licencjata inżynierii telekomunikacyjnej. Jego wizją jest zbudowanie produktu AI z wykorzystaniem grafowej sieci neuronowej dla studentów zmagających się z chorobami psychicznymi.