Edini brezplačni tečaj, ki ga potrebujete, da postanete profesionalni podatkovni inženir - KDnuggets

Edini brezplačni tečaj, ki ga potrebujete, da postanete profesionalni podatkovni inženir – KDnuggets

Izvorno vozlišče: 3084924

Edini brezplačni tečaj, ki ga potrebujete, da postanete profesionalni podatkovni inženir
Slika avtorja
 

Na voljo je veliko tečajev in virov o strojnem učenju in podatkovni znanosti, zelo malo pa o podatkovnem inženirstvu. To odpira nekaj vprašanj. Je to težko področje? Ali ponuja nizko plačilo? Ali ne velja za enako razburljivo kot druge tehnološke vloge? Vendar pa je resničnost taka, da številna podjetja aktivno iščejo talente za podatkovni inženiring in ponujajo znatne plače, ki včasih presegajo 200,000 USD. Podatkovni inženirji igrajo ključno vlogo kot arhitekti podatkovnih platform, saj oblikujejo in gradijo temeljne sisteme, ki omogočajo učinkovito delovanje podatkovnih znanstvenikov in strokovnjakov za strojno učenje.

Da bi rešil to vrzel v industriji, je DataTalkClub uvedel transformativen in brezplačen bootcamp, “Zoomcamp podatkovnega inženiringa“. Ta tečaj je zasnovan tako, da opolnomoči začetnike ali strokovnjake, ki želijo zamenjati poklic, z bistvenimi veščinami in praktičnimi izkušnjami na področju podatkovnega inženiringa.

To je 6-tedenski bootcamp kjer se boste učili skozi več tečajev, bralnega gradiva, delavnic in projektov. Na koncu vsakega modula boste dobili domačo nalogo, s katero boste vadili naučeno.

  1. Teden 1: Uvod v GCP, Docker, Postgres, Terraform in nastavitev okolja.
  2. Teden 2: Orkestracija poteka dela z Mage. 
  3. Teden 3: Skladiščenje podatkov z BigQuery in strojno učenje z BigQuery. 
  4. Teden 4: Analitični inženir z dbt, Google Data Studio in Metabase.
  5. Teden 5: Paketna obdelava s Sparkom.
  6. Teden 6: Pretakanje s Kafko. 

 

Edini brezplačni tečaj, ki ga potrebujete, da postanete profesionalni podatkovni inženir
Slika iz DataTalksClub/data-engineering-zoomcamp

Učni načrt vsebuje 6 modulov, 2 delavnici in projekt, ki pokriva vse, kar potrebujete, da postanete profesionalni podatkovni inženir.

Modul 1: Obvladovanje kontejnerizacije in infrastrukture kot kode

V tem modulu boste spoznali Docker in Postgres, začenši z osnovami in nadaljevali s podrobnimi vadnicami o ustvarjanju podatkovnih cevovodov, izvajanju Postgresa z Dockerjem in več. 

Modul pokriva tudi osnovna orodja, kot so pgAdmin, Docker-compose in teme za osvežitev SQL, z izbirno vsebino o omrežju Docker in posebnim postopkom za uporabnike podsistema Windows Linux. Na koncu vas tečaj seznani z GCP in Terraformom, ki zagotavlja celovito razumevanje kontejnerizacije in infrastrukture kot kode, bistvenega pomena za sodobna okolja v oblaku.

Modul 2: Tehnike orkestracije poteka dela

Modul ponuja poglobljeno raziskovanje Mage, inovativnega odprtokodnega hibridnega okvira za pretvorbo in integracijo podatkov. Ta modul se začne z osnovami orkestracije delovnega toka, napreduje do praktičnih vaj z Mage, vključno z nastavitvijo prek Dockerja in gradnjo cevovodov ETL iz API-ja v Postgres in Google Cloud Storage (GCS) ter nato v BigQuery. 

Mešanica videoposnetkov, virov in praktičnih nalog v modulu zagotavlja celovito učno izkušnjo, ki učence opremi z veščinami za upravljanje zahtevnih delovnih tokov podatkov s programom Mage.

Delavnica 1: Strategije vnosa podatkov

Na prvi delavnici boste obvladali gradnjo učinkovitih cevovodov za vnos podatkov. Delavnica se osredotoča na bistvene veščine, kot je pridobivanje podatkov iz API-jev in datotek, normalizacija in nalaganje podatkov ter tehnike postopnega nalaganja. Po zaključku te delavnice boste sposobni ustvarjati učinkovite podatkovne cevovode kot višji podatkovni inženir.

Modul 3: Skladiščenje podatkov

Modul je poglobljeno raziskovanje shranjevanja in analize podatkov, s poudarkom na skladiščenju podatkov z uporabo BigQuery. Zajema ključne koncepte, kot sta particioniranje in združevanje v gruče, in se poglobi v najboljše prakse BigQuery. Modul napreduje v napredne teme, zlasti integracijo strojnega učenja (ML) z BigQuery, poudarja uporabo SQL za ML in zagotavlja vire za prilagajanje hiperparametrov, predprocesiranje funkcij in uvajanje modela. 

Modul 4: Analitični inženiring

Modul analitičnega inženiringa se osredotoča na gradnjo projekta z uporabo dbt (Data Build Tool) z obstoječim skladiščem podatkov, bodisi BigQuery ali PostgreSQL. 

Modul zajema nastavitev dbt v oblaku in lokalnem okolju, uvajanje konceptov analitičnega inženiringa, ETL proti ELT in modeliranje podatkov. Zajema tudi napredne funkcije dbt, kot so inkrementalni modeli, oznake, kljuke in posnetki. 

Na koncu modul predstavi tehnike za vizualizacijo pretvorjenih podatkov z orodji, kot sta Google Data Studio in Metabase, ter zagotavlja vire za odpravljanje težav in učinkovito nalaganje podatkov.

Modul 5: Strokovnost v paketni obdelavi

Ta modul pokriva paketno obdelavo z uporabo Apache Spark, začenši z uvodom v paketno obdelavo in Spark, skupaj z navodili za namestitev za Windows, Linux in MacOS. 

Vključuje raziskovanje Spark SQL in DataFrames, pripravo podatkov, izvajanje operacij SQL in razumevanje notranjosti Spark. Končno se zaključi z izvajanjem Spark v oblaku in integracijo Spark z BigQuery.

Modul 6: Umetnost pretakanja podatkov s Kafko

Modul se začne z uvodom v koncepte pretočne obdelave, čemur sledi poglobljeno raziskovanje Kafke, vključno z njenimi osnovami, integracijo s Confluent Cloud in praktičnimi aplikacijami, ki vključujejo proizvajalce in potrošnike. 

Modul pokriva tudi konfiguracijo in tokove Kafka, obravnava teme, kot so združevanje tokov, testiranje, okna in uporaba Kafka ksqldb & Connect. Poleg tega se osredotoča na okolja Python in JVM, ki vključuje Faust za obdelavo tokov Python, Pyspark – Structured Streaming in primere Scala za Kafka Streams. 

Delavnica 2: Pretočna obdelava s SQL

Naučili se boste obdelovati in upravljati pretočne podatke z RisingWave, ki zagotavlja stroškovno učinkovito rešitev z izkušnjo v slogu PostgreSQL za krepitev vaših aplikacij za obdelavo tokov.

Projekt: Real-World Data Engineering Application

Cilj tega projekta je implementacija vseh konceptov, ki smo se jih naučili v tem tečaju, za izgradnjo podatkovnega cevovoda od konca do konca. Ustvarjali boste nadzorno ploščo, sestavljeno iz dveh ploščic, tako da boste izbrali nabor podatkov, zgradili cevovod za obdelavo podatkov in jih shranili v podatkovno jezero, zgradili cevovod za prenos obdelanih podatkov iz podatkovnega jezera v podatkovno skladišče, preoblikovali podatke v podatkovnem skladišču in njihovo pripravo za nadzorno ploščo ter končno izgradnjo nadzorne plošče za vizualno predstavitev podatkov.

Podrobnosti o kohorti 2024

  • Registracija: Vnesite zdaj
  • Datum začetka: 15. januar 2024, ob 17:00 CET
  • Samostojno učenje z vodeno podporo
  • Kohortna mapa z domačimi nalogami in roki
  • Interactive Slack skupnost za medvrstniško učenje

Predpogoji

  • Osnovno kodiranje in veščine ukazne vrstice
  • Temelj v SQL
  • Python: koristen, vendar ni obvezen

Strokovni inštruktorji, ki vodijo vaše potovanje

  • Ankush Khanna
  • Victoria Perez Mola
  • Aleksej Grigorev
  • Matt Palmer
  • Luis Oliveira
  • Michael Shoemaker

Pridružite se naši kohorti 2024 in se začnite učiti z neverjetno skupnostjo podatkovnega inženiringa. Z usposabljanjem, ki ga vodijo strokovnjaki, praktičnimi izkušnjami in učnim načrtom, prilagojenim potrebam panoge, vas ta bootcamp ne le opremi s potrebnimi veščinami, ampak vas tudi postavi v ospredje donosne in zahtevane poklicne poti. Prijavite se še danes in spremenite svoje želje v resničnost!
 
 

Abid Ali Awan (@1abidaliawan) je certificiran strokovnjak za podatkovne znanstvenike, ki rad gradi modele strojnega učenja. Trenutno se osredotoča na ustvarjanje vsebin in pisanje tehničnih blogov o strojnem učenju in tehnologijah podatkovne znanosti. Abid ima magisterij iz tehnološkega managementa in diplomo iz telekomunikacijskega inženiringa. Njegova vizija je zgraditi izdelek AI z uporabo grafične nevronske mreže za študente, ki se borijo z duševnimi boleznimi.

Časovni žig:

Več od KDnuggets