Ainus tasuta kursus, mida vajate professionaalseks andmeinseneriks saamiseks – KDnuggets

Ainus tasuta kursus, mida vajate professionaalseks andmeinseneriks saamiseks – KDnuggets

Allikasõlm: 3084924

Ainus tasuta kursus, mida vajate professionaalseks andmeinseneriks saamiseks
Pilt autorilt
 

Saadaval on palju masinõppe ja andmeteaduse kursusi ja ressursse, kuid andmetehnoloogia kohta väga vähe. See tekitab mõningaid küsimusi. Kas see on raske ala? Kas see pakub madalat palka? Kas seda ei peeta sama põnevaks kui teisi tehnilisi rolle? Reaalsus on aga see, et paljud ettevõtted otsivad aktiivselt andmetehnoloogia talente ja pakuvad märkimisväärset palka, mis mõnikord ületab 200,000 XNUMX USD. Andmeinsenerid mängivad andmeplatvormide arhitektidena üliolulist rolli, kavandades ja ehitades alussüsteeme, mis võimaldavad andmeteadlastel ja masinõppeekspertidel tõhusalt toimida.

Selle tööstusharu lõhega tegelemiseks on DataTalkClub võtnud kasutusele transformatiivse ja tasuta alglaagri, "Andmetehnoloogia Zoomcamp“. See kursus on mõeldud selleks, et anda algajatele või professionaalidele, kes soovivad karjääri vahetada, anda olulised oskused ja praktilised kogemused andmetehnoloogia vallas.

See on 6-nädalane alglaager kus saate õppida mitme kursuse, lugemismaterjalide, töötubade ja projektide kaudu. Iga mooduli lõpus antakse teile õpitu praktiseerimiseks kodutöö.

  1. Nädal 1: Sissejuhatus GCP, Dockeri, Postgresi, Terraformi ja keskkonna seadistamisse.
  2. Nädal 2: Töövoo orkestreerimine koos Mage'iga. 
  3. Nädal 3: Andmehoidla BigQueryga ja masinõpe BigQueryga. 
  4. Nädal 4: Dbt, Google Data Studio ja metabaasiga analüütiline insener.
  5. Nädal 5: Partii töötlemine Sparkiga.
  6. Nädal 6: Voogesitus Kafkaga. 

 

Ainus tasuta kursus, mida vajate professionaalseks andmeinseneriks saamiseks
Pilt DataTalksClub/data-engineering-zoomcamp

Õppekava sisaldab 6 moodulit, 2 töötuba ja projekti, mis hõlmab kõike, mis on vajalik professionaalseks andmeinseneriks saamiseks.

1. moodul: konteineriseerimise ja taristu koodina valdamine

Selles moodulis saate teada Dockeri ja Postgresi kohta, alustades põhitõdedest ja edenedes üksikasjalike õpetuste kaudu, mis käsitlevad andmekonveierite loomist, Postgresi käitamist Dockeriga ja palju muud. 

Moodul hõlmab ka olulisi tööriistu, nagu pgAdmin, Docker-compose ja SQL-i värskendamise teemad, koos valikulise sisuga Dockeri võrgunduses ja spetsiaalse ülevaatega Windowsi alamsüsteemi Linuxi kasutajatele. Lõpuks tutvustab kursus teile GCP-d ja Terraformi, pakkudes terviklikku arusaama konteineriseerimisest ja infrastruktuurist kui koodist, mis on tänapäevaste pilvepõhiste keskkondade jaoks hädavajalik.

2. moodul: töövoo orkestreerimise tehnikad

Moodul pakub põhjalikku uurimist Mage'i, uuendusliku avatud lähtekoodiga hübriidraamistiku andmete teisendamiseks ja integreerimiseks. See moodul algab töövoo orkestreerimise põhitõdedega, edenedes Mage'i praktiliste harjutusteni, sealhulgas selle seadistamine Dockeri kaudu ja ETL-i torujuhtmete loomine API-st Postgresi ja Google Cloud Storage'i (GCS) ning seejärel BigQuerysse. 

Mooduli segu videotest, ressurssidest ja praktilistest ülesannetest tagab igakülgse õppimiskogemuse, andes õppijatele oskused hallata keerukaid andmetöövooge kasutades Mage.

1. töötuba: Andmete sisestamise strateegiad

Esimeses töötoas õpite ehitama tõhusaid andmete sisestamise torujuhtmeid. Töötuba keskendub olulistele oskustele, nagu andmete ekstraheerimine API-dest ja failidest, andmete normaliseerimine ja laadimine ning järkjärgulise laadimise tehnikad. Pärast selle töötoa läbimist saate luua tõhusaid andmetorusid nagu vanemandmeinsener.

3. moodul: andmehoidla

Moodul on andmete salvestamise ja analüüsi põhjalik uurimine, keskendudes BigQuery abil andmehoidlale. See hõlmab põhikontseptsioone, nagu jaotamine ja rühmitamine, ning tutvustab BigQuery parimaid tavasid. Moodul liigub edasi arenenud teemadeni, eriti masinõppe (ML) integreerimine BigQueryga, tõstab esile SQL-i kasutamist ML-i jaoks ning pakub ressursse hüperparameetrite häälestamiseks, funktsioonide eeltöötluseks ja mudeli juurutamiseks. 

4. moodul: Analyticsi tehnika

Analüütikatehnika moodul keskendub projekti loomisele, kasutades dbt-d (Data Build Tool) olemasoleva andmelaoga, kas BigQuery või PostgreSQL-iga. 

Moodul hõlmab dbt seadistamist nii pilve- kui ka kohalikus keskkonnas, analüütikatehnika kontseptsioonide tutvustamist, ETL vs ELT ja andmete modelleerimist. See hõlmab ka täiustatud dbt-funktsioone, nagu astmelised mudelid, sildid, konksud ja hetktõmmised. 

Lõpuks tutvustab moodul tehnikaid muudetud andmete visualiseerimiseks, kasutades selliseid tööriistu nagu Google Data Studio ja metabaas, ning pakub ressursse tõrkeotsinguks ja tõhusaks andmete laadimiseks.

5. moodul: paketttöötluse oskus

See moodul hõlmab paketttöötlemist Apache Sparki abil, alustades paketttöötluse ja Sparki tutvustustest ning installijuhistest Windowsi, Linuxi ja MacOS-i jaoks. 

See hõlmab Spark SQL-i ja DataFrame'ide uurimist, andmete ettevalmistamist, SQL-i toimingute sooritamist ja Sparki sisemiste elementide mõistmist. Lõpuks lõpeb see Sparki pilves käitamisega ja Sparki integreerimisega BigQueryga.

6. moodul: Kafkaga andmete voogesituse kunst

Moodul algab vootöötluse kontseptsioonide sissejuhatusega, millele järgneb Kafka põhjalik uurimine, sealhulgas selle põhialuste, Confluent Cloudiga integreerimise ning tootjate ja tarbijate praktiliste rakenduste uurimine. 

Moodul hõlmab ka Kafka konfiguratsiooni ja vooge, käsitledes selliseid teemasid nagu vooühendused, testimine, akende loomine ja Kafka ksqldb & Connecti kasutamine. Lisaks laiendab see oma tähelepanu Pythoni ja JVM-i keskkondadele, sisaldades Pythoni vootöötluse jaoks mõeldud Faust, Pyspark – struktureeritud voogesitust ja Scala näiteid Kafka Streamsi jaoks. 

2. töötuba: Voo töötlemine SQL-iga

Õpid töötlema ja haldama voogedastusandmeid RisingWave'iga, mis pakub kulutõhusat PostgreSQL-stiilis kogemusega lahendust teie voogesitusrakenduste võimendamiseks.

Projekt: reaalmaailma andmetehnoloogia rakendus

Selle projekti eesmärk on rakendada kõiki sellel kursusel õpitud kontseptsioone, et luua täielik andmekonveier. Loote kahest paanist koosneva armatuurlaua loomiseks valides andmestiku, luues konveieri andmete töötlemiseks ja salvestades need andmejärves, ehitades konveieri töödeldud andmete edastamiseks andmejärvest andmelattu, teisendades andmelaos olevad andmed ja nende ettevalmistamine armatuurlaua jaoks ning lõpuks armatuurlaua ehitamine andmete visuaalseks esitamiseks.

2024. aasta kohordi üksikasjad

Eeldused

  • Põhilised kodeerimis- ja käsureaoskused
  • Vundament SQL-is
  • Python: kasulik, kuid mitte kohustuslik

Asjatundlikud juhendajad juhivad teie reisi

  • Ankush Khanna
  • Victoria Perez Mola
  • Aleksei Grigorev
  • Matt Palmer
  • Luis Oliveira
  • Michael Kingsepp

Liituge meie 2024. aasta rühmaga ja alustage õppimist hämmastava andmetehnoloogia kogukonnaga. Spetsialistide juhitud koolituse, praktilise kogemuse ja tööstuse vajadustele kohandatud õppekavaga ei varusta see alglaager teid mitte ainult vajalike oskustega, vaid asetab teid ka tulusa ja nõudliku karjääritee esirinnas. Registreeruge juba täna ja muutke oma püüdlused reaalsuseks!
 
 

Abid Ali Awan (@1abidaliawan) on sertifitseeritud andmeteadlase professionaal, kes armastab masinõppemudelite loomist. Praegu keskendub ta sisu loomisele ning tehniliste ajaveebide kirjutamisele masinõppe ja andmeteaduse tehnoloogiate kohta. Abid on omandanud magistrikraadi tehnoloogiajuhtimises ja bakalaureusekraadi telekommunikatsioonitehnikas. Tema visioon on luua graafilise närvivõrgu abil tehisintellekti toode vaimuhaigustega võitlevatele õpilastele.

Ajatempel:

Veel alates KDnuggets