L'unico corso gratuito di cui hai bisogno per diventare un data engineer professionista: KDnuggets

L'unico corso gratuito di cui hai bisogno per diventare un data engineer professionista: KDnuggets

Nodo di origine: 3084924

L'unico corso gratuito di cui hai bisogno per diventare un Data Engineer professionista
Immagine dell'autore
 

Sono disponibili molti corsi e risorse sull'apprendimento automatico e la scienza dei dati, ma pochissimi sull'ingegneria dei dati. Ciò solleva alcune domande. È un campo difficile? Offre una paga bassa? Non è considerato entusiasmante come altri ruoli tecnologici? Tuttavia, la realtà è che molte aziende cercano attivamente talenti nell’ingegneria dei dati e offrono stipendi sostanziali, a volte superiori a 200,000 dollari. Gli ingegneri dei dati svolgono un ruolo cruciale come architetti delle piattaforme dati, progettando e costruendo i sistemi fondamentali che consentono ai data scientist e agli esperti di machine learning di funzionare in modo efficace.

Affrontando questa lacuna del settore, DataTalkClub ha introdotto un bootcamp trasformativo e gratuito, "Zoomcamp di ingegneria dei dati“. Questo corso è progettato per potenziare i principianti o i professionisti che desiderano cambiare carriera, con competenze essenziali ed esperienza pratica nell'ingegneria dei dati.

Questo è Campo di addestramento di 6 settimane dove imparerai attraverso più corsi, materiali di lettura, workshop e progetti. Alla fine di ogni modulo ti verranno assegnati dei compiti per mettere in pratica ciò che hai imparato.

  1. Settimana 1: Introduzione a GCP, Docker, Postgres, Terraform e configurazione dell'ambiente.
  2. Settimana 2: Orchestrazione del flusso di lavoro con Mage. 
  3. Settimana 3: Data warehousing con BigQuery e machine learning con BigQuery. 
  4. Settimana 4: Ingegnere analitico con dbt, Google Data Studio e Metabase.
  5. Settimana 5: Elaborazione batch con Spark.
  6. Settimana 6: In streaming con Kafka. 

 

L'unico corso gratuito di cui hai bisogno per diventare un Data Engineer professionista
Immagine da DataTalksClub/data-engineering-zoomcamp

Il programma contiene 6 moduli, 2 workshop e un progetto che copre tutto il necessario per diventare un ingegnere dei dati professionista.

Modulo 1: Padroneggiare la containerizzazione e l'infrastruttura come codice

In questo modulo imparerai a conoscere Docker e Postgres, iniziando dalle nozioni di base e avanzando attraverso tutorial dettagliati sulla creazione di pipeline di dati, sull'esecuzione di Postgres con Docker e altro ancora. 

Il modulo copre anche strumenti essenziali come pgAdmin, Docker-compose e argomenti di aggiornamento SQL, con contenuti opzionali sulla rete Docker e una procedura dettagliata speciale per gli utenti Linux del sottosistema Windows. Alla fine, il corso introduce GCP e Terraform, fornendo una comprensione olistica della containerizzazione e dell'infrastruttura come codice, essenziale per i moderni ambienti basati sul cloud.

Modulo 2: Tecniche di orchestrazione del flusso di lavoro

Il modulo offre un'esplorazione approfondita di Mage, un innovativo framework ibrido open source per la trasformazione e l'integrazione dei dati. Questo modulo inizia con le nozioni di base sull'orchestrazione del flusso di lavoro, proseguendo con esercizi pratici con Mage, inclusa la configurazione tramite Docker e la creazione di pipeline ETL dall'API a Postgres e Google Cloud Storage (GCS) e quindi a BigQuery. 

La combinazione di video, risorse e attività pratiche del modulo garantisce un'esperienza di apprendimento completa, fornendo agli studenti le competenze per gestire sofisticati flussi di lavoro di dati utilizzando Mage.

Workshop 1: Strategie di acquisizione dei dati

Nel primo workshop imparerai a costruire pipeline efficienti di acquisizione dei dati. Il workshop si concentra su competenze essenziali come l'estrazione di dati da API e file, la normalizzazione e il caricamento dei dati e le tecniche di caricamento incrementale. Dopo aver completato questo workshop, sarai in grado di creare pipeline di dati efficienti come un ingegnere dati senior.

Modulo 3: Immagazzinamento di dati

Il modulo è un'esplorazione approfondita dell'archiviazione e dell'analisi dei dati, concentrandosi sul data warehousing utilizzando BigQuery. Copre concetti chiave come il partizionamento e il clustering e approfondisce le best practice di BigQuery. Il modulo prosegue con argomenti avanzati, in particolare l'integrazione di Machine Learning (ML) con BigQuery, evidenziando l'uso di SQL per ML e fornendo risorse sull'ottimizzazione degli iperparametri, sulla preelaborazione delle funzionalità e sulla distribuzione dei modelli. 

Modulo 4: Ingegneria analitica

Il modulo di ingegneria analitica si concentra sulla creazione di un progetto utilizzando dbt (Data Build Tool) con un data warehouse esistente, BigQuery o PostgreSQL. 

Il modulo copre la configurazione del dbt sia in ambienti cloud che locali, introducendo concetti di ingegneria analitica, ETL vs ELT e modellazione dei dati. Copre anche funzionalità DBT avanzate come modelli incrementali, tag, hook e istantanee. 

Alla fine, il modulo introduce tecniche per visualizzare i dati trasformati utilizzando strumenti come Google Data Studio e Metabase e fornisce risorse per la risoluzione dei problemi e il caricamento efficiente dei dati.

Modulo 5: Competenza nell'elaborazione batch

Questo modulo copre l'elaborazione batch utilizzando Apache Spark, iniziando con le introduzioni all'elaborazione batch e a Spark, insieme alle istruzioni di installazione per Windows, Linux e MacOS. 

Include l'esplorazione di Spark SQL e DataFrames, la preparazione dei dati, l'esecuzione di operazioni SQL e la comprensione degli aspetti interni di Spark. Infine, si conclude con l'esecuzione di Spark nel cloud e l'integrazione di Spark con BigQuery.

Modulo 6: L'arte dello streaming di dati con Kafka

Il modulo inizia con un'introduzione ai concetti di elaborazione del flusso, seguita da un'esplorazione approfondita di Kafka, compresi i suoi fondamenti, l'integrazione con Confluent Cloud e le applicazioni pratiche che coinvolgono produttori e consumatori. 

Il modulo copre anche la configurazione e i flussi di Kafka, affrontando argomenti come join di flussi, test, finestre e l'uso di Kafka ksqldb e Connect. Inoltre, estende la sua attenzione agli ambienti Python e JVM, presentando Faust per l'elaborazione di flussi Python, Pyspark – Streaming strutturato ed esempi Scala per Kafka Streams. 

Workshop 2: elaborazione del flusso con SQL

Imparerai a elaborare e gestire i dati in streaming con RisingWave, che fornisce una soluzione economicamente vantaggiosa con un'esperienza in stile PostgreSQL per potenziare le tue applicazioni di elaborazione dei flussi.

Progetto: Applicazione di ingegneria dei dati nel mondo reale

L'obiettivo di questo progetto è implementare tutti i concetti appresi in questo corso per costruire una pipeline di dati end-to-end. Creerai un dashboard composto da due riquadri selezionando un set di dati, costruendo una pipeline per l'elaborazione dei dati e archiviandoli in un data Lake, costruendo una pipeline per trasferire i dati elaborati dal data Lake a un data warehouse, trasformando i dati nel data warehouse e preparandoli per il dashboard, quindi costruendo un dashboard per presentare visivamente i dati.

Dettagli della coorte 2024

Prerequisiti

  • Competenze di base di codifica e riga di comando
  • Fondamenti in SQL
  • Python: utile ma non obbligatorio

Istruttori esperti che guidano il tuo viaggio

  • Ankush Khanna
  • Vittoria Perez Mola
  • Alexei Grigorev
  • -- Matt Palmer
  • Luis Oliveira
  • Michele Calzolaio

Unisciti al nostro gruppo 2024 e inizia ad apprendere con una straordinaria community di ingegneria dei dati. Con una formazione guidata da esperti, un'esperienza pratica e un curriculum su misura per le esigenze del settore, questo bootcamp non solo ti fornisce le competenze necessarie, ma ti posiziona anche in prima linea in un percorso di carriera redditizio e molto richiesto. Iscriviti oggi e trasforma le tue aspirazioni in realtà!
 
 

Abid Ali Awan (@1abidaliawan) è un professionista di data scientist certificato che ama creare modelli di machine learning. Attualmente si sta concentrando sulla creazione di contenuti e sulla scrittura di blog tecnici sulle tecnologie di apprendimento automatico e scienza dei dati. Abid ha conseguito un Master in Technology Management e una laurea in Ingegneria delle Telecomunicazioni. La sua visione è quella di costruire un prodotto di intelligenza artificiale utilizzando una rete neurale grafica per studenti alle prese con malattie mentali.

Timestamp:

Di più da KDnuggets