L'unico corso gratuito di cui hai bisogno per diventare un data engineer professionista - KDnuggets

Ripubblicato da Platone

Seguaci: 0

L'unico corso gratuito di cui hai bisogno per diventare un Data Engineer professionista
Immagine dell'autore

Sono disponibili molti corsi e risorse sull'apprendimento automatico e la scienza dei dati, ma pochissimi sull'ingegneria dei dati. Ciò solleva alcune domande. È un campo difficile? Offre una paga bassa? Non è considerato entusiasmante come altri ruoli tecnologici? Tuttavia, la realtà è che molte aziende cercano attivamente talenti nell’ingegneria dei dati e offrono stipendi sostanziali, a volte superiori a 200,000 dollari. Gli ingegneri dei dati svolgono un ruolo cruciale come architetti delle piattaforme dati, progettando e costruendo i sistemi fondamentali che consentono ai data scientist e agli esperti di machine learning di funzionare in modo efficace.

Affrontando questa lacuna del settore, DataTalkClub ha introdotto un bootcamp trasformativo e gratuito, "Zoomcamp di ingegneria dei dati“. Questo corso è progettato per potenziare i principianti o i professionisti che desiderano cambiare carriera, con competenze essenziali ed esperienza pratica nell'ingegneria dei dati.

Questo è Campo di addestramento di 6 settimane dove imparerai attraverso più corsi, materiali di lettura, workshop e progetti. Alla fine di ogni modulo ti verranno assegnati dei compiti per mettere in pratica ciò che hai imparato.

Settimana 1: Introduzione a GCP, Docker, Postgres, Terraform e configurazione dell'ambiente.
Settimana 2: Orchestrazione del flusso di lavoro con Mage.
Settimana 3: Data warehousing con BigQuery e machine learning con BigQuery.
Settimana 4: Ingegnere analitico con dbt, Google Data Studio e Metabase.
Settimana 5: Elaborazione batch con Spark.
Settimana 6: In streaming con Kafka.

L'unico corso gratuito di cui hai bisogno per diventare un Data Engineer professionista
Immagine da DataTalksClub/data-engineering-zoomcamp

Il programma contiene 6 moduli, 2 workshop e un progetto che copre tutto il necessario per diventare un ingegnere dei dati professionista.

Modulo 1: Padroneggiare la containerizzazione e l'infrastruttura come codice

In questo modulo imparerai a conoscere Docker e Postgres, iniziando dalle nozioni di base e avanzando attraverso tutorial dettagliati sulla creazione di pipeline di dati, sull'esecuzione di Postgres con Docker e altro ancora.

Il modulo copre anche strumenti essenziali come pgAdmin, Docker-compose e argomenti di aggiornamento SQL, con contenuti opzionali sulla rete Docker e una procedura dettagliata speciale per gli utenti Linux del sottosistema Windows. Alla fine, il corso introduce GCP e Terraform, fornendo una comprensione olistica della containerizzazione e dell'infrastruttura come codice, essenziale per i moderni ambienti basati sul cloud.

Modulo 2: Tecniche di orchestrazione del flusso di lavoro

Il modulo offre un'esplorazione approfondita di Mage, un innovativo framework ibrido open source per la trasformazione e l'integrazione dei dati. Questo modulo inizia con le nozioni di base sull'orchestrazione del flusso di lavoro, proseguendo con esercizi pratici con Mage, inclusa la configurazione tramite Docker e la creazione di pipeline ETL dall'API a Postgres e Google Cloud Storage (GCS) e quindi a BigQuery.

La combinazione di video, risorse e attività pratiche del modulo garantisce un'esperienza di apprendimento completa, fornendo agli studenti le competenze per gestire sofisticati flussi di lavoro di dati utilizzando Mage.

Workshop 1: Strategie di acquisizione dei dati

Nel primo workshop imparerai a costruire pipeline efficienti di acquisizione dei dati. Il workshop si concentra su competenze essenziali come l'estrazione di dati da API e file, la normalizzazione e il caricamento dei dati e le tecniche di caricamento incrementale. Dopo aver completato questo workshop, sarai in grado di creare pipeline di dati efficienti come un ingegnere dati senior.

Modulo 3: Immagazzinamento di dati

Il modulo è un'esplorazione approfondita dell'archiviazione e dell'analisi dei dati, concentrandosi sul data warehousing utilizzando BigQuery. Copre concetti chiave come il partizionamento e il clustering e approfondisce le best practice di BigQuery. Il modulo prosegue con argomenti avanzati, in particolare l'integrazione di Machine Learning (ML) con BigQuery, evidenziando l'uso di SQL per ML e fornendo risorse sull'ottimizzazione degli iperparametri, sulla preelaborazione delle funzionalità e sulla distribuzione dei modelli.

Modulo 4: Ingegneria analitica

Il modulo di ingegneria analitica si concentra sulla creazione di un progetto utilizzando dbt (Data Build Tool) con un data warehouse esistente, BigQuery o PostgreSQL.

Il modulo copre la configurazione del dbt sia in ambienti cloud che locali, introducendo concetti di ingegneria analitica, ETL vs ELT e modellazione dei dati. Copre anche funzionalità DBT avanzate come modelli incrementali, tag, hook e istantanee.

Alla fine, il modulo introduce tecniche per visualizzare i dati trasformati utilizzando strumenti come Google Data Studio e Metabase e fornisce risorse per la risoluzione dei problemi e il caricamento efficiente dei dati.

Modulo 5: Competenza nell'elaborazione batch

Questo modulo copre l'elaborazione batch utilizzando Apache Spark, iniziando con le introduzioni all'elaborazione batch e a Spark, insieme alle istruzioni di installazione per Windows, Linux e MacOS.

Include l'esplorazione di Spark SQL e DataFrames, la preparazione dei dati, l'esecuzione di operazioni SQL e la comprensione degli aspetti interni di Spark. Infine, si conclude con l'esecuzione di Spark nel cloud e l'integrazione di Spark con BigQuery.

Modulo 6: L'arte dello streaming di dati con Kafka

Il modulo inizia con un'introduzione ai concetti di elaborazione del flusso, seguita da un'esplorazione approfondita di Kafka, compresi i suoi fondamenti, l'integrazione con Confluent Cloud e le applicazioni pratiche che coinvolgono produttori e consumatori.

Il modulo copre anche la configurazione e i flussi di Kafka, affrontando argomenti come join di flussi, test, finestre e l'uso di Kafka ksqldb e Connect. Inoltre, estende la sua attenzione agli ambienti Python e JVM, presentando Faust per l'elaborazione di flussi Python, Pyspark – Streaming strutturato ed esempi Scala per Kafka Streams.

Workshop 2: elaborazione del flusso con SQL

Imparerai a elaborare e gestire i dati in streaming con RisingWave, che fornisce una soluzione economicamente vantaggiosa con un'esperienza in stile PostgreSQL per potenziare le tue applicazioni di elaborazione dei flussi.

Progetto: Applicazione di ingegneria dei dati nel mondo reale

L'obiettivo di questo progetto è implementare tutti i concetti appresi in questo corso per costruire una pipeline di dati end-to-end. Creerai un dashboard composto da due riquadri selezionando un set di dati, costruendo una pipeline per l'elaborazione dei dati e archiviandoli in un data Lake, costruendo una pipeline per trasferire i dati elaborati dal data Lake a un data warehouse, trasformando i dati nel data warehouse e preparandoli per il dashboard, quindi costruendo un dashboard per presentare visivamente i dati.

Dettagli della coorte 2024

Registrazione: Iscriviti ora
Data di inizio: 15 gennaio 2024, alle 17:00 CET
Apprendimento autonomo con supporto guidato
Cartella della coorte con compiti e scadenze
Interactive Comunità Slack per l’apprendimento tra pari

Prerequisiti

Competenze di base di codifica e riga di comando
Fondamenti in SQL
Python: utile ma non obbligatorio

Istruttori esperti che guidano il tuo viaggio

Ankush Khanna
Vittoria Perez Mola
Alexei Grigorev
-- Matt Palmer
Luis Oliveira
Michele Calzolaio

Unisciti al nostro gruppo 2024 e inizia ad apprendere con una straordinaria community di ingegneria dei dati. Con una formazione guidata da esperti, un'esperienza pratica e un curriculum su misura per le esigenze del settore, questo bootcamp non solo ti fornisce le competenze necessarie, ma ti posiziona anche in prima linea in un percorso di carriera redditizio e molto richiesto. Iscriviti oggi e trasforma le tue aspirazioni in realtà!

Abid Ali Awan (@1abidaliawan) è un professionista di data scientist certificato che ama creare modelli di machine learning. Attualmente si sta concentrando sulla creazione di contenuti e sulla scrittura di blog tecnici sulle tecnologie di apprendimento automatico e scienza dei dati. Abid ha conseguito un Master in Technology Management e una laurea in Ingegneria delle Telecomunicazioni. La sua visione è quella di costruire un prodotto di intelligenza artificiale utilizzando una rete neurale grafica per studenti alle prese con malattie mentali.

Altro su questo argomento

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://www.kdnuggets.com/the-only-free-course-you-need-to-become-a-professional-data-engineer?utm_source=rss&utm_medium=rss&utm_campaign=the-only-free-course-you-need-to-become-a-professional-data-engineer

Timestamp: Gennaio 26, 2024

L'unico corso gratuito di cui hai bisogno per diventare un data engineer professionista: KDnuggets

Ripubblicato da Platone

Modulo 1: Padroneggiare la containerizzazione e l'infrastruttura come codice

Modulo 2: Tecniche di orchestrazione del flusso di lavoro

Workshop 1: Strategie di acquisizione dei dati

Modulo 3: Immagazzinamento di dati

Modulo 4: Ingegneria analitica

Modulo 5: Competenza nell'elaborazione batch

Modulo 6: L'arte dello streaming di dati con Kafka

Workshop 2: elaborazione del flusso con SQL

Progetto: Applicazione di ingegneria dei dati nel mondo reale

Dettagli della coorte 2024

Prerequisiti

Istruttori esperti che guidano il tuo viaggio

Altro su questo argomento

Di più da KDnuggets

Infrastruttura del progetto Data Science: come crearla

Trascina, rilascia, analizza: l'ascesa della scienza dei dati senza codice – KDnuggets

Phi-2: Piccoli LM che stanno facendo grandi cose – KDnuggets

Un approccio pratico per caratterizzare l'ingegneria nell'apprendimento automatico: KDnuggets

Programmazione genetica in Python: il problema dello zaino

Come SAS può aiutare a catapultare le carriere dei professionisti – KDnuggets

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account