Satu-satunya Kursus Gratis yang Anda Butuhkan Untuk Menjadi Insinyur Data Profesional - KDnuggets

Satu-satunya Kursus Gratis yang Anda Butuhkan Untuk Menjadi Insinyur Data Profesional – KDnuggets

Node Sumber: 3084924

Satu-satunya Kursus Gratis yang Anda Butuhkan Untuk Menjadi Insinyur Data Profesional
Gambar oleh Penulis
 

Ada banyak kursus dan sumber daya yang tersedia mengenai pembelajaran mesin dan ilmu data, tetapi sangat sedikit yang membahas rekayasa data. Hal ini menimbulkan beberapa pertanyaan. Apakah ini bidang yang sulit? Apakah ia menawarkan bayaran rendah? Bukankah peran ini dianggap semenarik peran teknologi lainnya? Namun, kenyataannya banyak perusahaan yang secara aktif mencari talenta teknik data dan menawarkan gaji yang besar, terkadang melebihi $200,000 USD. Insinyur data memainkan peran penting sebagai arsitek platform data, merancang dan membangun sistem dasar yang memungkinkan ilmuwan data dan pakar pembelajaran mesin berfungsi secara efektif.

Untuk mengatasi kesenjangan industri ini, DataTalkClub telah memperkenalkan bootcamp yang transformatif dan gratis, “Zoomcamp Rekayasa Data“. Kursus ini dirancang untuk memberdayakan pemula atau profesional yang ingin beralih karier, dengan keterampilan penting dan pengalaman praktis dalam rekayasa data.

Ini adalah sebuah kamp pelatihan 6 minggu di mana Anda akan belajar melalui berbagai kursus, bahan bacaan, lokakarya, dan proyek. Di akhir setiap modul, Anda akan diberikan pekerjaan rumah untuk mempraktikkan apa yang telah Anda pelajari.

  1. Minggu 1: Pengantar GCP, Docker, Postgres, Terraform, dan penyiapan lingkungan.
  2. Minggu 2: Orkestrasi alur kerja dengan Mage. 
  3. Minggu 3: Gudang data dengan BigQuery dan pembelajaran mesin dengan BigQuery. 
  4. Minggu 4: Insinyur analitik dengan dbt, Google Data Studio, dan Metabase.
  5. Minggu 5: Pemrosesan batch dengan Spark.
  6. Minggu 6: Streaming dengan Kafka. 

 

Satu-satunya Kursus Gratis yang Anda Butuhkan Untuk Menjadi Insinyur Data Profesional
Gambar dari DataTalksClub/data-engineering-zoomcamp

Silabus berisi 6 modul, 2 lokakarya, dan sebuah proyek yang mencakup semua yang diperlukan untuk menjadi insinyur data profesional.

Modul 1: Menguasai Kontainerisasi dan Infrastruktur sebagai Kode

Dalam modul ini, Anda akan mempelajari tentang Docker dan Postgres, dimulai dari dasar-dasarnya hingga tutorial mendetail tentang cara membuat pipeline data, menjalankan Postgres dengan Docker, dan banyak lagi. 

Modul ini juga mencakup alat-alat penting seperti pgAdmin, Docker-compose, dan topik penyegaran SQL, dengan konten opsional tentang jaringan Docker dan panduan khusus untuk pengguna Linux subsistem Windows. Pada akhirnya, kursus ini memperkenalkan Anda pada GCP dan Terraform, yang memberikan pemahaman menyeluruh tentang containerisasi dan infrastruktur sebagai kode, yang penting untuk lingkungan berbasis cloud modern.

Modul 2: Teknik Orkestrasi Alur Kerja

Modul ini menawarkan eksplorasi mendalam tentang Mage, kerangka kerja hybrid sumber terbuka yang inovatif untuk transformasi dan integrasi data. Modul ini dimulai dengan dasar-dasar orkestrasi alur kerja, berlanjut ke latihan praktis dengan Mage, termasuk menyiapkannya melalui Docker dan membuat pipeline ETL dari API ke Postgres dan Google Cloud Storage (GCS), lalu ke BigQuery. 

Perpaduan modul antara video, sumber daya, dan tugas praktis memastikan pengalaman belajar yang komprehensif, membekali pelajar dengan keterampilan untuk mengelola alur kerja data yang canggih menggunakan Mage.

Lokakarya 1: Strategi Penyerapan Data

Pada lokakarya pertama, Anda akan menguasai pembuatan saluran penyerapan data yang efisien. Lokakarya ini berfokus pada keterampilan penting seperti mengekstraksi data dari API dan file, normalisasi dan memuat data, serta teknik pemuatan tambahan. Setelah menyelesaikan lokakarya ini, Anda akan dapat membuat saluran data yang efisien seperti seorang data engineer senior.

Modul 3: Pergudangan Data

Modul ini merupakan eksplorasi mendalam tentang penyimpanan dan analisis data, dengan fokus pada Data Warehousing menggunakan BigQuery. Panduan ini mencakup konsep-konsep utama seperti pemartisian dan pengelompokan, serta mendalami praktik terbaik BigQuery. Modul ini berkembang ke topik tingkat lanjut, khususnya integrasi Machine Learning (ML) dengan BigQuery, menyoroti penggunaan SQL untuk ML, dan menyediakan sumber daya tentang penyetelan hyperparameter, prapemrosesan fitur, dan penerapan model. 

Modul 4: Rekayasa Analisis

Modul rekayasa analitik berfokus pada pembuatan proyek menggunakan dbt (Data Build Tool) dengan gudang data yang sudah ada, baik BigQuery atau PostgreSQL. 

Modul ini mencakup pengaturan dbt di lingkungan cloud dan lokal, memperkenalkan konsep teknik analitik, ETL vs ELT, dan pemodelan data. Ini juga mencakup fitur dbt tingkat lanjut seperti model tambahan, tag, kait, dan snapshot. 

Pada akhirnya, modul ini memperkenalkan teknik untuk memvisualisasikan data yang diubah menggunakan alat seperti Google Data Studio dan Metabase, dan menyediakan sumber daya untuk pemecahan masalah dan pemuatan data yang efisien.

Modul 5: Kemahiran dalam Pemrosesan Batch

Modul ini mencakup pemrosesan batch menggunakan Apache Spark, dimulai dengan pengenalan pemrosesan batch dan Spark, serta petunjuk instalasi untuk Windows, Linux, dan MacOS. 

Ini mencakup menjelajahi Spark SQL dan DataFrames, menyiapkan data, melakukan operasi SQL, dan memahami internal Spark. Terakhir, diakhiri dengan menjalankan Spark di cloud dan mengintegrasikan Spark dengan BigQuery.

Modul 6: Seni Streaming Data dengan Kafka

Modul dimulai dengan pengenalan konsep pemrosesan aliran, diikuti dengan eksplorasi mendalam tentang Kafka, termasuk dasar-dasarnya, integrasi dengan Confluent Cloud, dan aplikasi praktis yang melibatkan produsen dan konsumen. 

Modul ini juga mencakup konfigurasi dan aliran Kafka, membahas topik-topik seperti penggabungan aliran, pengujian, windowing, dan penggunaan ksqldb & Connect Kafka. Selain itu, ia memperluas fokusnya ke lingkungan Python dan JVM, menampilkan Faust untuk pemrosesan aliran Python, Pyspark – Streaming Terstruktur, dan contoh Scala untuk Kafka Streams. 

Lokakarya 2: Pemrosesan Aliran dengan SQL

Anda akan belajar memproses dan mengelola data streaming dengan RisingWave, yang memberikan solusi hemat biaya dengan pengalaman gaya PostgreSQL untuk memberdayakan aplikasi pemrosesan streaming Anda.

Proyek: Aplikasi Rekayasa Data Dunia Nyata

Tujuan dari proyek ini adalah untuk mengimplementasikan semua konsep yang telah kita pelajari dalam kursus ini untuk membangun pipeline data end-to-end. Anda akan membuat dasbor yang terdiri dari dua ubin dengan memilih kumpulan data, membangun jalur pipa untuk memproses data dan menyimpannya di danau data, membangun jalur pipa untuk mentransfer data yang diproses dari danau data ke gudang data, mentransformasikannya data di gudang data dan mempersiapkannya untuk dashboard, dan terakhir membangun dashboard untuk menyajikan data secara visual.

Detail Kelompok 2024

  • Pendaftaran: Daftar sekarang
  • Tanggal mulai: 15 Januari 2024, pukul 17:00 CET
  • Pembelajaran mandiri dengan dukungan terpandu
  • Folder kelompok dengan pekerjaan rumah dan tenggat waktu
  • Interaktif Komunitas Slack untuk pembelajaran rekan

Prasyarat

  • Keterampilan coding dasar dan baris perintah
  • Fondasi dalam SQL
  • Python: bermanfaat tetapi tidak wajib

Instruktur Ahli Memimpin Perjalanan Anda

  • Ankush Khanna
  • Victoria Perez Mola
  • Alexei Grigorev
  • Matt Palmer
  • Luis Oliveira
  • Michael Pembuat Sepatu

Bergabunglah dengan kelompok 2024 kami dan mulailah belajar dengan komunitas teknik data yang luar biasa. Dengan pelatihan yang dipimpin oleh para ahli, pengalaman langsung, dan kurikulum yang disesuaikan dengan kebutuhan industri, bootcamp ini tidak hanya membekali Anda dengan keterampilan yang diperlukan tetapi juga menempatkan Anda di garis depan jalur karier yang menguntungkan dan banyak diminati. Daftar hari ini dan ubah aspirasi Anda menjadi kenyataan!
 
 

Abi Ali Awan (@1abidaliawan) adalah ilmuwan data profesional bersertifikat yang suka membuat model pembelajaran mesin. Saat ini, ia berfokus pada pembuatan konten dan penulisan blog teknis tentang pembelajaran mesin dan teknologi ilmu data. Abid memiliki gelar Magister Manajemen Teknologi dan gelar Sarjana Teknik Telekomunikasi. Visinya adalah untuk membangun produk AI menggunakan jaringan saraf grafik untuk siswa yang berjuang dengan penyakit mental.

Stempel Waktu:

Lebih dari KDnugget