הקורס החינמי היחיד שאתה צריך כדי להיות מהנדס נתונים מקצועי - KDnuggets

הקורס החינמי היחיד שאתה צריך כדי להיות מהנדס נתונים מקצועי - KDnuggets

צומת המקור: 3084924

הקורס החינמי היחיד שאתה צריך כדי להיות מהנדס נתונים מקצועי
תמונה מאת המחבר
 

ישנם קורסים ומשאבים רבים זמינים על למידת מכונה ומדעי נתונים, אך מעטים מאוד על הנדסת נתונים. זה מעלה כמה שאלות. האם זה תחום קשה? האם זה מציע שכר נמוך? האם זה לא נחשב מרגש כמו תפקידי טכנולוגיה אחרים? עם זאת, המציאות היא שחברות רבות מחפשות באופן פעיל כישרון בהנדסת נתונים ומציעות משכורות משמעותיות, שלעיתים עולות על $200,000 דולר. מהנדסי נתונים ממלאים תפקיד מכריע כארכיטקטים של פלטפורמות נתונים, מתכננים ובונים את המערכות הבסיסיות המאפשרות למדעני נתונים ומומחי למידת מכונה לתפקד ביעילות.

כדי להתמודד עם פער זה בתעשייה, DataTalkClub הציגה Bootcamp טרנספורמטיבי וחינמי, "Zoomcamp הנדסת נתונים". קורס זה נועד להעצים מתחילים או מקצוענים המעוניינים להחליף קריירה, עם מיומנויות חיוניות וניסיון מעשי בהנדסת נתונים.

זה Bootcamp של 6 שבועות שבו תלמדו באמצעות קורסים מרובים, חומרי קריאה, סדנאות ופרויקטים. בסוף כל מודול, תקבלו שיעורי בית כדי לתרגל את מה שלמדת.

  1. שבוע 1: מבוא להגדרות GCP, Docker, Postgres, Terraform וסביבה.
  2. שבוע 2: תזמור זרימת עבודה עם Mage. 
  3. שבוע 3: אחסון נתונים עם BigQuery ולמידת מכונה עם BigQuery. 
  4. שבוע 4: מהנדס אנליטי עם dbt, Google Data Studio ו- Metabase.
  5. שבוע 5: עיבוד אצווה עם Spark.
  6. שבוע 6: סטרימינג עם קפקא. 

 

הקורס החינמי היחיד שאתה צריך כדי להיות מהנדס נתונים מקצועי
תמונה מתוך DataTalksClub/data-engineering-zoomcamp

הסילבוס מכיל 6 מודולים, 2 סדנאות ופרויקט המכסה את כל הדרוש כדי להפוך למהנדס נתונים מקצועי.

מודול 1: שליטה במכולות ובתשתית כקוד

במודול זה תלמדו על Docker ו-Postgres, החל מהיסודות ותתקדם דרך הדרכות מפורטות על יצירת צינורות נתונים, הפעלת Postgres עם Docker ועוד. 

המודול מכסה גם כלים חיוניים כמו pgAdmin, Docker-compose ו-SQL נושאי רענון, עם תוכן אופציונלי על רשת Docker והדרכה מיוחדת עבור משתמשי Linux תת-מערכת של Windows. בסופו של דבר, הקורס מציג לך את GCP ו- Terraform, ומספק הבנה הוליסטית של קונטיינריזציה ותשתית כקוד, חיוני לסביבות מודרניות מבוססות ענן.

מודול 2: טכניקות תזמורת זרימת עבודה

המודול מציע חקר מעמיק של Mage, מסגרת היברידית חדשנית בקוד פתוח לטרנספורמציה ואינטגרציה של נתונים. מודול זה מתחיל עם היסודות של תזמור זרימת עבודה, מתקדם לתרגילים מעשיים עם Mage, כולל הגדרתו באמצעות Docker ובניית צינורות ETL מ-API ל-Postgres ו-Google Cloud Storage (GCS), ולאחר מכן ל-BigQuery. 

השילוב של סרטונים, משאבים ומשימות מעשיות של המודול מבטיח חווית למידה מקיפה, המציידת את הלומדים במיומנויות לנהל זרימות עבודה מתוחכמות של נתונים באמצעות Mage.

סדנה 1: אסטרטגיות להטמעת נתונים

בסדנה הראשונה תשלוט בבניית צינורות קליטת נתונים יעילים. הסדנה מתמקדת במיומנויות חיוניות כמו חילוץ נתונים ממשקי API וקבצים, נרמול וטעינת נתונים וטכניקות טעינה מצטברות. לאחר השלמת סדנה זו, תוכל ליצור צינורות נתונים יעילים כמו מהנדס נתונים בכיר.

מודול 3: אחסון נתונים

המודול הוא חקירה מעמיקה של אחסון וניתוח נתונים, תוך התמקדות באחסון נתונים באמצעות BigQuery. הוא מכסה מושגי מפתח כמו חלוקה למחיצות ואשכולות, וצולל לשיטות העבודה המומלצות של BigQuery. המודול מתקדם לנושאים מתקדמים, במיוחד השילוב של Machine Learning (ML) עם BigQuery, הדגשת השימוש ב-SQL עבור ML, ומתן משאבים על כוונון היפרפרמטרים, עיבוד מקדים של תכונות ופריסה של מודלים. 

מודול 4: הנדסת אנליטיקה

מודול הנדסת האנליטיקה מתמקד בבניית פרויקט באמצעות dbt (כלי לבניית נתונים) עם מחסן נתונים קיים, או BigQuery או PostgreSQL. 

המודול מכסה הגדרת dbt הן בסביבות ענן והן בסביבות מקומיות, תוך הצגת מושגי הנדסה אנליטית, ETL לעומת ELT, ומידול נתונים. זה מכסה גם תכונות dbt מתקדמות כמו דגמים מצטברים, תגים, ווים ותצלומים. 

בסופו של דבר, המודול מציג טכניקות להמחשת נתונים שעברו טרנספורמציה באמצעות כלים כמו Google Data Studio ו- Metabase, והוא מספק משאבים לפתרון בעיות וטעינת נתונים יעילה.

מודול 5: מיומנות בעיבוד אצווה

מודול זה מכסה עיבוד אצווה באמצעות Apache Spark, החל בהיכרות לעיבוד אצווה ו-Spark, יחד עם הוראות התקנה עבור Windows, Linux ו- MacOS. 

זה כולל חקירת Spark SQL ו-DataFrames, הכנת נתונים, ביצוע פעולות SQL והבנת התוכן הפנימי של Spark. לבסוף, הוא מסתיים בהפעלת Spark בענן ושילוב Spark עם BigQuery.

מודול 6: אומנות הזרמת הנתונים עם קפקא

המודול מתחיל עם היכרות עם מושגי עיבוד זרם, ולאחר מכן חקירה מעמיקה של קפקא, כולל יסודותיו, אינטגרציה עם Confluent Cloud, ויישומים מעשיים המערבים יצרנים וצרכנים. 

המודול מכסה גם את התצורה והזרמים של Kafka, תוך התייחסות לנושאים כמו חיבורי זרמים, בדיקות, חלונות ושימוש ב-Kafka ksqldb & Connect. בנוסף, הוא מרחיב את המיקוד שלו לסביבות Python ו-JVM, כולל Faust לעיבוד זרם Python, Pyspark – Structured Streaming ודוגמאות Scala עבור Kafka Streams. 

סדנה 2: עיבוד זרם עם SQL

תלמדו לעבד ולנהל נתונים סטרימינג עם RisingWave, המספקת פתרון חסכוני עם חוויה בסגנון PostgreSQL כדי להעצים את יישומי עיבוד הזרם שלכם.

פרויקט: יישום הנדסת נתונים בעולם האמיתי

מטרת הפרויקט היא ליישם את כל המושגים שלמדנו בקורס זה כדי לבנות צינור נתונים מקצה לקצה. אתה תיצור ליצירת לוח מחוונים המורכב משני אריחים על ידי בחירת מערך נתונים, בניית צינור לעיבוד הנתונים ואחסוןם באגם נתונים, בניית צינור להעברת הנתונים המעובדים מאגם הנתונים למחסן נתונים, טרנספורמציה הנתונים במחסן הנתונים והכנתם לדשבורד, ולבסוף בניית דשבורד להצגת הנתונים בצורה ויזואלית.

2024 פרטי קבוצה

תנאים מוקדמים

  • כישורי קידוד ושורת פקודה בסיסיים
  • יסוד ב-SQL
  • פייתון: מועיל אך לא חובה

מדריכים מומחים מובילים את המסע שלך

  • אנקוש חאנה
  • ויקטוריה פרז מולה
  • אלכסיי גריגורב
  • מאט פאלמר
  • לואיס אוליביירה
  • מייקל סנדלר

הצטרף לקבוצת 2024 שלנו והתחל ללמוד עם קהילה מדהימה של הנדסת נתונים. עם הכשרה בהנחיית מומחה, ניסיון מעשי ותכנית לימודים המותאמת לצרכי התעשייה, בוטקאמפ זה לא רק מצייד אותך בכישורים הדרושים אלא גם ממצב אותך בחזית מסלול קריירה משתלם ומבוקש. הירשמו עוד היום והפכו את השאיפות שלכם למציאות!
 
 

עביד עלי אוואן (@1abidaliawan) הוא איש מקצוע מוסמך של מדען נתונים שאוהב לבנות מודלים של למידת מכונה. נכון לעכשיו, הוא מתמקד ביצירת תוכן וכתיבת בלוגים טכניים על למידת מכונה וטכנולוגיות מדעי נתונים. עביד הוא בעל תואר שני בניהול טכנולוגיה ותואר ראשון בהנדסת טלקומוניקציה. החזון שלו הוא לבנות מוצר בינה מלאכותית באמצעות רשת עצבית גרפית עבור תלמידים הנאבקים במחלות נפש.

בול זמן:

עוד מ KDnuggets