Bootstrap ערימת נתונים מודרנית תוך 5 דקות עם Terraform
מהי מחסנית נתונים מודרנית וכיצד לפרוס כזה? מדריך זה יניע אותך להתחיל במסע זה עם הוראות התקנה עבור Airbyte, BigQuery, dbt, Metabase וכל מה שאתה צריך באמצעות Terraform.
By טואן נגווין, CTO וחבר דירקטוריון ב- Joon Solutions.
ארכיטקטורת מחסנית נתונים מודרנית (תמונה מאת המחבר).
מהי מחסנית נתונים מודרנית
Modern Data Stack (MDS) היא ערימה של טכנולוגיות שגורמות למחסן נתונים מודרני לבצע ביצועים של 10–10,000 פעמים טוב יותר מאשר מחסן נתונים מדור קודם. בסופו של דבר, MDS חוסך זמן, כסף ומאמץ. ארבעת העמודים של MDS הם א מחבר נתונים, מחסן נתונים בענן, שנאי נתוניםו חקר BI ונתונים כלי.
קַל השתלבות מתאפשר עם כלים מנוהלים וקוד פתוח שבונים מראש מאות מחברים מוכנים לשימוש. מה שנדרש בעבר לצוות של מהנדסי נתונים לבנות ולתחזק אותם באופן קבוע ניתן להחליף בכלי לשימוש במקרים פשוטים. פתרונות מנוהלים כמו תפר ו פיווטרן, יחד עם פתרונות קוד פתוח כמו איירבייט ו מלטנו, גורמים לזה לקרות.
באמצעות מחסן נתונים עמודי מבוסס ענן הייתה המגמה לאחרונה בשל הביצועים הגבוהים והחסכוניות שלה. במקום לשלם 100 אלף דולר לשנה עבור מסד נתונים MPP מקומי (עיבוד מקביל מאסיבי), אתה יכול להתחיל לשלם מ -100 דולר (או פחות) לחודש. על פי הדיווחים, מחסני הנתונים המקומיים בענן מהירים פי 10–10,000 פעמים מאשר OLTP מסורתי. האפשרויות הפופולריות בקטגוריה זו הן BigQuery, פְּתִית שֶׁלֶג, ו היסט לאדום.
בימים ההם, עיבוד הנתונים בתוך מחסן הנתונים היה צוואר הבקבוק עקב מגבלות הטכנולוגיה. כתוצאה מכך, חברות היו צריכות להעדיף את ETL במקום ELT כדי להפחית את עומס העבודה של מחסן הנתונים. עם התקדמות מחסני הנתונים המקומיים בענן, עם זאת, רבים כלי טרנספורמציה במחסן נתונים הופכים פופולריים. הבולטים בקטגוריה זו הם dbt (כלי לבניית נתונים) ו- Dataform.
כלי BI נהג לטפל בכמה שינויים כדי להפחית את עומס העבודה גם במחסני נתונים מדור קודם. עם זאת, עם ערימת הנתונים המודרנית, המיקוד של כלי BI הועבר (לדעתי) לדמוקרטיזציה של גישה לנתונים, שירות עצמי וגילוי נתונים. כמה כלים שלדעתי הולכים בכיוון הנכון הם חתיכה, בסיס נתונים, ו sUPERSET.
האדריכלות שלנו
תחילת העבודה עם ערימת הנתונים המודרנית יכולה להיות מרתיעה מכיוון שמדובר בכלים ותהליכים שונים. מאמר זה נועד לעזור לך להתחיל במסע הזה בצורה חלקה ככל האפשר. ישנם שלבי הכנה רבים, אך נדרשים רק חמש דקות לסובב את כל המשאבים לאחר שתסיים.
אנו נשתמש Terraform, כלי קוד פתוח לתשתית כקוד לאספקת הכל ב- Google Cloud. אם תעקוב אחר ההוראות להלן, להלן המשאבים שייווצרו.
- פרויקט Google Cloud עם הפעלת ה- API הדרוש
- בליעה: מופע GCE שמריץ Airbyte
- אחסון: מערכי נתונים של BigQuery
- תזמורת (אופציונלי): מופע GCE המריץ זרימת אוויר
- BI וגילוי נתונים: מופע GCE שבו פועל Metabase
- שירות מתייחס לשירותים שונים וכריכות הרשאת IAM שלהם
למלונות
צור חשבון Google Cloud והפעל חיוב
קוד Terraform בפרויקט זה יקיים אינטראקציה עם פלטפורמת הענן של Google. לכן הצעד הראשון שלנו הוא יצירת חשבון Google ו- אפשר חיוב. שים לב ל מזהה חיוב עם הפורמט הבא בדף החיוב: ######-#############. תצטרך ערך זה בשלב הבא.
התקן את Google Cloud CLI
התקן את Google Cloud SDK בהתאם להוראות כאן עבור מערכת ההפעלה המתאימה שלך. אחרי שיש לך את gcloud CLI מותקן, הפעל את הפקודה הבאה בחלון מסוף ופעל לפי ההוראות. זה יאפשר ל- Terraform להשתמש באישור ברירת המחדל לאימות.
כניסה ברירת מחדל של יישום gcloud auth
התקן terraform
עקוב אחר ההוראות כאן כדי להתקין את Terraform CLI באופן מקומי. הפעל את הפקודה הבאה לאחר מכן כדי לבדוק את ההתקנה שלך:
terraform -v
אתה אמור לראות משהו כזה:
Terraform v1.0.0 ב- darwin_amd64 + ספק registry.terraform.io/hashicorp/google v3.71.0
מזלג או משבט את המאגר הזה באופן מקומי
אתה יכול מזלג את הריפו הזה לחשבון שלך או לשכפל אותו למחשב המקומי שלך. כדי לשכפל את הריפו, הפעל את הפעולות הבאות:
git שיבוט https://github.com/tuanchris/modern-data-stack cd modern-data-stack
צור terraform.tfvars פילה
צור terraform.tfvars קובץ עם התוכן הבא:
#מזהה החיוב מהשלב הראשון billing_id = ######-######-#######מזהה התיקיה שבו אתה רוצה שהפרויקט שלך יהיה תחת#השאר את זה ריק אם אתה משתמש חשבון אישי folder_id = "" # מזהה הארגון שבו אתה רוצה שהפרויקט שלך יהיה תחת # השאר את זה ריק אם אתה משתמש בחשבון אישי org_id = "" # הפרויקט ליצירת project_id = ""
אזהרה: אלה נחשבים לערכים רגישים. אל תחייב את הקובץ הזה ואת *. tfstate קבצים למאגר ציבורי.
התאם אישית את הערכים ב- משתנים. tf
המשתנים ב- משתנים. tf ישמש לתצורות המשאבים.
תמונה מאת המחבר.
אתה יכול להתאים אישית את סוג המכונה לשירותים שונים על ידי שינוי המשתנים. אם אינך רוצה להשתמש בשירות כלשהו, הגיב על כך ב gce.tf קובץ.
תוכל גם ליצור מערכי נתונים שונים עבור מערכות המקור שלך על ידי הוספתם למילון מערכות הנתונים של מקורות.
צור ערימת נתונים מודרנית
לבסוף, כדי לספק את כל המשאבים האלה ב- Google Cloud, הפעל את הפקודה הבאה:
להחיל terraform
תמונה מאת המחבר.
למד את הפלט במסוף כדי לוודא שכל הגדרות המשאבים הן מה שאתה רוצה שיהיו. סוּג כן ופגע להיכנס.
Terraform תיצור פרויקט Google Cloud עם מחסנית הנתונים המודרנית שלנו. כל התהליך ייקח בערך 2-3 דקות. נדרשות עוד 2-3 דקות להתקנת השירותים על מופעי VM. כל התהליך ייקח רק 5 דקות או פחות.
שימוש בערימת הנתונים המודרנית
אחזר חשבונות שירות עבור שירותים שונים
תמונה מאת המחבר.
Google ממליצה להשתמש בחשבון שירות אחר עבור שירותים שונים. קוד הטראפורם בפרויקט יצר חשבונות שונים עבור טכנולוגיות שונות שהיו בשימוש כבר. כדי לאחזר חשבון שירות עבור שירות מסוים, הפעל את הפקודה הבאה:
פלט terraform [שם_שירות] _sa_key
הרשאת ברירת המחדל עבור כל החשבונות האלה היא תפקידים/bigquery.admin. אתה יכול להתאים אישית את זה ב- iam.tf קובץ.
הערך שקיבלת בחזרה הוא מקודד base64. כדי להחזיר ערך זה לתבנית JSON, הפעל את הפקודה הבאה:
הד "[ערך מהפקודה הקודמת]" | base64 -d
תוכל להשתמש בחשבון שירות JSON כדי לאמת את גישת השירות למשאבי הפרויקט שלך.
אזהרה: כל מי שיש לו חשבון שירות זה יכול לגשת לפרויקט שלך.
לצרוך נתונים עם Airbyte
איירבייט הוא כלי מעולה לשילוב נתונים של קוד פתוח. כדי לגשת לממשק המשתמש של Airbyte, ראשית, קבל את הפקודה gcloud SSH.
תמונה מאת המחבר.
תקבל פקודה דומה לזה:
gcloud בטא מחשב ssh-אזור "אסיה-דרום מזרח1-א" "tf-airbyte-demo-airbyte"-פרויקט "tf-airbyte-demo"
לאחר מכן, הוסף את הפקודה הבאה לפקודה להעביר את ממשק המשתמש של Airbyte באופן מקומי:
--L 8000: localhost: 8000 -L 8001: localhost: 8001 -N -f
הפקודה האחרונה שלך תיראה כך:
gcloud בטא מחשב ssh-אזור "אסיה-דרום מזרח1-א" "tf-airbyte-demo-airbyte"-פרויקט "tf-airbyte-demo"--L 8000: localhost: 8000 -L 8001: localhost: 8001- N -f
הערה: הקפד למחוק את תו הקו החדש לאחר ההעתקה ממשק המשתמש של GCP.
אם מופע ה- Airbyte סיים את האתחול, תוכל לגשת אליו על ידי מעבר לדפדפן שלך וביקור 8000. אם לא, המתן חמש דקות עד שהמופע יסיים את ההתקנה.
תמונה מאת המחבר.
כעת תוכל לשלב את המקורות שלך, להוסיף יעד BigQuery באמצעות airbyte_sa_key, ושמור את הנתונים שלך ב- BigQuery תוך זמן קצר.
תוכל לגשת להתקנת Airbyte בכתובת /airbyte/ בתוך ה- VM.
נתוני מודל עם dbt
dbt (כלי לבניית נתונים) הוא כלי רב עוצמה לשינוי נתונים פתוח באמצעות SQL. הוא מאפשר לאנליסטים של הנתונים לבצע את העבודה שהייתה שמורה בעבר למהנדסי נתונים. זה גם עוזר ליצור תפקיד חדש לגמרי בשם Analytics Engineer, הכלאה של מנתח נתונים ומהנדס נתונים. תוכל לקרוא עוד על התפקיד בבלוג שלי כאן.
תמונה מאת המחבר.
שלא כמו Airbyte, Airflow ו- Metabase, אינך צריך שרת להפעלת dbt. אתה יכול להירשם לחשבון 1 מושב בחינם (לנצח) על ידי ביקור באתר שלו אתר אינטרנט.
תזמו את זרימת העבודה עם זרימת אוויר
זרימת אוויר הוא כלי תזמורת עבודה מוכח קרב שנוצר על ידי Airbnb. עם ערימת נתונים מודרנית, אני מקווה שלא תצטרך להשתמש הרבה ב- Airflow. עם זאת, במקרים מסוימים בהם יש צורך בהתאמה אישית מסוימת, זרימת אוויר יכולה להיות הכלי שלך.
כדי לגשת לממשק המשתמש, קבל את הפקודה SSH בדומה לסעיף לעיל עם Airbyte. השתמש בפקודה הבאה עבור פורט קדימה:
gcloud בטא מחשב ssh-אזור "אסיה-דרום מזרח1-א" "tf-airbyte-demo-airflow"-פרויקט "tf-airbyte-demo"--L 8080: localhost: 8080 -N -f
כעת תוכל לגשת להתקנת זרימת האוויר בכתובת 8080. שם המשתמש והסיסמה המוגדרים כברירת מחדל הם מנהל ו מנהל.
תמונה מאת המחבר.
תוכל לגשת להתקנת זרימת האוויר בכתובת /זרימת אוויר/ בתוך ה- VM.
דמיינו נתונים בעזרת Metabase
בסיס נתונים הוא כלי הדמיה וגילוי של קוד פתוח לנתונים. הוא מאוד ידידותי למשתמש וקל להתחיל איתו.
כדי לגשת לממשק המשתמש של Metabase, קבל את הפקודה SSH הדומה לסעיף לעיל עם Airbyte. לאחר מכן, השתמש בפקודה הבאה עבור קדימה-פורט:
gcloud בטא מחשב ssh-אזור "אסיה-דרום מזרח1-א" "tf-airbyte-demo-metabase"-פרויקט "tf-airbyte-demo"--L 3000: localhost: 3000 -N -f
תמונה מאת המחבר.
לנקות את
כדי להימנע מכל עלות לא רצויה, הקפד לנקות את המשאבים שנוצרו בפרויקט זה על ידי הפעלה.
להרוס את הטרפורמים
אַזהָרָה: פעולה זו תמחק את הנתונים והמשאבים המתמשכים בפרויקט. לחלופין, תוכל לכבות את ה- GCE שאינו בשימוש גם כדי לחסוך בעלויות.
מְקוֹרִי. פורסם מחדש באישור.
Bio you טואן נגווין הוא ה- CTO של Joon Solutions, חברת Data as a Service. ניסיונותיו המקצועיים סובבים סביב בנייה וניהול של צוותי מדעי נתונים, תשתית אנליטיקה ומקרי שימוש. הוא אוהב לשלב את התשוקה שלו לניתוח נתונים ומחשוב ענן כדי לעזור לעסקים להישאר תחרותיים בעידן הדיגיטלי הזה. יש לו מגוון רחב של תחומי עניין, כולל אסטרונומיה, קריאה, מוסיקה ו- IoT.
מידע נוסף:
הסיפורים הגדולים ביותר ב 30 יום | |||||
---|---|---|---|---|---|
|
|
מקור: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- גישה
- חֶשְׁבּוֹן
- נוסף
- Airbnb
- תעשיות
- מנתח
- ניתוח
- אַפָּשׁ
- API
- ארכיטקטורה
- סביב
- מאמר
- אסטרונומיה
- אימות
- המכונית
- בטא
- bigquery
- חיוב
- בלוג
- לוּחַ
- חבר המועצה
- גבול
- דפדפן
- לִבנוֹת
- בִּניָן
- עסקים
- אשר
- מקרים
- ענן
- ענן מחשוב
- פלטפורמת ענן
- קוד
- חברות
- חברה
- לחשב
- מחשוב
- תוכן
- עלויות
- יוצרים
- ראש אגף טכנולוגיה
- נתונים
- גישה למידע
- ניתוח נתונים
- שילוב נתונים
- מדע נתונים
- נתונים להדמיה
- מחסן נתונים
- מחסני נתונים
- מסד נתונים
- יְוֹם
- למידה עמוקה
- להרוס
- דיגיטלי
- מְנַהֵל
- תגלית
- מהנדס
- מהנדסים
- חוויות
- ראשון
- להתמקד
- לעקוב
- פוּרמָט
- חופשי
- זהב
- Google Cloud
- GPUs
- מדריך
- כאן
- גָבוֹהַ
- איך
- HTTPS
- מאות
- היברידי
- IAM
- תמונה
- כולל
- תשתית
- השתלבות
- מעורב
- IOT
- IT
- לִלמוֹד
- למידה
- לינקדין
- מקומי
- באופן מקומי
- למידת מכונה
- עשייה
- בינוני
- ML
- כסף
- כלי נגינה
- באינטרנט
- לפתוח
- קוד פתוח
- דעה
- אפשרויות
- סיסמה
- ביצועים
- פלטפורמה
- פופולרי
- פּרוֹיֶקט
- ציבורי
- רכס
- קריאה
- להפחית
- משאב
- משאבים
- הפעלה
- ריצה
- מדע
- מדענים
- Sdk
- שירות עצמי
- שירותים
- פָּשׁוּט
- פתרונות
- לְסוֹבֵב
- SQL
- התחלה
- החל
- להשאר
- סיפורים
- מערכות
- טכנולוגיות
- זמן
- חלק עליון
- טרנספורמציה
- הפיכה
- ui
- ערך
- ראיה
- לחכות
- מחסן
- מה
- תיק עבודות
- זרימת עבודה
- X
- שנה