قم بتشغيل مكدس بيانات حديث في 5 دقائق باستخدام Terraform
ما هو مكدس البيانات الحديث وكيف تقوم بنشره؟ سيحفزك هذا الدليل على البدء في هذه الرحلة بإرشادات الإعداد لـ Airbyte و BigQuery و dbt و Metabase وكل ما تحتاجه باستخدام Terraform.
By توان نجوين، CTO وعضو مجلس إدارة في Joon Solutions.
بنية مكدسة البيانات الحديثة (الصورة من تأليف المؤلف).
ما هو مكدس البيانات الحديث
مكدس البيانات الحديث (MDS) عبارة عن مجموعة من التقنيات التي تجعل أداء مستودع البيانات الحديث أفضل بمقدار 10 إلى 10,000 مرة من مستودع البيانات القديم. وفي النهاية، يوفر نظام MDS الوقت والمال والجهد. الركائز الأربع لحركة الديمقراطيين الاشتراكيين هي أ موصل البياناتأو المعلم مستودع البيانات السحابيةأو المعلم محول البيانات، و ذكاء الأعمال واستكشاف البيانات الأداة.
سهل التكامل أصبح ممكنًا باستخدام أدوات مُدارة ومفتوحة المصدر تقوم مسبقًا بإنشاء مئات الموصلات الجاهزة للاستخدام. ما كان يتطلب إنشاء فريق من مهندسي البيانات وصيانته بانتظام، يمكن الآن استبداله بأداة لحالات الاستخدام البسيطة. الحلول المدارة مثل غرزة و فيفيتران، جنبًا إلى جنب مع الحلول مفتوحة المصدر مثل إيربايت و ميلتانو، يجعلون هذا يحدث.
باستخدام مستودع البيانات العمودي القائم على السحابة لقد كان الاتجاه السائد مؤخرًا بسبب أدائه العالي وفعاليته من حيث التكلفة. بدلاً من دفع 100 ألف دولار سنويًا مقابل قاعدة بيانات MPP (المعالجة المتوازية على نطاق واسع)، يمكنك البدء في الدفع بمبلغ 100 دولار (أو أقل) شهريًا. يقال إن مستودعات البيانات السحابية الأصلية أسرع بمقدار 10 إلى 10,000 مرة من OLTP التقليدية. الخيارات الشعبية في هذه الفئة هي الاستعلام الشامل, ندفة الثلجو الانزياح نحو الأحمر.
في الماضي، كانت معالجة البيانات داخل مستودع البيانات بمثابة عنق الزجاجة بسبب قيود التكنولوجيا. ونتيجة لذلك، كان على الشركات تفضيل ETL بدلاً من ELT لتقليل عبء العمل على مستودع البيانات. مع تقدم مستودعات البيانات السحابية الأصلية، أصبح الكثير أدوات التحويل داخل مستودع البيانات أصبحت شعبية. أبرز هذه الفئة هي dbt (أداة بناء البيانات) وDataform.
أدوات ذكاء الأعمال تُستخدم للعناية ببعض التحولات لتقليل عبء العمل على مستودعات البيانات القديمة أيضًا. ومع ذلك، مع مجموعة البيانات الحديثة، تحول تركيز أدوات ذكاء الأعمال (في رأيي) إلى إضفاء الطابع الديمقراطي على الوصول إلى البيانات، والخدمة الذاتية، واكتشاف البيانات. بعض الأدوات التي أعتقد أنها تسير في الاتجاه الصحيح هي متسكع, التعريفو مجاميع.
الهندسة المعمارية لدينا
قد يكون البدء باستخدام Modern Data Stack أمرًا شاقًا نظرًا لوجود العديد من الأدوات والعمليات المختلفة. تهدف هذه المقالة إلى مساعدتك على البدء في هذه الرحلة بسلاسة قدر الإمكان. هناك العديد من خطوات التحضير، لكنها لا تستغرق سوى القليل خمس دقائق لتدوير جميع الموارد بمجرد الانتهاء.
سنستخدم Terraform، وهي أداة مفتوحة المصدر للبنية الأساسية والتعليمات البرمجية لتوفير كل شيء في Google Cloud. إذا اتبعت الإرشادات أدناه، فإليك الموارد التي سيتم إنشاؤها.
- مشروع Google Cloud مع تمكين واجهة برمجة التطبيقات الضرورية
- الاستيعاب: مثيل GCE يقوم بتشغيل Airbyte
- التخزين: مجموعات بيانات BigQuery
- التزامن (اختياري): مثيل GCE يقوم بتشغيل Airflow
- اكتشاف ذكاء الأعمال والبيانات: مثيل GCE يقوم بتشغيل قاعدة التعريف
- حسابات الخدمة للخدمات المختلفة وربطات أذونات IAM الخاصة بها
البدء
قم بإنشاء حساب Google Cloud وتمكين الفوترة
سوف يتفاعل كود Terraform في هذا المشروع مع Google Cloud Platform. لذلك، خطوتنا الأولى هي إنشاء حساب Google و تمكين الفواتير. لاحظ ال معرف الفواتير بالتنسيق التالي في صفحة الفاتورة: ######-######-######. ستحتاج إلى هذه القيمة في الخطوة التالية.
قم بتثبيت Google Cloud CLI
قم بتثبيت Google Cloud SDK باتباع التعليمات هنا لنظام التشغيل الخاص بك. بعد أن يكون لديك com.gcloud تم تثبيت CLI، قم بتشغيل الأمر التالي في نافذة طرفية واتبع التعليمات. سيسمح هذا لـ Terraform باستخدام بيانات الاعتماد الافتراضية للمصادقة.
gcloud auth application-default login
قم بتثبيت Terraform
اتبع التعليمات هنا لتثبيت Terraform CLI محليًا. قم بتشغيل الأمر التالي بعد ذلك للتحقق من التثبيت:
تضاريس -v
يجب أن نرى شيئا من هذا القبيل:
تيرافورم v1.0.0 على darwin_amd64 + مزود التسجيل.terraform.io/hashicorp/google v3.71.0
شوكة أو استنساخ هذا الريبو محليا
اطلع على شوكة هذا الريبو إلى حسابك أو استنساخه على جهازك المحلي. لاستنساخ الريبو، قم بتشغيل ما يلي:
استنساخ بوابة https://github.com/tuanchris/modern-data-stack مؤتمر نزع السلاح الحديث مكدس البيانات
إنشاء terraform.tfvars ملف
إنشاء terraform.tfvars الملف مع المحتوى التالي:
# معرف الفاتورة من الخطوة الأولى billing_id = ######-######-###### # معرف المجلد الذي تريد أن يكون مشروعك فيه # اترك هذا الحقل فارغًا إذا كنت تستخدم حسابًا شخصيًا معرف المجلد = "" # معرف المؤسسة الذي تريد أن يكون مشروعك فيه # اترك هذا الحقل فارغًا إذا كنت تستخدم حسابًا شخصيًا org_id = "" # المشروع المراد إنشاؤه معرف المشروع = ""
تحذير: تعتبر هذه القيم حساسة. لا ترتكب هذا الملف و *.tfstate الملفات إلى الريبو العام.
تخصيص القيم في المتغيرات.tf
المتغيرات في المتغيرات.tf سيتم استخدامها لتكوينات الموارد.
صورة المؤلف.
يمكنك تخصيص نوع الجهاز للخدمات المختلفة عن طريق تغيير المتغيرات. إذا كنت لا ترغب في استخدام أي خدمة، قم بالتعليق عليها في gce.tf ملف.
يمكنك أيضًا إنشاء مجموعات بيانات مختلفة لأنظمة المصدر الخاصة بك عن طريق إضافتها إلى قاموس مجموعات بيانات المصادر.
إنشاء مكدس بيانات حديث
أخيرًا، لتوفير كل هذه الموارد على Google Cloud، قم بتشغيل الأمر التالي:
تطبيق terraform
صورة المؤلف.
قم بدراسة المخرجات في الجهاز للتأكد من أن جميع إعدادات الموارد هي كما تريدها. يكتب نعم فعلا وضرب أدخل.
ستقوم Terraform بإنشاء مشروع Google Cloud باستخدام مجموعة البيانات الحديثة لدينا. ستستغرق العملية برمتها حوالي 2-3 دقائق. يستغرق تثبيت الخدمات على مثيلات VM 2-3 دقائق إضافية. ستستغرق العملية برمتها 5 دقائق فقط أو أقل.
استخدام مكدس البيانات الحديثة
استرجاع حسابات الخدمة للخدمات المختلفة
صورة المؤلف.
توصي Google باستخدام حساب خدمة مختلف لخدمات مختلفة. أنشأ رمز Terraform في المشروع حسابات مختلفة لتقنيات مختلفة مستخدمة بالفعل. لاسترداد حساب خدمة لخدمة معينة، قم بتشغيل الأمر التالي:
إخراج Terraform [service_name]_sa_key
الإذن الافتراضي لجميع هذه الحسابات هو الأدوار/bigquery.admin. يمكنك تخصيص هذا في iam.tf ملف.
القيمة التي استردتها هي مشفرة بـ base64. لإعادة هذه القيمة مرة أخرى إلى تنسيق JSON، قم بتشغيل الأمر التالي:
صدى "[قيمة من الأمر السابق]" | base64-د
يمكنك استخدام حساب خدمة JSON لمصادقة وصول الخدمة إلى موارد مشروعك.
تحذير: يمكن لأي شخص لديه حساب الخدمة هذا الوصول إلى مشروعك.
استيعاب البيانات مع Airbyte
إيربايت هي أداة ممتازة لتكامل البيانات مفتوحة المصدر. للوصول إلى واجهة مستخدم Airbyte، احصل أولاً على أمر gcloud SSH.
صورة المؤلف.
سوف تحصل على أمر مشابه لهذا:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --مشروع "tf-airbyte-demo"
بعد ذلك، أضف ما يلي إلى الأمر لإعادة توجيه واجهة مستخدم Airbyte محليًا:
-- -L 8000: المضيف المحلي: 8000 -L 8001: المضيف المحلي: 8001 -N -f
سيبدو أمرك النهائي كما يلي:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --مشروع "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - ن -و
ملحوظة: تأكد من حذف حرف السطر الجديد بعد النسخ من واجهة مستخدم GCP.
إذا انتهى مثيل Airbyte من بدء التشغيل، فيمكنك الوصول إليه بالانتقال إلى متصفحك وزيارة المضيف المحلي: 8000. إذا لم يكن الأمر كذلك، فانتظر خمس دقائق حتى يكمل المثيل عملية التثبيت.
صورة المؤلف.
يمكنك الآن دمج مصادرك وإضافة وجهة BigQuery باستخدام airbyte_sa_key، واحصل على بياناتك في BigQuery في وقت قصير جدًا.
يمكنك الوصول إلى تثبيت Airbyte على /ايربايت/ داخل الجهاز الظاهري.
بيانات النموذج مع dbt
DBT (أداة بناء البيانات) هي أداة قوية لتحويل البيانات مفتوحة المصدر باستخدام SQL. فهو يمكّن محللي البيانات من القيام بالعمل الذي كان محجوزًا مسبقًا لمهندسي البيانات. كما أنه يساعد في إنشاء منصب جديد تمامًا يسمى مهندس التحليلات، وهو مزيج من محلل البيانات ومهندس البيانات. يمكنك قراءة المزيد عن المنصب في مدونتي هنا.
صورة المؤلف.
على عكس Airbyte وAirflow وMetabase، لا تحتاج إلى خادم لتشغيل dbt. يمكنك التسجيل للحصول على حساب مجاني (للأبد) بمقعد واحد من خلال زيارة موقعهم موقع الكتروني.
تنظيم سير العمل باستخدام Airflow
تدفق الهواء هي أداة لتنسيق سير العمل أثبتت جدواها في المعركة وتم إنشاؤها بواسطة Airbnb. مع مكدس البيانات الحديث، نأمل ألا تضطر إلى استخدام Airflow كثيرًا. ومع ذلك، في بعض الحالات التي تتطلب بعض التخصيص، يمكن أن يكون Airflow هو الأداة المفضلة لديك.
للوصول إلى واجهة المستخدم، احصل على أمر SSH المشابه للقسم أعلاه مع Airbyte. استخدم الأمر التالي لإعادة توجيه المنفذ:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airflow" --مشروع "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
يمكنك الآن الوصول إلى تثبيت Airflow على المضيف المحلي: 8080. اسم المستخدم وكلمة المرور الافتراضية هي مشرف و مشرف.
صورة المؤلف.
يمكنك الوصول إلى تركيب تدفق الهواء في /تدفق الهواء/ داخل الجهاز الظاهري.
تصور البيانات مع قاعدة التعريف
التعريف هي أداة مفتوحة المصدر لتصور البيانات واكتشافها. إنه سهل الاستخدام للغاية وسهل البدء به.
للوصول إلى واجهة مستخدم قاعدة التعريف، احصل على أمر SSH المشابه للقسم أعلاه مع Airbyte. ثم استخدم الأمر التالي لإعادة توجيه المنفذ:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --مشروع "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
صورة المؤلف.
تنظيف
لتجنب أي تكلفة غير مرغوب فيها، تأكد من تنظيف الموارد التي تم إنشاؤها في هذا المشروع عن طريق التشغيل.
تدمير terraform
: تحذير سيؤدي هذا إلى حذف أي بيانات وموارد ثابتة في المشروع. وبدلاً من ذلك، يمكنك إيقاف تشغيل الحملة العالمية للتعليم غير المستخدمة لتوفير التكاليف أيضًا.
أصلي. تم إعادة النشر بإذن.
السيرة الذاتية: توان نجوين هو الرئيس التنفيذي للتكنولوجيا في Joon Solutions ، وهي شركة بيانات كشركة خدمات. تدور خبراته المهنية حول بناء وإدارة فرق علوم البيانات والبنية التحتية للتحليلات وحالات استخدام التحليلات. إنه يحب الجمع بين شغفه بتحليلات البيانات والحوسبة السحابية لمساعدة الشركات على الحفاظ على قدرتها التنافسية في هذا اليوم وهذا العصر الرقمي. لديه مجموعة واسعة من الاهتمامات ، بما في ذلك علم الفلك والقراءة والموسيقى وإنترنت الأشياء.
هذا الموضوع ذو علاقة بـ:
المصدر: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- الوصول
- حسابي
- إضافي
- Airbnb
- الكل
- المحلل
- تحليلات
- أباتشي
- API
- هندسة معمارية
- حول
- البند
- علم الفلك
- التحقّق من المُستخدم
- السيارات
- بيتا
- الاستعلام الشامل
- الفواتير
- المدونة
- مجلس
- عضو مجلس إدارة
- الحدود
- المتصفح
- نساعدك في بناء
- ابني
- الأعمال
- يهمني
- الحالات
- سحابة
- الحوسبة السحابية
- منصة سحابة
- الكود
- الشركات
- حول الشركة
- إحصاء
- الحوسبة
- محتوى
- التكاليف
- خلق
- CTO
- البيانات
- الوصول إلى البيانات
- تحليلات البيانات
- تكامل البيانات
- علم البيانات
- عرض مرئي للمعلومات
- مستودع البيانات
- مستودعات البيانات
- قاعدة البيانات
- يوم
- التعلم العميق
- هدم
- رقمي
- مدير المدارس
- اكتشاف
- مهندس
- المهندسين
- خبرة
- الاسم الأول
- تركز
- اتباع
- شكل
- مجانًا
- ذهبي
- شراء مراجعات جوجل
- سحابة جوجل
- وحدات معالجة الرسومات
- توجيه
- هنا
- مرتفع
- كيفية
- HTTPS
- مئات
- مهجنة
- IAM
- صورة
- بما فيه
- البنية التحتية
- التكامل
- المشاركة
- قام المحفل
- IT
- تعلم
- تعلم
- لينكدين:
- محلي
- محليا
- آلة التعلم
- القيام ب
- متوسط
- ML
- مال
- موسيقى
- online
- جاكيت
- المصدر المفتوح
- مراجعة
- مزيد من الخيارات
- كلمة المرور
- أداء
- المنصة
- أكثر الاستفسارات
- تنفيذ المشاريع
- جمهور
- نطاق
- نادي القراءة
- تخفيض
- مورد
- الموارد
- يجري
- تشغيل
- علوم
- العلماء
- الإستراحة
- خدمة ذاتية، إخدم نفسك بنفسك
- خدمات
- الاشارات
- الحلول
- غزل
- SQL
- بداية
- بدأت
- إقامة
- قصص
- أنظمة
- التكنولوجيا
- الوقت
- تيشرت
- تحول
- تحويل
- ui
- قيمنا
- التصور
- انتظر
- المخزن
- ما هي تفاصيل
- للعمل
- سير العمل
- X
- عام