Terraform کے ساتھ 5 منٹ میں ایک جدید ڈیٹا اسٹیک کو بوٹسٹریپ کریں۔
جدید ڈیٹا اسٹیک کیا ہے اور آپ اسے کیسے تعینات کرتے ہیں؟ یہ گائیڈ آپ کو Airbyte، BigQuery، dbt، Metabase، اور Terraform استعمال کرنے کے لیے درکار ہر چیز کے لیے سیٹ اپ ہدایات کے ساتھ اس سفر کو شروع کرنے کی ترغیب دے گی۔
By Tuan Nguyen، جون سلوشنز میں سی ٹی او اور بورڈ ممبر.
ایک جدید ڈیٹا اسٹیک آرکیٹیکچر (تصویر بذریعہ مصنف)۔
جدید ڈیٹا اسٹیک کیا ہے؟
ماڈرن ڈیٹا اسٹیک (MDS) ٹیکنالوجیز کا ایک اسٹیک ہے جو ایک جدید ڈیٹا گودام کو 10–10,000x بہتر کارکردگی کا مظاہرہ کرنے والے ڈیٹا گودام سے بہتر بناتا ہے۔ بالآخر، ایک MDS وقت، پیسہ، اور کوشش بچاتا ہے۔ MDS کے چار ستون ہیں a ڈیٹا کنیکٹر، ایک کلاؤڈ ڈیٹا گودام، ایک ڈیٹا ٹرانسفارمر، اور ایک BI اور ڈیٹا ایکسپلوریشن آلہ.
آرام سے انضمام مینیجڈ اور اوپن سورس ٹولز کے ذریعے ممکن بنایا گیا ہے جو استعمال کے لیے تیار سینکڑوں کنیکٹرز کو پہلے سے بناتے ہیں۔ جو کچھ ڈیٹا انجینئرز کی ٹیم کو باقاعدگی سے بنانے اور برقرار رکھنے کے لیے لیا جاتا تھا اسے اب استعمال کے آسان کیسز کے لیے ایک ٹول سے تبدیل کیا جا سکتا ہے۔ جیسے منظم حل سلائی اور فائیو ٹران، جیسے اوپن سورس حل کے ساتھ ایئر بائٹ اور میلٹانو، ایسا کر رہے ہیں۔
ایک کا استعمال کرتے ہوئے کلاؤڈ بیسڈ کالمر ڈیٹا گودام اس کی اعلی کارکردگی اور لاگت کی تاثیر کی وجہ سے حال ہی میں رجحان رہا ہے۔ آن پریمیس MPP (بڑے پیمانے پر متوازی پروسیسنگ) ڈیٹا بیس کے لیے ہر سال $100K ادا کرنے کے بجائے، آپ ہر ماہ $100 (یا اس سے کم) سے ادائیگی شروع کر سکتے ہیں۔ کلاؤڈ کے مقامی ڈیٹا گوداموں کے بارے میں کہا جاتا ہے کہ وہ روایتی OLTP سے 10-10,000 گنا زیادہ تیز ہیں۔ اس زمرے میں مقبول اختیارات ہیں۔ بگ سوال, میں Snowflake، اور Redshift.
پرانے دنوں میں، ڈیٹا گودام کے اندر ڈیٹا پروسیسنگ ٹیکنالوجی کی حدود کی وجہ سے رکاوٹ تھی۔ نتیجے کے طور پر، کمپنیوں کو ڈیٹا گودام کے کام کا بوجھ کم کرنے کے لیے ELT کے بجائے ETL کی حمایت کرنا پڑی۔ کلاؤڈ-آبائی ڈیٹا گوداموں کی ترقی کے ساتھ، تاہم، بہت سے ڈیٹا گودام میں تبدیلی کے ٹولز مقبول ہو رہے ہیں. اس زمرے میں سب سے زیادہ قابل ذکر ڈی بی ٹی (ڈیٹا بلڈ ٹول) اور ڈیٹافارم ہیں۔
BI ٹولز میراثی ڈیٹا گوداموں پر بھی کام کا بوجھ کم کرنے کے لیے کچھ تبدیلیوں کا خیال رکھنے کے لیے استعمال کیا جاتا ہے۔ تاہم، جدید ڈیٹا اسٹیک کے ساتھ، BI ٹولز کی توجہ ڈیٹا تک رسائی، سیلف سروس، اور ڈیٹا کی دریافت کو جمہوری بنانے کے لیے (میری رائے میں) منتقل کر دی گئی ہے۔ کچھ ٹولز جو میرے خیال میں صحیح سمت میں جا رہے ہیں۔ دیکھنےوالا, میٹا بیس، اور Superset.
ہمارا فن تعمیر
جدید ڈیٹا اسٹیک کے ساتھ شروع کرنا مشکل ہوسکتا ہے کیونکہ بہت سے مختلف ٹولز اور عمل اس میں شامل ہیں۔ اس مضمون کا مقصد آپ کو اس سفر کو ہر ممکن حد تک بغیر کسی رکاوٹ کے شروع کرنے میں مدد کرنا ہے۔ تیاری کے بہت سے اقدامات ہیں، لیکن یہ صرف لیتا ہے پانچ منٹ ایک بار جب آپ کام کر لیں تو تمام وسائل کو گھماؤ۔
ہم استعمال کریں گے ٹرافیفار, گوگل کلاؤڈ میں ہر چیز کی فراہمی کے لیے بنیادی ڈھانچے کے بطور کوڈ اوپن سورس ٹول۔ اگر آپ نیچے دی گئی ہدایات پر عمل کرتے ہیں، تو یہاں وہ وسائل ہیں جو بنائے جائیں گے۔
- ایک گوگل کلاؤڈ پروجیکٹ جس میں ضروری API فعال ہے۔
- ادخال: ایک GCE مثال جو Airbyte چلا رہی ہے۔
- گودام: BigQuery ڈیٹاسیٹس
- آرکیسٹریشن (اختیاری): ایک GCE مثال جو ایئر فلو چلا رہی ہے۔
- BI اور ڈیٹا کی دریافت: میٹا بیس کو چلانے والا GCE مثال
- سروس مختلف سروسز اور ان کی IAM اجازت کے پابند ہیں۔
شروع کریں
گوگل کلاؤڈ اکاؤنٹ بنائیں اور بلنگ کو فعال کریں۔
اس پروجیکٹ میں ٹیرافارم کوڈ گوگل کلاؤڈ پلیٹ فارم کے ساتھ تعامل کرے گا۔ لہذا، ہمارا پہلا قدم گوگل اکاؤنٹ بنانا ہے۔ بلنگ کو فعال کریں۔. نوٹ کریں۔ بلنگ ID بلنگ پیج میں درج ذیل فارمیٹ کے ساتھ: ######-######-#####. آپ کو اگلے مرحلے میں اس قدر کی ضرورت ہوگی۔
گوگل کلاؤڈ CLI انسٹال کریں۔
ہدایات پر عمل کرتے ہوئے Google Cloud SDK انسٹال کریں۔ یہاں آپ کے متعلقہ OS کے لیے۔ آپ کے پاس ہونے کے بعد gcloud CLI انسٹال ہوا، درج ذیل کمانڈ کو ٹرمینل ونڈو میں چلائیں اور ہدایات پر عمل کریں۔ یہ Terraform کو تصدیق کے لیے پہلے سے طے شدہ اسناد کا استعمال کرنے دے گا۔
gcloud auth ایپلیکیشن - ڈیفالٹ لاگ ان
ٹیرافارم انسٹال کریں۔
ہدایات پر عمل کریں یہاں ٹیرافارم سی ایل آئی کو مقامی طور پر انسٹال کرنے کے لیے۔ اپنی تنصیب کو چیک کرنے کے لیے بعد میں درج ذیل کمانڈ کو چلائیں:
terraform -v
تمہیں اس طرح کچھ دیکھنا چاہئے:
darwin_amd1.0.0 + فراہم کنندہ registry.terraform.io/hashicorp/google v64 پر Terraform v3.71.0
اس ریپو کو مقامی طور پر فورک یا کلون کریں۔
آپ اس ریپو کو فورک کریں۔ اپنے اکاؤنٹ میں یا اسے اپنی مقامی مشین میں کلون کریں۔ ریپو کو کلون کرنے کے لیے، درج ذیل کو چلائیں:
گٹ کلون https://github.com/tuanchris/modern-data-stack cd modern-data-stack
ایک تخلیق کریں terraform.tfvars سنچکا
ایک تخلیق کریں terraform.tfvars مندرجہ ذیل مواد کے ساتھ فائل:
# پہلے مرحلے سے بلنگ ID بلنگ_id = ######-#####-###### # اس فولڈر کی ID جہاں آپ اپنے پروجیکٹ کے تحت ہونا چاہتے ہیں # اگر آپ استعمال کرتے ہیں تو اسے خالی چھوڑ دیں۔ a personal account folder_id = "" # تنظیم کی ID جہاں آپ چاہتے ہیں کہ آپ کے پروجیکٹ کے تحت ہوں # اگر آپ ذاتی اکاؤنٹ کا استعمال کرتے ہیں تو اسے خالی چھوڑ دیں org_id = "" # پروجیکٹ_id بنانے کا پروجیکٹ = ""
انتباہ: یہ حساس اقدار سمجھی جاتی ہیں۔ اس فائل اور اس کا ارتکاب نہ کریں۔ *.tfstate عوامی ریپو میں فائلیں
میں اقدار کو حسب ضرورت بنائیں variables.tf
میں متغیرات variables.tf وسائل کی ترتیب کے لیے استعمال کیا جائے گا۔
مصنف کی طرف سے تصویر.
آپ متغیرات کو تبدیل کرکے مختلف خدمات کے لیے مشین کی قسم کو اپنی مرضی کے مطابق بنا سکتے ہیں۔ اگر آپ کوئی سروس استعمال نہیں کرنا چاہتے تو اس پر تبصرہ کریں۔ gce.tf فائل.
آپ اپنے سورس سسٹمز کے لیے مختلف ڈیٹا سیٹس کو سورس ڈیٹاسیٹس ڈکشنری میں شامل کر کے بھی بنا سکتے ہیں۔
ایک جدید ڈیٹا اسٹیک بنائیں
آخر میں، گوگل کلاؤڈ پر ان تمام وسائل کی فراہمی کے لیے، درج ذیل کمانڈ کو چلائیں:
terraform لاگو ہوتا ہے
مصنف کی طرف سے تصویر.
یہ یقینی بنانے کے لیے ٹرمینل میں آؤٹ پٹ کا مطالعہ کریں کہ تمام وسائل کی ترتیبات وہی ہیں جو آپ چاہتے ہیں۔ قسم جی ہاں اور مارا داخل.
Terraform ہمارے جدید ڈیٹا اسٹیک کے ساتھ گوگل کلاؤڈ پروجیکٹ بنائے گا۔ پورے عمل میں تقریباً 2-3 منٹ لگیں گے۔ VM مثالوں پر خدمات کے انسٹال ہونے میں اضافی 2-3 منٹ لگتے ہیں۔ پورے عمل میں صرف 5 منٹ یا اس سے کم وقت لگے گا۔
جدید ڈیٹا اسٹیک کا استعمال
مختلف خدمات کے لیے سروس اکاؤنٹس بازیافت کریں۔
مصنف کی طرف سے تصویر.
گوگل مختلف سروسز کے لیے مختلف سروس اکاؤنٹ استعمال کرنے کی تجویز کرتا ہے۔ پروجیکٹ میں ٹیرافارم کوڈ نے پہلے سے استعمال ہونے والی مختلف ٹیکنالوجیز کے لیے مختلف اکاؤنٹس بنائے ہیں۔ کسی خاص سروس کے لیے سروس اکاؤنٹ کو بازیافت کرنے کے لیے، درج ذیل کمانڈ کو چلائیں:
ٹیرافارم آؤٹ پٹ [سروس_نام]_سا_کی
ان تمام اکاؤنٹس کے لیے پہلے سے طے شدہ اجازت ہے۔ roles/bigquery.admin. آپ اسے میں اپنی مرضی کے مطابق بنا سکتے ہیں۔ iam.tf فائل.
آپ کو جو قدر واپس ملی ہے وہ بیس 64 انکوڈ شدہ ہے۔ اس قدر کو JSON فارمیٹ میں واپس کرنے کے لیے، درج ذیل کمانڈ کو چلائیں:
echo "[پچھلی کمانڈ سے قدر]" | بیس 64 -d
آپ اپنے پروجیکٹ کے وسائل تک سروس کی رسائی کی تصدیق کے لیے JSON سروس اکاؤنٹ استعمال کر سکتے ہیں۔
انتباہ: اس سروس اکاؤنٹ کے ساتھ کوئی بھی شخص آپ کے پروجیکٹ تک رسائی حاصل کرسکتا ہے۔
Airbyte کے ساتھ ڈیٹا داخل کریں۔
ایئر بائٹ ایک بہترین اوپن سورس ڈیٹا انٹیگریشن ٹول ہے۔ Airbyte UI تک رسائی حاصل کرنے کے لیے، پہلے، gcloud SSH کمانڈ حاصل کریں۔
مصنف کی طرف سے تصویر.
آپ کو اس سے ملتا جلتا کمانڈ ملے گا:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo"
اگلا، ایئر بائٹ UI کو مقامی طور پر پورٹ فارورڈ کرنے کے لیے کمانڈ میں درج ذیل کو شامل کریں:
-- -L 8000:localhost:8000 -L 8001:localhost:8001 -N -f
آپ کا حتمی حکم اس طرح نظر آئے گا:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airbyte" --project "tf-airbyte-demo" -- -L 8000:localhost:8000 -L 8001:localhost:8001 - N -f
نوٹ: GCP UI سے کاپی کرنے کے بعد نئی لائن کیریکٹر کو حذف کرنا یقینی بنائیں۔
اگر Airbyte مثال کا آغاز ختم ہو گیا ہے، تو آپ اپنے براؤزر پر جا کر اس تک رسائی حاصل کر سکتے ہیں۔ مقامی ہسٹسٹ: 8000. اگر نہیں، تو انسٹالیشن مکمل کرنے کے لیے مثال کے لیے پانچ منٹ انتظار کریں۔
مصنف کی طرف سے تصویر.
اب آپ اپنے ذرائع کو ضم کر سکتے ہیں، استعمال کر کے ایک BigQuery منزل شامل کر سکتے ہیں۔ airbyte_sa_key، اور اپنا ڈیٹا BigQuery میں بغیر کسی وقت کے رکھیں۔
آپ Airbyte کی تنصیب تک رسائی حاصل کر سکتے ہیں۔ /airbyte/ VM کے اندر
ڈی بی ٹی کے ساتھ ماڈل ڈیٹا
ڈی بی ٹی (ڈیٹا بلڈ ٹول) SQL کا استعمال کرتے ہوئے ایک طاقتور اوپن سورس ڈیٹا ٹرانسفارمیشن ٹول ہے۔ یہ ڈیٹا تجزیہ کاروں کو وہ کام کرنے کے قابل بناتا ہے جو پہلے ڈیٹا انجینئرز کے لیے مختص تھا۔ یہ ایک مکمل طور پر نئی پوزیشن بنانے میں بھی مدد کرتا ہے جسے Analytics انجینئر کہا جاتا ہے، جو ڈیٹا تجزیہ کار اور ڈیٹا انجینئر کا ہائبرڈ ہے۔ آپ میرے بلاگ میں پوزیشن کے بارے میں مزید پڑھ سکتے ہیں۔ یہاں.
مصنف کی طرف سے تصویر.
Airbyte، Airflow، اور Metabase کے برعکس، آپ کو dbt چلانے کے لیے سرور کی ضرورت نہیں ہے۔ آپ ان پر جا کر مفت (ہمیشہ کے لیے) 1-سیٹ اکاؤنٹ کے لیے رجسٹر کر سکتے ہیں۔ ویب سائٹ.
ایر فلو کے ساتھ ورک فلو آرکیسٹریٹ کریں۔
ایئر بہاؤ ایک جنگ سے ثابت شدہ ورک فلو آرکیسٹریشن ٹول ہے جسے Airbnb نے بنایا ہے۔ جدید ڈیٹا اسٹیک کے ساتھ، امید ہے کہ آپ کو ایئر فلو کو زیادہ استعمال نہیں کرنا پڑے گا۔ تاہم، بعض صورتوں میں جہاں کچھ تخصیص کی ضرورت ہوتی ہے، ایئر فلو آپ کے لیے جانے والا ٹول ہو سکتا ہے۔
UI تک رسائی کے لیے، Airbyte کے ساتھ اوپر والے حصے کی طرح SSH کمانڈ حاصل کریں۔ پورٹ فارورڈ کے لیے درج ذیل کمانڈ کا استعمال کریں:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-airflow" --project "tf-airbyte-demo" -- -L 8080:localhost:8080 -N -f
اب آپ ایئر فلو کی تنصیب تک رسائی حاصل کر سکتے ہیں۔ مقامی ہسٹسٹ: 8080. پہلے سے طے شدہ صارف نام اور پاس ورڈ ہیں۔ منتظم اور منتظم.
مصنف کی طرف سے تصویر.
آپ ایئر فلو کی تنصیب تک رسائی حاصل کر سکتے ہیں۔ /ہوا کا بہاؤ/ VM کے اندر
میٹا بیس کے ساتھ ڈیٹا کا تصور کریں۔
میٹا بیس ایک اوپن سورس ڈیٹا ویژولائزیشن اور دریافت ٹول ہے۔ یہ انتہائی صارف دوست اور شروع کرنا آسان ہے۔
میٹا بیس UI تک رسائی حاصل کرنے کے لیے، Airbyte کے ساتھ اوپر والے حصے کی طرح SSH کمانڈ حاصل کریں۔ پھر، پورٹ فارورڈ کے لیے درج ذیل کمانڈ کا استعمال کریں:
gcloud beta compute ssh --zone "asia-southeast1-a" "tf-airbyte-demo-metabase" --project "tf-airbyte-demo" -- -L 3000:localhost:3000 -N -f
مصنف کی طرف سے تصویر.
صاف کرو
کسی بھی ناپسندیدہ لاگت سے بچنے کے لیے، اس پروجیکٹ میں بنائے گئے وسائل کو چلا کر صاف کرنا یقینی بنائیں۔
terraform تباہ
: انتباہ اس سے پروجیکٹ میں موجود کوئی بھی ڈیٹا اور وسائل حذف ہو جائیں گے۔ متبادل طور پر، آپ لاگت بچانے کے لیے غیر استعمال شدہ GCE کو بھی بند کر سکتے ہیں۔
حقیقی. اجازت کے ساتھ دوبارہ پوسٹ کیا۔
بیو: Tuan Nguyen Joon Solutions کا CTO ہے، ایک ڈیٹا بطور سروس کمپنی۔ اس کے پیشہ ورانہ تجربات ڈیٹا سائنس ٹیموں، تجزیات کے بنیادی ڈھانچے، اور تجزیات کے استعمال کے معاملات کی تعمیر اور انتظام کے گرد گھومتے ہیں۔ وہ ڈیٹا اینالیٹکس اور کلاؤڈ کمپیوٹنگ کے لیے اپنے جذبے کو یکجا کرنا پسند کرتا ہے تاکہ کاروبار کو اس ڈیجیٹل دن اور دور میں مسابقتی رہنے میں مدد ملے۔ اس کی دلچسپیوں کی ایک وسیع رینج ہے، بشمول فلکیات، پڑھنا، موسیقی، اور IoT۔
متعلقہ:
ماخذ: https://www.kdnuggets.com/2021/08/bootstrap-modern-data-stack-terraform.html
- "
- &
- تک رسائی حاصل
- اکاؤنٹ
- ایڈیشنل
- Airbnb
- تمام
- تجزیہ کار
- تجزیاتی
- اپاچی
- اے پی آئی
- فن تعمیر
- ارد گرد
- مضمون
- ھگول سائنس
- کی توثیق
- آٹو
- بیٹا
- بڑی پوچھ گچھ
- بلنگ
- بلاگ
- بورڈ
- بورڈ کی رکن
- سرحد
- براؤزر
- تعمیر
- عمارت
- کاروبار
- پرواہ
- مقدمات
- بادل
- کلاؤڈ کمپیوٹنگ
- کلاؤڈ پلیٹ فارم
- کوڈ
- کمپنیاں
- کمپنی کے
- کمپیوٹنگ
- کمپیوٹنگ
- مواد
- اخراجات
- تخلیق
- CTO
- اعداد و شمار
- ڈیٹا تک رسائی
- ڈیٹا تجزیات
- ڈیٹا انضمام
- ڈیٹا سائنس
- اعداد و شمار کی تصور
- ڈیٹا گودام
- ڈیٹا گودام
- ڈیٹا بیس
- دن
- گہری سیکھنے
- تباہ
- ڈیجیٹل
- ڈائریکٹر
- دریافت
- انجینئر
- انجینئرز
- تجربات
- پہلا
- توجہ مرکوز
- پر عمل کریں
- فارمیٹ
- مفت
- گولڈ
- گوگل
- گوگل کلاؤڈ
- GPUs
- رہنمائی
- یہاں
- ہائی
- کس طرح
- HTTPS
- سینکڑوں
- ہائبرڈ
- IAM
- تصویر
- سمیت
- انفراسٹرکچر
- انضمام
- ملوث
- IOT
- IT
- جانیں
- سیکھنے
- لنکڈ
- مقامی
- مقامی طور پر
- مشین لرننگ
- بنانا
- درمیانہ
- ML
- قیمت
- موسیقی
- آن لائن
- کھول
- اوپن سورس
- رائے
- آپشنز کے بھی
- پاس ورڈ
- کارکردگی
- پلیٹ فارم
- مقبول
- منصوبے
- عوامی
- رینج
- پڑھنا
- کو کم
- وسائل
- وسائل
- رن
- چل رہا ہے
- سائنس
- سائنسدانوں
- sdk
- خود خدمت
- سروسز
- سادہ
- حل
- سپن
- SQL
- شروع کریں
- شروع
- رہنا
- خبریں
- سسٹمز
- ٹیکنالوجی
- وقت
- سب سے اوپر
- تبدیلی
- تبدیل
- ui
- قیمت
- تصور
- انتظار
- گودام
- کیا ہے
- کام
- کام کا بہاؤ
- X
- سال