اپاچی ہودی ایک اوپن ٹیبل فارمیٹ ہے جو ڈیٹا بیس اور ڈیٹا گودام کی صلاحیتوں کو ڈیٹا لیکس میں لاتا ہے۔ Apache Hudi ڈیٹا انجینئرز کو پیچیدہ چیلنجوں کا انتظام کرنے میں مدد کرتا ہے، جیسے کہ استفسار کی کارکردگی کو برقرار رکھتے ہوئے لین دین کے ساتھ مسلسل تیار ڈیٹا سیٹس کا انتظام کرنا۔ ڈیٹا انجینئرز Apache Hudi کا استعمال کام کے بوجھ کو چلانے کے ساتھ ساتھ موثر اضافی ڈیٹا پائپ لائنز بنانے کے لیے کرتے ہیں۔ ہودی فراہم کرتا ہے۔ میزیں, لین دین, مؤثر upserts اور حذف, اعلی درجے کی اشاریہ جات, سٹریمنگ ادخال کی خدمات، ڈیٹا clustering کے اور کمپریشن اصلاح، اور اتفاق سے متعلق کنٹرولاپنے ڈیٹا کو اوپن سورس فائل فارمیٹس میں رکھنے کے دوران۔ ہدی کی اعلیٰ کارکردگی کی اصلاح اپاچی اسپارک، پریسٹو، ٹرینو، ہائیو، وغیرہ سمیت کسی بھی مقبول استفسار کے انجن کے ساتھ تجزیاتی کام کے بوجھ کو تیز تر بناتی ہے۔
AWS کے بہت سے صارفین نے Apache Hudi کو اپنی ڈیٹا لیکس پر اپنایا جو Amazon S3 کے اوپر بنی ہوئی AWS گلو، ایک سرور لیس ڈیٹا انٹیگریشن سروس جو تجزیات، مشین لرننگ (ML) اور ایپلیکیشن ڈویلپمنٹ کے لیے متعدد ذرائع سے ڈیٹا کو دریافت کرنا، تیار کرنا، منتقل کرنا اور انٹیگریٹ کرنا آسان بناتی ہے۔ AWS گلو کرالر AWS Glue کا ایک جزو ہے، جو آپ کو میٹا ڈیٹا کی دستی تعریف کے بغیر خود بخود ڈیٹا کے مواد سے ٹیبل میٹا ڈیٹا بنانے کی اجازت دیتا ہے۔
AWS Glue کرالر اب Apache Hudi ٹیبلز کو سپورٹ کرتے ہیں۔، کو اپنانے کو آسان بنانا AWS گلو ڈیٹا کیٹلاگ ہودی میزوں کے کیٹلاگ کے طور پر۔ استعمال کا ایک عام معاملہ ہدی میزوں کو رجسٹر کرنا ہے، جس میں کیٹلاگ ٹیبل کی تعریف نہیں ہے۔ ایک اور عام استعمال کا معاملہ دوسرے ہدی کیٹلاگ سے ہجرت ہے، جیسے Hive میٹاسٹور۔ دوسرے ہدی کیٹلاگ سے ہجرت کرتے وقت، آپ AWS Glue کرالر بنا اور شیڈول کر سکتے ہیں اور ایک یا زیادہ Amazon S3 راستے فراہم کر سکتے ہیں جہاں Hudi ٹیبل فائلیں واقع ہیں۔ آپ کے پاس Amazon S3 راستوں کی زیادہ سے زیادہ گہرائی فراہم کرنے کا اختیار ہے جسے AWS Glue کرالر عبور کر سکتا ہے۔ ہر رن کے ساتھ، AWS Glue کرالر سکیما اور پارٹیشن کی معلومات نکالیں گے اور AWS Glue ڈیٹا کیٹلاگ کو سکیما اور پارٹیشن تبدیلیوں کے ساتھ اپ ڈیٹ کریں گے۔ AWS Glue کرالر AWS Glue ڈیٹا کیٹلاگ میں تازہ ترین میٹا ڈیٹا فائل لوکیشن کو اپ ڈیٹ کرتا ہے جسے AWS تجزیاتی انجن براہ راست استعمال کر سکتے ہیں۔
اس لانچ کے ساتھ، آپ AWS Glue کرالر کو AWS Glue Data Catalog میں Hudi ٹیبل رجسٹر کرنے کے لیے بنا اور شیڈول کر سکتے ہیں۔ اس کے بعد آپ ایک یا ایک سے زیادہ Amazon S3 راستے فراہم کر سکتے ہیں جہاں ہدی میزیں واقع ہیں۔ آپ کے پاس Amazon S3 راستوں کی زیادہ سے زیادہ گہرائی فراہم کرنے کا اختیار ہے جسے کرالر عبور کر سکتے ہیں۔ ہر کرالر رن کے ساتھ، کرالر S3 راستوں میں سے ہر ایک کا معائنہ کرتا ہے اور اسکیما کی معلومات کو کیٹلاگ کرتا ہے، جیسے کہ AWS Glue Data Catalog میں نئی ٹیبلز، ڈیلیٹس، اور اسکیموں کی اپ ڈیٹس۔ کرالر پارٹیشن کی معلومات کا معائنہ کرتے ہیں اور AWS Glue Data Catalog میں نئے شامل کردہ پارٹیشنز کو شامل کرتے ہیں۔ کرالر AWS Glue Data Catalog میں تازہ ترین میٹا ڈیٹا فائل لوکیشن کو بھی اپ ڈیٹ کرتے ہیں جسے AWS تجزیاتی انجن براہ راست استعمال کر سکتے ہیں۔
یہ پوسٹ ظاہر کرتی ہے کہ ہدی ٹیبلز کو کرال کرنے کی یہ نئی صلاحیت کیسے کام کرتی ہے۔
AWS Glue کرالر Hudi ٹیبلز کے ساتھ کیسے کام کرتا ہے۔
ہودی جدولوں کی دو قسمیں ہیں، ہر ایک کے لیے مخصوص مضمرات کے ساتھ:
- لکھنے پر کاپی کریں (CoW) - ڈیٹا کالم فارمیٹ (پارکیٹ) میں محفوظ کیا جاتا ہے، اور ہر اپ ڈیٹ لکھنے کے دوران فائلوں کا ایک نیا ورژن بناتا ہے۔
- پڑھنے پر ضم کریں (MoR) - کالم (پارکیٹ) اور قطار پر مبنی (ایورو) فارمیٹس کے امتزاج کا استعمال کرتے ہوئے ڈیٹا کو ذخیرہ کیا جاتا ہے۔ اپ ڈیٹس کو قطار کی بنیاد پر لاگ ان کیا جاتا ہے۔
delta
فائلیں اور کالم فائلوں کے نئے ورژن بنانے کے لیے ضرورت کے مطابق کمپیکٹ کیے جاتے ہیں۔
CoW ڈیٹاسیٹس کے ساتھ، جب بھی کسی ریکارڈ میں اپ ڈیٹ ہوتا ہے، ریکارڈ پر مشتمل فائل کو اپ ڈیٹ شدہ اقدار کے ساتھ دوبارہ لکھا جاتا ہے۔ ایم او آر ڈیٹاسیٹ کے ساتھ، جب بھی کوئی اپ ڈیٹ ہوتا ہے، ہودی بدلے ہوئے ریکارڈ کے لیے صرف قطار لکھتا ہے۔ MoR لکھنے یا کم پڑھنے والے بھاری کام کے بوجھ کے لیے بہتر موزوں ہے۔ CoW ڈیٹا پر پڑھنے والے بھاری کام کے بوجھ کے لیے بہتر موزوں ہے جو کم بار تبدیل ہوتے ہیں۔
ہدی ڈیٹا تک رسائی کے لیے سوالات کی تین اقسام فراہم کرتا ہے:
- سنیپ شاٹ کے سوالات - وہ سوالات جو ٹیبل کا تازہ ترین سنیپ شاٹ کسی دیے گئے کمٹ یا کمپیکشن ایکشن کے طور پر دیکھتے ہیں۔ ایم او آر ٹیبلز کے لیے، اسنیپ شاٹ کے استفسارات استفسار کے وقت تازہ ترین فائل سلائس کے بیس اور ڈیلٹا فائلوں کو ملا کر ٹیبل کی تازہ ترین حالت کو ظاہر کرتے ہیں۔
- بڑھتے ہوئے سوالات - سوالات میں صرف ٹیبل پر لکھا ہوا نیا ڈیٹا نظر آتا ہے، کیونکہ ایک دی گئی کمٹ یا کمپیکشن۔ یہ انکریمنٹل ڈیٹا پائپ لائنز کو فعال کرنے کے لیے تبدیلی کے سلسلے کو مؤثر طریقے سے فراہم کرتا ہے۔
- آپٹمائزڈ سوالات پڑھیں – ایم او آر ٹیبلز کے لیے، استفسارات میں تازہ ترین ڈیٹا کو کمپیکٹ کیا گیا ہے۔ CoW ٹیبلز کے لیے، استفسارات کا تازہ ترین ڈیٹا دیکھیں۔
کاپی آن رائٹ ٹیبلز کے لیے، کرالر AWS Glue Data Catalog میں ReadOptimized Serde کے ساتھ ایک ہی ٹیبل بناتے ہیں۔ org.apache.hudi.hadoop.HoodieParquetInputFormat
.
انضمام پر پڑھنے والی میزوں کے لیے، کرالر AWS Glue Data Catalog میں ایک ہی ٹیبل کے مقام کے لیے دو ٹیبل بناتے ہیں:
- لاحقہ کے ساتھ ایک میز
_ro
، جو ReadOptimized Serde استعمال کرتا ہے۔org.apache.hudi.hadoop.HoodieParquetInputFormat
- لاحقہ کے ساتھ ایک میز
_rt
، جو اسنیپ شاٹ کے سوالات کی اجازت دینے والے RealTime Serde کا استعمال کرتا ہے:org.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFormat
ہر کرال کے دوران، فراہم کردہ ہر ہدی راستے کے لیے، کرالر Amazon S3 فہرست API کال کرتے ہیں، جس کی بنیاد پر فلٹر کرتے ہیں۔ .hoodie
فولڈرز، اور اس Hudi ٹیبل میٹا ڈیٹا فولڈر کے نیچے تازہ ترین میٹا ڈیٹا فائل تلاش کریں۔
AWS Glue کرالر کا استعمال کرتے ہوئے Hudi CoW ٹیبل کو کرال کریں۔
اس سیکشن میں، آئیے دیکھتے ہیں کہ AWS Glue کرالر کا استعمال کرتے ہوئے Hudi CoW کو کیسے رینگنا ہے۔
شرائط
اس ٹیوٹوریل کے لیے ضروری شرائط یہ ہیں:
- انسٹال اور ترتیب دیں AWS کمانڈ لائن انٹرفیس (AWS CLI).
- اگر آپ کے پاس نہیں ہے تو اپنی S3 بالٹی بنائیں۔
- AWS Glue کے لیے اپنا IAM رول بنائیں اگر آپ کے پاس نہیں ہے۔ آپ کو ضرورت ہے
s3:GetObject
لیےs3://your_s3_bucket/data/sample_hudi_cow_table/
. - اپنی S3 بالٹی میں نمونہ Hudi ٹیبل کاپی کرنے کے لیے درج ذیل کمانڈ کو چلائیں۔ (بدلیں۔
your_s3_bucket
آپ کے S3 بالٹی نام کے ساتھ۔)
یہ ہدایت آپ کو نمونے کے ڈیٹا کو کاپی کرنے کے لیے رہنمائی کرتی ہے، لیکن آپ AWS Glue کا استعمال کرتے ہوئے آسانی سے کوئی بھی ہدی ٹیبل بنا سکتے ہیں۔ میں مزید جانیں۔ Apache Spark کے لیے AWS Glue پر Apache Hudi، Delta Lake، اور Apache Iceberg کے لیے مقامی تعاون کا تعارف، حصہ 2: AWS Glue Studio Visual Editor.
ایک ہدی کرالر بنائیں
اس ہدایت میں، کنسول کے ذریعے کرالر بنائیں۔ Hudi کرالر بنانے کے لیے درج ذیل مراحل کو مکمل کریں:
- AWS Glue کنسول پر، منتخب کریں۔ کرالر.
- میں سے انتخاب کریں کرالر بنائیں.
- کے لئے نام، داخل کریں
hudi_cow_crawler
. منتخب کریں اگلے. - کے تحت ڈیٹا سورس کنفیگریشن، منتخب کریں۔ ڈیٹا کا ماخذ شامل کریں.
- کے لئے ڈیٹا کا ذریعہمنتخب کریں ہدی۔.
- کے لئے ہودی ٹیبل کے راستے شامل کریں۔، داخل کریں
s3://your_s3_bucket/data/sample_hudi_cow_table/
. (بدلیں۔your_s3_bucket
آپ کے S3 بالٹی نام کے ساتھ۔) - میں سے انتخاب کریں ہودی ڈیٹا سورس شامل کریں۔.
- میں سے انتخاب کریں اگلے.
- کے لئے موجودہ IAM کرداراپنا IAM کردار منتخب کریں، پھر منتخب کریں۔ اگلے.
- کے لئے ٹارگٹ ڈیٹا بیسمنتخب کریں ڈیٹا بیس شامل کریں۔، پھر ڈیٹا بیس شامل کریں۔ ڈائیلاگ ظاہر ہوتا ہے. کے لیے ڈیٹا بیس کا نام۔، داخل کریں
hudi_crawler_blog
، پھر منتخب کریں تخلیق کریں. منتخب کریں اگلے. - میں سے انتخاب کریں کرالر بنائیں.
اب ایک نیا ہدی کرالر کامیابی سے بنایا گیا ہے۔ کرالر کو کنسول کے ذریعے یا SDK یا AWS CLI کے ذریعے چلانے کے لیے متحرک کیا جا سکتا ہے StartCrawl
API یہ مخصوص اوقات میں کرالرز کو متحرک کرنے کے لیے کنسول کے ذریعے بھی شیڈول کیا جا سکتا ہے۔ اس ہدایت میں، کنسول کے ذریعے کرالر چلائیں۔
- میں سے انتخاب کریں کرالر چلائیں۔.
- کرالر کے مکمل ہونے کا انتظار کریں۔
کرالر کے چلنے کے بعد، آپ AWS Glue کنسول میں Hudi ٹیبل کی تعریف دیکھ سکتے ہیں:
آپ نے ایمیزون S3 پر ڈیٹا کے ساتھ Hudi CoR ٹیبل کو کامیابی سے کرال کیا ہے اور اسکیما کے ساتھ AWS Glue Data Catalog ٹیبل بنایا ہے۔ AWS Glue Data Catalog پر ٹیبل کی تعریف بنانے کے بعد، AWS تجزیاتی خدمات جیسے Amazon Athena Hudi ٹیبل سے استفسار کرنے کے قابل ہو جاتی ہیں۔
ایتھینا پر سوالات شروع کرنے کے لیے درج ذیل مراحل کو مکمل کریں:
- ایمیزون ایتھینا کنسول کھولیں۔
- درج ذیل استفسار کو چلائیں۔
درج ذیل اسکرین شاٹ ہماری آؤٹ پٹ کو ظاہر کرتا ہے:
AWS Lake Formation ڈیٹا کی اجازت کے ساتھ AWS Glue کرالر کا استعمال کرتے ہوئے Hudi MoR ٹیبل کرال کریں
اس سیکشن میں، آئیے دیکھتے ہیں کہ AWS Glue کا استعمال کرتے ہوئے Hudi MoR ٹیبل کو کیسے کرال کیا جائے۔ اس بار، آپ IAM اور Amazon S3 کی اجازت کے بجائے Amazon S3 ڈیٹا کے ذرائع کو کرال کرنے کے لیے AWS Lake Formation ڈیٹا کی اجازت استعمال کرتے ہیں۔ یہ اختیاری ہے، لیکن یہ اجازت کی ترتیب کو آسان بناتا ہے جب آپ کے ڈیٹا لیک کا نظم AWS Lake Formation کی اجازت کے ذریعے کیا جاتا ہے۔
شرائط
اس ٹیوٹوریل کے لیے ضروری شرائط یہ ہیں:
- انسٹال اور ترتیب دیں AWS کمانڈ لائن انٹرفیس (AWS CLI).
- اگر آپ کے پاس نہیں ہے تو اپنی S3 بالٹی بنائیں۔
- AWS Glue کے لیے اپنا IAM رول بنائیں اگر آپ کے پاس نہیں ہے۔ آپ کو ضرورت ہے
lakeformation:GetDataAccess
. لیکن آپ کی ضرورت نہیں ہے۔s3:GetObject
لیےs3://your_s3_bucket/data/sample_hudi_mor_table/
کیونکہ ہم فائلوں تک رسائی کے لیے لیک فارمیشن ڈیٹا کی اجازت استعمال کرتے ہیں۔ - اپنی S3 بالٹی میں نمونہ Hudi ٹیبل کاپی کرنے کے لیے درج ذیل کمانڈ کو چلائیں۔ (بدلیں۔
your_s3_bucket
آپ کے S3 بالٹی نام کے ساتھ۔)
پروسیسنگ کے مراحل کے علاوہ، AWS Glue Data Catalog کی ترتیبات کو اپ ڈیٹ کرنے کے لیے درج ذیل مراحل کو مکمل کریں تاکہ IAM پر مبنی رسائی کنٹرول کے بجائے کیٹلاگ کے وسائل کو کنٹرول کرنے کے لیے Lake Formation کی اجازتیں استعمال کریں:
- لیک فارمیشن کنسول میں ڈیٹا لیک ایڈمنسٹریٹر کے طور پر سائن ان کریں۔
- اگر یہ پہلی بار لیک فارمیشن کنسول تک رسائی حاصل کر رہا ہے، اپنے آپ کو ڈیٹا لیک ایڈمنسٹریٹر کے طور پر شامل کریں۔
- کے تحت انتظامیہمنتخب کریں ڈیٹا کیٹلاگ کی ترتیبات.
- کے لئے نئے بنائے گئے ڈیٹا بیس اور ٹیبلز کے لیے پہلے سے طے شدہ اجازتیں۔، غیر منتخب کریں۔ نئے ڈیٹا بیس کے لیے صرف IAM ایکسیس کنٹرول استعمال کریں۔ اور نئے ڈیٹا بیس میں نئے ٹیبلز کے لیے صرف IAM ایکسیس کنٹرول استعمال کریں۔.
- کے لئے کراس اکاؤنٹ ورژن کی ترتیبمنتخب کریں ورژن 3.
- میں سے انتخاب کریں محفوظ کریں.
اگلا مرحلہ یہ ہے کہ اپنی S3 بالٹی کو لیک فارمیشن ڈیٹا جھیل کے مقامات پر رجسٹر کروائیں:
- لیک فارمیشن کنسول پر، منتخب کریں۔ ڈیٹا جھیل کے مقامات، اور منتخب کریں رجسٹر مقام.
- کے لئے ایمیزون S3 کا راستہ، داخل کریں
s3://your_s3_bucket/
. (بدلیں۔your_s3_bucket
آپ کے S3 بالٹی نام کے ساتھ۔) - میں سے انتخاب کریں رجسٹر مقام.
پھر، Glue کرالر رول کو ڈیٹا لوکیشن تک رسائی فراہم کریں تاکہ کرالر ڈیٹا تک رسائی حاصل کرنے اور مقام میں ٹیبل بنانے کے لیے Lake Formation کی اجازت استعمال کر سکے۔
- لیک فارمیشن کنسول پر، منتخب کریں۔ ڈیٹا کے مقامات اور منتخب کریں گرانٹ.
- کے لئے IAM صارفین اور کردار، وہ IAM رول منتخب کریں جو آپ نے کرالر کے لیے استعمال کیا تھا۔
- کے لئے محفوظ کرنے کی جگہ، داخل کریں
s3://your_s3_bucket/data
/. (بدلیں۔your_s3_bucket
آپ کے S3 بالٹی نام کے ساتھ۔) - میں سے انتخاب کریں گرانٹ.
پھر، ڈیٹا بیس کے تحت ٹیبل بنانے کے لیے کرالر کا کردار دیں۔ hudi_crawler_blog
:
- لیک فارمیشن کنسول پر، منتخب کریں۔ ڈیٹا لیک کی اجازت.
- میں سے انتخاب کریں گرانٹ.
- کے لئے پرنسپلمنتخب کریں IAM صارفین اور کردار، اور کرالر کا کردار منتخب کریں۔
- کے لئے ایل ایف ٹیگز یا کیٹلاگ وسائلمنتخب کریں نامزد ڈیٹا کیٹلاگ وسائل.
- کے لئے ڈیٹا بیس، ڈیٹا بیس کا انتخاب کریں۔
hudi_crawler_blog
. - کے تحت ڈیٹا بیس کی اجازتمنتخب ٹیبل بنائیں.
- میں سے انتخاب کریں گرانٹ.
لیک فارمیشن ڈیٹا کی اجازت کے ساتھ ایک ہدی کرالر بنائیں
Hudi کرالر بنانے کے لیے درج ذیل مراحل کو مکمل کریں:
- AWS Glue کنسول پر، منتخب کریں۔ کرالر.
- میں سے انتخاب کریں کرالر بنائیں.
- کے لئے نام، داخل کریں
hudi_mor_crawler
. منتخب کریں اگلے. - کے تحت ڈیٹا سورس کنفیگریشن، منتخب کریں۔ ڈیٹا کا ماخذ شامل کریں.
- کے لئے ڈیٹا کا ذریعہمنتخب کریں ہدی۔.
- کے لئے ہودی ٹیبل کے راستے شامل کریں۔، داخل کریں
s3://your_s3_bucket/data/sample_hudi_mor_table
/. (بدلیں۔your_s3_bucket
آپ کے S3 بالٹی نام کے ساتھ۔) - میں سے انتخاب کریں ہودی ڈیٹا سورس شامل کریں۔.
- میں سے انتخاب کریں اگلے.
- کے لئے موجودہ IAM کردار، اپنا IAM کردار منتخب کریں۔
- کے تحت جھیل کی تشکیل کی ترتیب - اختیاری۔منتخب S3 ڈیٹا سورس کو کرال کرنے کے لیے Lake Formation کی اسناد کا استعمال کریں۔.
- میں سے انتخاب کریں اگلے.
- کے لئے ٹارگٹ ڈیٹا بیسمنتخب کریں
hudi_crawler_blog
. منتخب کریں اگلے. - میں سے انتخاب کریں کرالر بنائیں.
اب ایک نیا ہدی کرالر کامیابی سے بنایا گیا ہے۔ کرالر Amazon S3 فائلوں کو کرال کرنے کے لیے Lake Formation کی اسناد کا استعمال کرتا ہے۔ آئیے نیا کرالر چلائیں:
- میں سے انتخاب کریں کرالر چلائیں۔.
- کرالر کے مکمل ہونے کا انتظار کریں۔
کرالر کے چلنے کے بعد، آپ AWS Glue کنسول میں ہدی ٹیبل کی تعریف کی دو میزیں دیکھ سکتے ہیں:
sample_hudi_mor_table_ro
(آپٹمائزڈ ٹیبل پڑھیں)sample_hudi_mor_table_rt
(حقیقی ٹائم ٹیبل)
آپ نے ڈیٹا لیک بالٹی کو لیک فارمیشن کے ساتھ رجسٹر کیا اور لیک فارمیشن کی اجازتوں کا استعمال کرتے ہوئے ڈیٹا لیک تک رسائی کو فعال کیا۔ آپ نے ایمیزون S3 پر ڈیٹا کے ساتھ ہدی ایم او آر ٹیبل کو کامیابی سے کرال کیا ہے اور اسکیما کے ساتھ AWS گلو ڈیٹا کیٹلاگ ٹیبل بنایا ہے۔ AWS Glue Data Catalog پر ٹیبل کی تعریفیں بنانے کے بعد، AWS تجزیاتی خدمات جیسے Amazon Athena Hudi ٹیبل سے استفسار کرنے کے قابل ہو جاتی ہیں۔
ایتھینا پر سوالات شروع کرنے کے لیے درج ذیل مراحل کو مکمل کریں:
- ایمیزون ایتھینا کنسول کھولیں۔
- درج ذیل استفسار کو چلائیں۔
درج ذیل اسکرین شاٹ ہماری آؤٹ پٹ کو ظاہر کرتا ہے:
- درج ذیل استفسار کو چلائیں۔
درج ذیل اسکرین شاٹ ہماری آؤٹ پٹ کو ظاہر کرتا ہے:
AWS لیک فارمیشن کی اجازتوں کا استعمال کرتے ہوئے عمدہ رسائی کنٹرول
ہدی ٹیبل پر عمدہ رسائی کنٹرول کو لاگو کرنے کے لیے، آپ AWS لیک فارمیشن کی اجازتوں سے فائدہ اٹھا سکتے ہیں۔ جھیل کی تشکیل کی اجازتیں آپ کو مخصوص میزوں، کالموں یا قطاروں تک رسائی کو محدود کرنے اور پھر عمدہ رسائی کنٹرول کے ساتھ ایمیزون ایتھینا کے ذریعے ہدی ٹیبلز سے استفسار کرنے کی اجازت دیتی ہیں۔ آئیے ہدی ایم او آر ٹیبل کے لیے جھیل کی تشکیل کی اجازت کو ترتیب دیں۔
شرائط
اس ٹیوٹوریل کے لیے ضروری شرائط یہ ہیں:
- پچھلا حصہ مکمل کریں۔ AWS Lake Formation ڈیٹا کی اجازت کے ساتھ AWS Glue کرالر کا استعمال کرتے ہوئے Hudi MoR ٹیبل کرال کریں.
- ایک IAM صارف ڈیٹا اینالسٹ بنائیں، جس کے پاس AWS کے زیر انتظام پالیسی ہو۔ AmazonAthenaFullAccess.
ایک لیک فارمیشن ڈیٹا سیل فلٹر بنائیں
آئیے پہلے ایم او آر ریڈ آپٹمائزڈ ٹیبل کے لیے ایک فلٹر ترتیب دیں۔
- لیک فارمیشن کنسول میں ڈیٹا لیک ایڈمنسٹریٹر کے طور پر سائن ان کریں۔
- میں سے انتخاب کریں ڈیٹا فلٹرز.
- میں سے انتخاب کریں نیا فلٹر بنائیں.
- کے لئے ڈیٹا فلٹر کا نام، داخل کریں
exclude_product_price
. - کے لئے ٹارگٹ ڈیٹا بیس، ڈیٹا بیس کا انتخاب کریں۔
hudi_crawler_blog
. - کے لئے ہدف کی میز، میز کا انتخاب کریں۔
sample_hudi_mor_table_ro
. - کے لئے کالم کی سطح رسائی، منتخب کریں کالم خارج کریں۔، اور کالم کی قیمت کا انتخاب کریں۔
- کے لئے قطار فلٹر کا اظہار، داخل کریں
true
. - میں سے انتخاب کریں فلٹر بنائیں.
ڈیٹا اینالسٹ صارف کو لیک فارمیشن کی اجازت دیں۔
کو جھیل کی تشکیل کی اجازت دینے کے لیے درج ذیل اقدامات کو مکمل کریں۔ DataAnalyst
صارف
- لیک فارمیشن کنسول پر، منتخب کریں۔ ڈیٹا لیک کی اجازت.
- میں سے انتخاب کریں گرانٹ.
- کے لئے پرنسپلمنتخب کریں IAM صارفین اور کردار، اور صارف کا انتخاب کریں۔
DataAnalyst
. - کے لئے ایل ایف ٹیگز یا کیٹلاگ وسائلمنتخب کریں نامزد ڈیٹا کیٹلاگ وسائل.
- کے لئے ڈیٹا بیس، ڈیٹا بیس کا انتخاب کریں۔
hudi_crawler_blog
. - کے لئے ٹیبل - اختیاری، میز کا انتخاب کریں۔
sample_hudi_mor_table_ro
. - کے لئے ڈیٹا فلٹرز - اختیاری، منتخب کریں۔
exclude_product_price
. - کے لئے ڈیٹا فلٹر کی اجازتمنتخب منتخب کریں.
- میں سے انتخاب کریں گرانٹ.
آپ نے ڈیٹا بیس پر لیک فارمیشن کی اجازت دی ہے۔ hudi_crawler_blog
اور میز sample_hudi_mor_table_ro
کالم کو چھوڑ کر price
ڈیٹا اینالسٹ صارف کو۔ اب آئیے ایتھینا کا استعمال کرتے ہوئے ڈیٹا تک صارف کی رسائی کی توثیق کرتے ہیں۔
- ڈیٹا اینالسٹ صارف کے طور پر ایتھینا کنسول میں سائن ان کریں۔
- استفسار ایڈیٹر پر، درج ذیل استفسار کو چلائیں:
درج ذیل اسکرین شاٹ ہماری آؤٹ پٹ کو ظاہر کرتا ہے:
اب آپ نے اس کالم کی توثیق کی۔ price
نہیں دکھایا گیا ہے، لیکن دوسرے کالم product_id
, product_name
, update_at
، اور category
دکھایا گیا ہے.
صاف کرو
اپنے AWS اکاؤنٹ پر ناپسندیدہ چارجز سے بچنے کے لیے، درج ذیل AWS وسائل کو حذف کریں:
- AWS Glue ڈیٹا بیس کو حذف کریں۔
hudi_crawler_blog
. - AWS Glue کرالر کو حذف کریں۔
hudi_cow_crawler
اورhudi_mor_crawler
. - کے تحت ایمیزون S3 فائلوں کو حذف کریں۔
s3://your_s3_bucket/data/sample_hudi_cow_table/
اورs3://your_s3_bucket/data/sample_hudi_mor_table/
.
نتیجہ
اس پوسٹ نے دکھایا کہ AWS Glue کرالر کیسے Hudi میزوں کے لیے کام کرتے ہیں۔ Hudi کرالر کے لیے تعاون کے ساتھ، آپ AWS Glue Data Catalog کو اپنے بنیادی Hudi ٹیبل کیٹلاگ کے طور پر استعمال کر سکتے ہیں۔ آپ AWS پر Hudi کا استعمال کرتے ہوئے AWS Glue، AWS Glue Data Catalog، اور Lake Formation Fine-grained Access Controls کے لیے میزوں اور AWS تجزیاتی انجنوں کے ذریعے تعاون یافتہ فارمیٹس کا استعمال کرتے ہوئے اپنی سرور لیس ٹرانزیکشنل ڈیٹا لیک بنانا شروع کر سکتے ہیں۔
مصنفین کے بارے میں
نوریٹاکا سیکیاما AWS Glue ٹیم میں ایک پرنسپل بگ ڈیٹا آرکیٹیکٹ ہے۔ وہ ٹوکیو، جاپان میں مقیم کام کرتا ہے۔ وہ صارفین کی مدد کے لیے سافٹ ویئر کے نمونے بنانے کا ذمہ دار ہے۔ اپنے فارغ وقت میں، وہ اپنی روڈ بائیک کے ساتھ سائیکل چلانے سے لطف اندوز ہوتا ہے۔
کائل ڈونگ اے ڈبلیو ایس گلو اور لیک فارمیشن ٹیم میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ وہ بڑی ڈیٹا ٹیکنالوجیز اور تقسیم شدہ نظاموں کی تعمیر کے بارے میں پرجوش ہے۔
سندیپ اڈوانکر AWS میں ایک سینئر ٹیکنیکل پروڈکٹ مینیجر ہے۔ کیلی فورنیا بے ایریا میں مقیم، وہ دنیا بھر کے صارفین کے ساتھ کاروبار اور تکنیکی تقاضوں کا پروڈکٹس میں ترجمہ کرنے کے لیے کام کرتا ہے جو صارفین کو ڈیٹا کے انتظام، محفوظ اور رسائی کو بہتر بنانے کے قابل بناتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/big-data/introducing-apache-hudi-support-with-aws-glue-crawlers/
- : ہے
- : ہے
- : نہیں
- :کہاں
- $UP
- 10
- 100
- 11
- 13
- 17
- 67
- 7
- 8
- 9
- a
- قابلیت
- ہمارے بارے میں
- تک رسائی حاصل
- ڈیٹا تک رسائی۔
- تک رسائی حاصل
- اکاؤنٹ
- عمل
- شامل کریں
- شامل کیا
- اس کے علاوہ
- اپنایا
- منہ بولابیٹا بنانے
- اعلی درجے کی
- کے بعد
- تمام
- کی اجازت
- اجازت دے رہا ہے
- کی اجازت دیتا ہے
- بھی
- ایمیزون
- ایمیزون ایتینا
- ایمیزون ویب سروسز
- an
- تجزیاتی
- تجزیاتی
- اور
- ایک اور
- کوئی بھی
- اپاچی
- اپاچی چمک
- اے پی آئی
- ظاہر ہوتا ہے
- درخواست
- درخواست کی ترقی
- کا اطلاق کریں
- کیا
- رقبہ
- ارد گرد
- AS
- At
- خود کار طریقے سے
- سے اجتناب
- AWS
- AWS گلو
- AWS جھیل کی تشکیل
- بیس
- کی بنیاد پر
- خلیج
- BE
- کیونکہ
- رہا
- فائدہ
- بہتر
- بگ
- بگ ڈیٹا
- لاتا ہے
- عمارت
- تعمیر
- کاروبار
- لیکن
- by
- کیلی فورنیا
- فون
- کر سکتے ہیں
- صلاحیتوں
- صلاحیت
- کیس
- کیٹلوگ
- کیٹلاگ
- اقسام
- سیل
- چیلنجوں
- تبدیل
- تبدیل کر دیا گیا
- تبدیلیاں
- بوجھ
- میں سے انتخاب کریں
- کالم
- کالم
- مجموعہ
- وعدہ کرنا
- انجام دیا
- مکمل
- پیچیدہ
- جزو
- ترتیب
- کنسول
- پر مشتمل ہے
- مواد
- مسلسل
- کنٹرول
- کنٹرول
- سکتا ہے
- کرالر
- تخلیق
- بنائی
- پیدا
- اسناد
- گاہکوں
- اعداد و شمار
- ڈیٹا انضمام
- ڈیٹا لیک
- ڈیٹا گودام
- ڈیٹا بیس
- ڈیٹا بیس
- ڈیٹاسیٹس
- تعریف
- تعریفیں
- ڈیلٹا
- demonstrated,en
- ثبوت
- گہرائی
- ترقی
- براہ راست
- دریافت
- تقسیم کئے
- تقسیم شدہ نظام
- do
- کرتا
- کے دوران
- ہر ایک
- آسان
- آسانی سے
- ایڈیٹر
- مؤثر طریقے
- ہنر
- کو چالو کرنے کے
- چالو حالت میں
- انجینئر
- انجینئرز
- انجن
- درج
- Ether (ETH)
- تیار ہوتا ہے
- چھوڑ کر
- نکالنے
- تیز تر
- کم
- فائل
- فائلوں
- فلٹر
- فلٹر
- مل
- پہلا
- پہلی بار
- کے بعد
- کے لئے
- فارمیٹ
- قیام
- اکثر
- سے
- دی
- دنیا
- Go
- عطا
- عطا کی
- ہدایات
- حدووپ
- ہے
- he
- مدد
- مدد کرتا ہے
- ان
- چھتہ
- کس طرح
- کیسے
- HTML
- HTTPS
- IAM
- if
- اثرات
- کو بہتر بنانے کے
- in
- سمیت
- اضافہ
- معلومات
- کے بجائے
- ضم
- انضمام
- انٹرفیس
- میں
- متعارف کرانے
- IT
- جاپان
- فوٹو
- رکھتے ہوئے
- جھیل
- جھیلوں
- تازہ ترین
- شروع
- جانیں
- سیکھنے
- کم
- LIMIT
- لائن
- لسٹ
- واقع ہے
- محل وقوع
- مقامات
- انکرنا
- مشین
- مشین لرننگ
- برقرار رکھنے
- بنا
- بناتا ہے
- انتظام
- میں کامیاب
- مینیجر
- مینیجنگ
- دستی
- زیادہ سے زیادہ
- ضم
- میٹا ڈیٹا
- ہجرت کرنا
- منتقلی
- ML
- زیادہ
- سب سے زیادہ
- منتقل
- ایک سے زیادہ
- نام
- مقامی
- ضرورت ہے
- ضرورت
- نئی
- نیا
- اگلے
- اب
- of
- on
- ایک
- صرف
- کھول
- اوپن سورس
- اصلاح
- اختیار
- or
- دیگر
- ہمارے
- پیداوار
- حصہ
- جذباتی
- راستہ
- راستے
- کارکردگی
- اجازت
- اجازتیں
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- مقبول
- آباد ہے
- پوسٹ
- تیار
- ضروریات
- پچھلا
- قیمت
- پرائمری
- پرنسپل
- پروسیسنگ
- مصنوعات
- پروڈکٹ مینیجر
- حاصل
- فراہم
- فراہم
- فراہم کرتا ہے
- سوالات
- جلدی سے
- پڑھیں
- اصلی
- اصل وقت
- حقیقی وقت
- حال ہی میں
- ریکارڈ
- رجسٹر
- رجسٹرڈ
- کی جگہ
- ضروریات
- وسائل
- ذمہ دار
- محدود
- سڑک
- کردار
- ROW
- رن
- اسی
- شیڈول
- شیڈول کے مطابق
- sdk
- سیکشن
- محفوظ بنانے
- دیکھنا
- منتخب
- سینئر
- بے سرور
- سروس
- سروسز
- مقرر
- ترتیبات
- دکھایا گیا
- شوز
- آسان بناتا ہے۔
- بعد
- ایک
- سلائس
- سنیپشاٹ
- So
- سافٹ ویئر کی
- سوفٹ ویئر کی نشوونما
- ماخذ
- ذرائع
- چنگاری
- مخصوص
- شروع کریں
- حالت
- مرحلہ
- مراحل
- ذخیرہ
- محرومی
- اسٹریمز
- سٹوڈیو
- کامیابی کے ساتھ
- اس طرح
- حمایت
- تائید
- ہم آہنگی
- سسٹمز
- ٹیبل
- ٹیم
- ٹیکنیکل
- ٹیکنالوجی
- کہ
- ۔
- ان
- تو
- وہاں.
- وہ
- اس
- تین
- کے ذریعے
- وقت
- اوقات
- کرنے کے لئے
- ٹوکیو
- سب سے اوپر
- لین دین
- معاملات
- ترجمہ کریں
- گزرنا
- ٹرگر
- متحرک
- سبق
- دو
- اقسام
- ٹھیٹھ
- کے تحت
- ناپسندیدہ
- اپ ڈیٹ کریں
- اپ ڈیٹ
- تازہ ترین معلومات
- استعمال کی شرائط
- استعمال کیس
- استعمال کیا جاتا ہے
- رکن کا
- صارفین
- استعمال
- کا استعمال کرتے ہوئے
- تصدیق کریں۔
- توثیقی
- اقدار
- ورژن
- بصری
- گودام
- we
- ویب
- ویب خدمات
- اچھا ہے
- جب
- جس
- جبکہ
- ڈبلیو
- گے
- ساتھ
- بغیر
- کام
- کام کرتا ہے
- لکھنا
- لکھا
- آپ
- اور
- اپنے آپ کو
- زیفیرنیٹ