آج کی دنیا میں، صارفین اپنے ڈیٹا کی وسیع مقدار کا انتظام کرتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) ڈیٹا لیکس، جس میں ڈیٹا لے آؤٹ میں ہونے والی تبدیلیوں کو مسلسل سمجھنے اور انہیں استعمال کرنے والے نظاموں کے لیے دستیاب کرنے کے لیے پیچیدہ ڈیٹا پائپ لائنز کی ضرورت ہوتی ہے۔ AWS گلو کرالر AWS Glue Data Catalog میں ڈیٹا کو کیٹلاگ کرنے کا ایک سیدھا سا طریقہ فراہم کرتے ہیں جو اسکیما مینجمنٹ اور ڈیٹا کی درجہ بندی کی بات کرنے پر بھاری لفٹنگ کو ہٹاتا ہے۔ AWS Glue کرالر ایمیزون S3 سے ڈیٹا سکیما اور پارٹیشنز نکالتے ہیں تاکہ میٹا ڈیٹا کو موجودہ رکھتے ہوئے ڈیٹا کیٹلاگ کو خود بخود آباد کیا جا سکے۔
لیکن وقت کے ساتھ اعداد و شمار میں تیزی سے اضافہ ہونے کے ساتھ، دیئے گئے جدول میں پارٹیشنز کی تعداد نمایاں طور پر بڑھ سکتی ہے۔ کیونکہ تجزیاتی خدمات پسند کرتی ہیں۔ ایمیزون ایتینا لاکھوں پارٹیشنز پر مشتمل ٹیبل سے استفسار کریں، پارٹیشن کو بازیافت کرنے کے لیے درکار وقت بڑھ جاتا ہے اور استفسار کا رن ٹائم بڑھ سکتا ہے۔
آج، AWS Glue کرالر سپورٹ کو بڑھا دیا گیا ہے تاکہ تقسیم شدہ ڈیٹاسیٹ پر استفسار کی پروسیسنگ کو بہتر بنانے کے لیے نئے دریافت شدہ ٹیبلز کے لیے خود بخود پارٹیشن انڈیکسز کو شامل کیا جا سکے۔ اب، جب کرالر ایک کرالر رن کے دوران ایک نیا ڈیٹا کیٹلاگ ٹیبل بناتا ہے، تو یہ بطور ڈیفالٹ ایک پارٹیشن انڈیکس بھی بناتا ہے، جس میں تمام عددی اور سٹرنگ قسم کے پارٹیشن کالموں کی کلیدوں کی سب سے بڑی ترتیب ہوتی ہے۔ ڈیٹا کیٹلاگ پھر ان کیز کی بنیاد پر ایک قابل تلاش انڈیکس بناتا ہے، جس سے لاکھوں پارٹیشنز والی ٹیبلز پر پارٹیشن میٹا ڈیٹا کو بازیافت اور فلٹر کرنے کے لیے درکار وقت کو کم کیا جاتا ہے۔ پارٹیشن انڈیکسز کی تخلیق سے ایتھینا پر چلنے والے تجزیاتی کام کے بوجھ کو فائدہ ہوتا ہے، ایمیزون ای ایم آر, ایمیزون ریڈ شفٹ سپیکٹرم، اور AWS گلو۔
اس پوسٹ میں، ہم AWS Glue کرالر کے ساتھ پارٹیشن انڈیکس بنانے کا طریقہ بیان کرتے ہیں اور ایتھینا سے پارٹیشن انڈیکس کے ساتھ اور اس کے بغیر کرال شدہ ڈیٹا تک رسائی حاصل کرتے وقت استفسار کی کارکردگی میں بہتری کا موازنہ کرتے ہیں۔
حل جائزہ
ہم ایک استعمال کرتے ہیں AWS کلاؤڈ فارمیشن ہمارے حل کے وسائل بنانے کے لیے ٹیمپلیٹ۔ مندرجہ ذیل مراحل میں، ہم یہ ظاہر کرتے ہیں کہ AWS Glue کرالر کو AWS Glue کنسول کا استعمال کرتے ہوئے پارٹیشن انڈیکس بنانے کے لیے کس طرح ترتیب دیا جائے۔ AWS کمانڈ لائن انٹرفیس (AWS CLI)۔ پھر ہم ایتھینا کا استعمال کرتے ہوئے استفسار کی کارکردگی میں بہتری کا موازنہ کرتے ہیں۔
شرائط
اس پوسٹ کے ساتھ ساتھ پیروی کرنے کے لیے، آپ کو ایک تک رسائی ہونی چاہیے۔ AWS شناخت اور رسائی کا انتظام AWS CloudFormation کا استعمال کرتے ہوئے وسائل بنانے کے لیے (IAM) منتظم کا کردار۔
اپنے حل کے وسائل مرتب کریں۔
CloudFormation ٹیمپلیٹ درج ذیل وسائل تیار کرتا ہے:
- IAM کے کردار اور پالیسیاں
- اسکیما کو رکھنے کے لیے AWS Glue ڈیٹا بیس
- AWS Glue کرالر ایک انتہائی تقسیم شدہ ڈیٹاسیٹ کی طرف اشارہ کرتا ہے۔
- استفسار کے نتائج کو ذخیرہ کرنے کے لیے ایک ایتھینا ورک گروپ اور بالٹی
حل کے وسائل کو ترتیب دینے کے لیے درج ذیل اقدامات کو مکمل کریں:
- میں لاگ ان کریں AWS مینجمنٹ کنسول بطور IAM منتظم۔
- میں سے انتخاب کریں اسٹیک لانچ کریں۔ CloudFormation ٹیمپلیٹ کو تعینات کرنے کے لیے:
- کے لئے ڈیٹا بیس کا نام، پہلے سے طے شدہ رکھیں
blog_partition_index_crawlerdb
. - میں سے انتخاب کریں اگلے.
- حتمی صفحہ پر تفصیلات کا جائزہ لیں اور منتخب کریں۔ میں تسلیم کرتا ہوں کہ AWS CloudFormation IAM وسائل پیدا کر سکتا ہے۔.
- میں سے انتخاب کریں اسٹیک بنائیں.
- جب اسٹیک مکمل ہو جائے، AWS CloudFormation کنسول پر، تشریف لے جائیں۔ نتائج اسٹیک کا ٹیب۔
- کی اقدار کو نوٹ کریں۔
DatabaseName
اورGlueCrawlerName
.
کچھ وسائل جو یہ اسٹیک تعینات کرتا ہے استعمال میں ہونے پر لاگت اٹھاتا ہے۔
AWS Glue کرالر میں ترمیم کریں اور چلائیں۔
AWS Glue کرالر کو ترتیب دینے اور چلانے کے لیے، درج ذیل مراحل کو مکمل کریں:
- AWS Glue کنسول پر، منتخب کریں۔ کرالر نیوی گیشن پین میں.
- تلاش کریں
crawler blog-partition-index-crawler
اور منتخب کریں ترمیم کریں. - میں آؤٹ پٹ اور شیڈولنگ سیٹ کریں۔ سیکشن کے تحت اعلی درجے کے اختیاراتمنتخب خود بخود پارٹیشن انڈیکس بنائیں.
- کرالر کی ترتیبات کا جائزہ لیں اور اپ ڈیٹ کریں۔
متبادل طور پر، آپ AWS CLI کا استعمال کرتے ہوئے اپنے کرالر کو ترتیب دے سکتے ہیں (اپنا IAM کردار اور علاقہ فراہم کریں):
- اب کرالر چلائیں اور تصدیق کریں کہ کرالر رن مکمل ہو گیا ہے۔
یہ انتہائی تقسیم شدہ ڈیٹاسیٹ ہے اور اسے مکمل ہونے میں تقریباً 90 منٹ لگیں گے۔
تقسیم شدہ ٹیبل کی تصدیق کریں۔
AWS گلو ڈیٹا بیس میں blog_partition_index_crawlerdb
توثیق کریں کہ میز highly_partitioned_table
پیدا ہوتا ہے۔
پہلے سے طے شدہ طور پر، کرالر پارٹیشن کالمز کی اسی ترتیب میں درست کالم کی اقسام کے پارٹیشن کالمز کے سب سے بڑے ترتیب کی بنیاد پر ایک انڈیکس کا تعین کرتا ہے، جو یا تو عددی یا سٹرنگ ہوتے ہیں۔ کرالر کے ذریعہ تیار کردہ میز کے لئے (highly_partitioned_table
)، ہمارے پاس پارٹیشن کالم ہیں۔ year
(سٹرنگ)، month
(سٹرنگ)، day
(سٹرنگ)، اور hour
(سٹرنگ)۔
اس تعریف کی بنیاد پر، کرالر نے سال، مہینے، دن اور گھنٹے کی ترتیب پر ایک انڈیکس بنایا۔ کرالر نے انڈیکسز بنائے ہیں جن کے ساتھ سابقہ ہے۔ crawler_
ڈیفالٹ کے ذریعہ بنائے گئے کسی بھی پارٹیشن انڈیکس پر۔
ٹیبل پر جا کر اس کی تصدیق کریں۔ highly_partitioned_table
AWS Glue کنسول پر اور منتخب کرنا اشاریہ جات ٹیب.
کرالر S3 ڈیٹا سورس کو کرال کرنے اور ٹیبل کے لیے پارٹیشن انڈیکسز کو کامیابی کے ساتھ آباد کرنے کے قابل تھا۔
ایتھینا کا استعمال کرتے ہوئے استفسار کی کارکردگی میں بہتری کا موازنہ کریں۔
سب سے پہلے، ہم پارٹیشن انڈیکس کا استعمال کیے بغیر ایتھینا میں ٹیبل سے استفسار کرتے ہیں۔ ایتھینا کا استعمال کرتے ہوئے میزوں کی تصدیق کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:
- ایتھینا کنسول پر، منتخب کریں۔
crawler-primary-workgroup
ایتھینا ورک گروپ کے طور پر اور منتخب کریں۔ تسلیم کرنا. - درج ذیل استفسار کو چلائیں:
درج ذیل اسکرین شاٹ سے پتہ چلتا ہے کہ پارٹیشن انڈیکس کا استعمال کرتے ہوئے فلٹرنگ کو فعال کیے بغیر استفسار میں تقریباً 32 سیکنڈ لگے۔
- اب ہم ایتھینا استفسار پر پارٹیشن انڈیکس کو فعال کرتے ہیں:
- درج ذیل استفسار کو دوبارہ چلائیں اور رن ٹائم نوٹ کریں:
مندرجہ ذیل اسکرین شاٹ سے پتہ چلتا ہے کہ استفسار میں صرف 700 ملی سیکنڈ کا وقت لگا، جو کہ پارٹیشن انڈیکس کا استعمال کرتے ہوئے فلٹرنگ کو فعال کرنے کے ساتھ بہت تیز ہے۔
صاف کرو
اپنے AWS اکاؤنٹ پر ناپسندیدہ چارجز سے بچنے کے لیے، آپ AWS وسائل کو حذف کر سکتے ہیں:
- CloudFormation کنسول میں سائن ان کریں بطور IAM ایڈمن جو CloudFormation اسٹیک بنانے کے لیے استعمال ہوتا ہے۔
- اپنے بنائے ہوئے CloudFormation اسٹیک کو حذف کریں۔
نتیجہ
اس پوسٹ میں، ہم نے وضاحت کی کہ پارٹیشن انڈیکس بنانے کے لیے AWS کرالر کو کیسے ترتیب دیا جائے اور ایتھینا سے انڈیکس کے ساتھ ڈیٹا تک رسائی کے دوران استفسار کی کارکردگی کا موازنہ کیا۔
اگر ٹیبل پر کوئی پارٹیشن انڈیکس موجود نہیں ہے تو، AWS Glue ٹیبل کے تمام پارٹیشنز کو لوڈ کرتا ہے، اور پھر بھری ہوئی پارٹیشنز کو فلٹر کرتا ہے، جس کے نتیجے میں میٹا ڈیٹا کی غیر موثر بازیافت ہوتی ہے۔ تجزیاتی خدمات جیسے Redshift Spectrum، Amazon EMR، اور AWS Glue ETL Spark DataFrames اب پارٹیشنز لانے کے لیے اشاریہ جات کا استعمال کر سکتی ہیں، جس کے نتیجے میں اہم استفسار کی کارکردگی ہوتی ہے۔
تقسیم کے اشاریہ جات اور مختلف تجزیاتی انجنوں میں استفسار کی کارکردگی کے بارے میں مزید معلومات کے لیے، رجوع کریں۔ AWS Glue Data Catalog پارٹیشن اشاریہ جات کا استعمال کرتے ہوئے Amazon Athena کے استفسار کی کارکردگی کو بہتر بنائیں اور AWS Glue پارٹیشن انڈیکس کا استعمال کرتے ہوئے استفسار کی کارکردگی کو بہتر بنائیں.
اس کرالر فیچر کے آغاز میں تعاون کرنے والے ہر فرد کا خصوصی شکریہ: یوہانگ چن، کائل ڈوونگ، اور میتا گوادے۔
مصنفین کے بارے میں
سری ودیا پارتھا سارتھی AWS لیک فارمیشن ٹیم میں ایک سینئر بگ ڈیٹا آرکیٹیکٹ ہے۔ وہ ڈیٹا میش سلوشنز بنانے اور انہیں کمیونٹی کے ساتھ شیئر کرنے سے لطف اندوز ہوتی ہے۔
سندیپ اڈوانکر AWS میں ایک سینئر ٹیکنیکل پروڈکٹ مینیجر ہے۔ کیلی فورنیا بے ایریا میں مقیم، وہ دنیا بھر کے صارفین کے ساتھ کاروبار اور تکنیکی تقاضوں کا پروڈکٹس میں ترجمہ کرنے کے لیے کام کرتا ہے جو صارفین کو ڈیٹا کے انتظام، محفوظ اور رسائی کو بہتر بنانے کے قابل بناتا ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- ای وی ایم فنانس۔ وکندریقرت مالیات کے لیے متحد انٹرفیس۔ یہاں تک رسائی حاصل کریں۔
- کوانٹم میڈیا گروپ۔ آئی آر/پی آر ایمپلیفائیڈ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 ڈیٹا انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- : ہے
- : ہے
- :کہاں
- $UP
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- قابلیت
- تک رسائی حاصل
- تک رسائی حاصل
- اکاؤنٹ
- تسلیم کرتے ہیں
- کے پار
- شامل کریں
- منتظم
- پھر
- تمام
- ساتھ
- بھی
- ایمیزون
- ایمیزون ایتینا
- ایمیزون ای ایم آر
- ایمیزون ویب سروسز
- مقدار
- an
- تجزیاتی
- تجزیاتی
- اور
- کوئی بھی
- تقریبا
- کیا
- رقبہ
- ارد گرد
- AS
- At
- خود کار طریقے سے
- دستیاب
- سے اجتناب
- AWS
- AWS کلاؤڈ فارمیشن
- AWS گلو
- AWS جھیل کی تشکیل
- کی بنیاد پر
- خلیج
- کیونکہ
- رہا
- فوائد
- بگ
- بگ ڈیٹا
- عمارت
- کاروبار
- by
- کیلی فورنیا
- کر سکتے ہیں
- کیٹلوگ
- کیونکہ
- تبدیلیاں
- بوجھ
- چن
- میں سے انتخاب کریں
- منتخب کریں
- درجہ بندی
- کالم
- کالم
- آتا ہے
- کمیونٹی
- موازنہ
- مقابلے میں
- مکمل
- کنسول
- مسلسل
- حصہ ڈالا
- اخراجات
- کرالر
- تخلیق
- بنائی
- پیدا
- تخلیق
- مخلوق
- موجودہ
- گاہکوں
- اعداد و شمار
- ڈیٹا تک رسائی
- ڈیٹا لیک
- ڈیٹا بیس
- دن
- پہلے سے طے شدہ
- مظاہرہ
- تعیناتی
- تعینات کرتا ہے
- بیان
- تفصیلات
- یہ تعین
- دریافت
- نیچے
- کے دوران
- مؤثر طریقے سے
- یا تو
- کو چالو کرنے کے
- چالو حالت میں
- انجن
- Ether (ETH)
- سب
- توسیع
- وضاحت کی
- تیزی سے
- نکالنے
- ڈیٹا نکالیں
- تیز تر
- نمایاں کریں
- فلٹر
- فلٹرنگ
- فلٹر
- فائنل
- پر عمل کریں
- کے بعد
- کے لئے
- قیام
- سے
- پیدا ہوتا ہے
- دی
- دنیا
- بڑھائیں
- بڑھتے ہوئے
- ہے
- he
- بھاری
- بھاری وزن اٹھانا
- انتہائی
- پکڑو
- گھنٹہ
- کس طرح
- کیسے
- HTML
- HTTP
- HTTPS
- IAM
- شناختی
- کو بہتر بنانے کے
- بہتری
- بہتری
- in
- اضافہ
- اضافہ
- انڈکس
- انڈیکس
- ناکافی
- معلومات
- میں
- IT
- فوٹو
- رکھیں
- رکھتے ہوئے
- چابیاں
- جھیل
- سب سے بڑا
- شروع
- لے آؤٹ
- اٹھانے
- کی طرح
- لائن
- بوجھ
- بنا
- انتظام
- انتظام
- مینیجر
- میش
- میٹا ڈیٹا
- شاید
- لاکھوں
- منٹ
- مہینہ
- زیادہ
- بہت
- ضروری
- تشریف لے جائیں
- تشریف لے جارہا ہے
- سمت شناسی
- ضرورت
- نئی
- نیا
- نہیں
- اب
- تعداد
- of
- on
- صرف
- کی اصلاح کریں
- or
- حکم
- ہمارے
- پیداوار
- پر
- صفحہ
- پین
- راستہ
- کارکردگی
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- پوسٹ
- حال (-)
- پروسیسنگ
- مصنوعات
- پروڈکٹ مینیجر
- حاصل
- فراہم
- کو کم کرنے
- خطے
- ضرورت
- ضروریات
- کی ضرورت ہے
- وسائل
- نتیجے
- نتائج کی نمائش
- کردار
- کردار
- رن
- چل رہا ہے
- اسی
- سیکنڈ
- سیکشن
- محفوظ بنانے
- سینئر
- سروسز
- مقرر
- ترتیبات
- اشتراک
- وہ
- شوز
- اہم
- نمایاں طور پر
- سادہ
- حل
- حل
- ماخذ
- چنگاری
- سپیکٹرم
- ڈھیر لگانا
- مراحل
- ذخیرہ
- ذخیرہ
- براہ راست
- سلک
- کامیابی کے ساتھ
- حمایت
- سسٹمز
- ٹیبل
- لے لو
- ٹیم
- ٹیکنیکل
- سانچے
- شکریہ
- کہ
- ۔
- ان
- ان
- تو
- یہ
- وہ
- اس
- وقت
- کرنے کے لئے
- آج کا
- لیا
- ترجمہ کریں
- سچ
- قسم
- اقسام
- کے تحت
- سمجھ
- ناپسندیدہ
- اپ ڈیٹ کریں
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- کا استعمال کرتے ہوئے
- استعمال
- قیمت
- اقدار
- مختلف
- وسیع
- اس بات کی تصدیق
- ورژن
- تھا
- راستہ..
- we
- ویب
- ویب خدمات
- جب
- جس
- ڈبلیو
- گے
- ساتھ
- بغیر
- ورک گروپ
- کام کرتا ہے
- دنیا
- یامل
- سال
- آپ
- اور
- زیفیرنیٹ