في عالم اليوم ، يدير العملاء كميات هائلة من البيانات في ملفات خدمة تخزين أمازون البسيطة (Amazon S3) بحيرات البيانات ، والتي تتطلب خطوط بيانات معقدة لفهم التغييرات في تخطيط البيانات باستمرار وإتاحتها للأنظمة المستهلكة. غراء AWS توفر برامج الزحف طريقة مباشرة لتصنيف البيانات في كتالوج بيانات AWS Glue الذي يزيل العبء الثقيل عندما يتعلق الأمر بإدارة المخطط وتصنيف البيانات. تقوم برامج زحف AWS Glue باستخراج مخطط البيانات والأقسام من Amazon S3 لتعبئة كتالوج البيانات تلقائيًا ، مع الحفاظ على البيانات الوصفية حديثة.
ولكن مع تزايد البيانات أضعافًا مضاعفة بمرور الوقت ، يمكن أن ينمو عدد الأقسام في جدول معين بشكل ملحوظ. لأن خدمات التحليلات مثل أمازون أثينا استعلام عن جدول يحتوي على ملايين الأقسام ، يزداد الوقت اللازم لاسترداد القسم ويمكن أن يؤدي إلى زيادة وقت تشغيل الاستعلام.
اليوم ، تم توسيع دعم متتبع ارتباطات AWS Glue لإضافة فهارس الأقسام تلقائيًا للجداول المكتشفة حديثًا لتحسين معالجة الاستعلام على مجموعة البيانات المقسمة. الآن ، عندما ينشئ الزاحف جدولًا جديدًا في كتالوج البيانات أثناء تشغيل الزاحف ، فإنه ينشئ أيضًا فهرس قسم بشكل افتراضي ، مع أكبر تبديل لجميع أعمدة الأقسام الرقمية ونوع السلسلة كمفاتيح. يقوم كتالوج البيانات بعد ذلك بإنشاء فهرس قابل للبحث استنادًا إلى هذه المفاتيح ، مما يقلل الوقت المطلوب لاسترداد البيانات الوصفية للقسم وتصفيتها على جداول تحتوي على ملايين الأقسام. يستفيد إنشاء فهارس الأقسام من أعباء عمل التحليلات التي تعمل على أثينا ، أمازون EMR, طيف الأمازون للانزياح الأحمرو AWS Glue.
في هذا المنشور ، نصف كيفية إنشاء فهارس الأقسام باستخدام زاحف AWS Glue ومقارنة تحسين أداء الاستعلام عند الوصول إلى البيانات التي تم الزحف إليها مع وبدون فهرس قسم من Athena.
حل نظرة عامة
نحن نستخدم ملف تكوين سحابة AWS نموذج لإنشاء موارد الحل لدينا. في الخطوات التالية ، نوضح كيفية تكوين زاحف AWS Glue لإنشاء فهرس قسم باستخدام إما وحدة تحكم AWS Glue أو واجهة سطر الأوامر AWS (AWS CLI). ثم نقارن تحسينات أداء الاستعلام باستخدام أثينا.
المتطلبات الأساسية المسبقة
لمتابعة هذا المنشور ، يجب أن يكون لديك حق الوصول إلى ملف إدارة الهوية والوصول AWS دور مسؤول (IAM) لإنشاء موارد باستخدام AWS CloudFormation.
قم بإعداد موارد الحل الخاصة بك
يُنشئ نموذج CloudFormation الموارد التالية:
- أدوار وسياسات IAM
- قاعدة بيانات AWS Glue للاحتفاظ بالمخطط
- زاحف AWS Glue يشير إلى مجموعة بيانات شديدة التقسيم
- مجموعة عمل وحاوية Athena لتخزين نتائج الاستعلام
أكمل الخطوات التالية لإعداد موارد الحل:
- تسجيل الدخول إلى وحدة تحكم إدارة AWS كمسؤول IAM.
- اختار قم بتشغيل Stack لنشر نموذج CloudFormation:
- في حالة و databasename، احتفظ بالقيمة الافتراضية
blog_partition_index_crawlerdb
. - اختار التالى.
- راجع التفاصيل الموجودة في الصفحة الأخيرة وحدد أقر بأن AWS CloudFormation قد تنشئ موارد IAM.
- اختار إنشاء مكدس.
- عند اكتمال الحزمة ، في وحدة تحكم AWS CloudFormation ، انتقل إلى ملف النواتج علامة تبويب المكدس.
- قم بتدوين قيم
DatabaseName
وGlueCrawlerName
.
بعض الموارد التي ينشرها هذا المكدس تتكبد تكاليف عند استخدامها.
قم بتحرير وتشغيل زاحف AWS Glue
لتكوين زاحف AWS Glue وتشغيله ، أكمل الخطوات التالية:
- في وحدة تحكم AWS Glue ، اختر الزواحف في جزء التنقل.
- تحديد موقع
crawler blog-partition-index-crawler
واختر تعديل. - في مجلة تعيين الإخراج والجدولة القسم، تحت خيارات متقدمة، حدد إنشاء فهارس الأقسام تلقائيًا.
- مراجعة وتحديث إعدادات الزاحف.
بدلاً من ذلك ، يمكنك تكوين الزاحف باستخدام AWS CLI (قدم دور IAM والمنطقة):
- قم الآن بتشغيل الزاحف وتحقق من اكتمال تشغيل الزاحف.
هذه مجموعة بيانات مقسمة للغاية وسيستغرق إكمالها حوالي 90 دقيقة.
تحقق من الجدول المقسم
في قاعدة بيانات AWS Glue blog_partition_index_crawlerdb
، تحقق من أن الجدول highly_partitioned_table
تم إنشاؤه.
بشكل افتراضي ، يحدد الزاحف فهرسًا استنادًا إلى أكبر تبديل لأعمدة الأقسام لأنواع الأعمدة الصالحة بنفس ترتيب أعمدة الأقسام ، والتي تكون إما رقمية أو سلسلة. للجدول الذي أنشأه الزاحف (highly_partitioned_table
) ، لدينا أعمدة التقسيم year
(خيط)، month
(خيط)، day
(سلسلة نصية) و hour
(خيط).
بناءً على هذا التعريف ، أنشأ الزاحف فهرسًا للتبديل بين السنة والشهر واليوم والساعة. أنشأ الزاحف الفهارس مسبوقة بـ crawler_
على أي فهرس قسم تم إنشاؤه افتراضيًا.
تحقق من ذلك بالانتقال إلى الجدول highly_partitioned_table
في وحدة تحكم AWS Glue واختيار ملف الفهارس علامة التبويب.
تمكن الزاحف من الزحف إلى مصدر بيانات S3 ونشر فهارس الأقسام للجدول بنجاح.
قارن بين تحسينات أداء الاستعلام باستخدام أثينا
أولاً ، نقوم بالاستعلام عن الجدول في أثينا دون استخدام فهرس القسم. للتحقق من الجداول باستخدام Athena ، أكمل الخطوات التالية:
- في وحدة تحكم أثينا ، اختر
crawler-primary-workgroup
مثل مجموعة عمل أثينا والاختيار الإقرار. - قم بتشغيل الاستعلام التالي:
توضح لقطة الشاشة التالية أن الاستعلام استغرق حوالي 32 ثانية دون تمكين التصفية باستخدام فهرس القسم.
- نقوم الآن بتمكين فهرس القسم في استعلام أثينا:
- قم بتشغيل الاستعلام التالي مرة أخرى ولاحظ وقت التشغيل:
توضح لقطة الشاشة التالية أن الاستعلام استغرق 700 مللي ثانية فقط ، وهو أسرع بكثير مع تمكين التصفية باستخدام فهرس القسم.
تنظيف
لتجنب الرسوم غير المرغوب فيها على حساب AWS الخاص بك ، يمكنك حذف موارد AWS:
- قم بتسجيل الدخول إلى وحدة تحكم CloudFormation كمسؤول IAM المستخدم لإنشاء مكدس CloudFormation.
- احذف مكدس CloudFormation الذي قمت بإنشائه.
وفي الختام
في هذا المنشور ، أوضحنا كيفية تكوين متتبع ارتباطات AWS لإنشاء فهارس أقسام ومقارنة أداء الاستعلام عند الوصول إلى البيانات باستخدام فهارس من أثينا.
في حالة عدم وجود فهارس أقسام على الجدول ، يقوم AWS Glue بتحميل جميع أقسام الجدول ، ثم يقوم بتصفية الأقسام المحملة ، مما يؤدي إلى استرداد غير فعال للبيانات الوصفية. يمكن الآن لخدمات التحليلات مثل Redshift Spectrum و Amazon EMR و AWS Glue ETL Spark DataFrames استخدام الفهارس لجلب الأقسام ، مما يؤدي إلى أداء استعلام كبير.
لمزيد من المعلومات حول فهارس الأقسام وأداء الاستعلام عبر محركات التحليل المختلفة ، ارجع إلى قم بتحسين أداء استعلام Amazon Athena باستخدام فهارس أقسام AWS Glue Data Catalog و تحسين أداء الاستعلام باستخدام فهارس أقسام AWS Glue.
شكر خاص لكل من ساهم في إطلاق ميزة الزاحف هذه: Yuhang Chen و Kyle Duong و Mita Gavade.
عن المؤلفين
سريفديا بارثاساراثي هو كبير مهندسي البيانات الضخمة في فريق AWS Lake Formation. تستمتع ببناء حلول شبكات البيانات ومشاركتها مع المجتمع.
سانديب ادوانكار هو مدير تقني للمنتجات في AWS. يقع مقره في منطقة خليج كاليفورنيا ، وهو يعمل مع العملاء في جميع أنحاء العالم لترجمة متطلبات العمل والمتطلبات الفنية إلى منتجات تمكن العملاء من تحسين كيفية إدارتهم للبيانات وتأمينها والوصول إليها.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- تمويل EVM. واجهة موحدة للتمويل اللامركزي. الوصول هنا.
- مجموعة كوانتوم ميديا. تضخيم IR / PR. الوصول هنا.
- أفلاطونايستريم. ذكاء بيانات Web3. تضخيم المعرفة. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- :لديها
- :يكون
- :أين
- $ UP
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- ماهرون
- الوصول
- الوصول
- حسابي
- نقر
- في
- تضيف
- مشرف
- مرة أخرى
- الكل
- على طول
- أيضا
- أمازون
- أمازون أثينا
- أمازون EMR
- أمازون ويب سيرفيسز
- المبالغ
- an
- تحليلية
- تحليلات
- و
- أي وقت
- ما يقرب من
- هي
- المنطقة
- حول
- AS
- At
- تلقائيا
- متاح
- تجنب
- AWS
- تكوين سحابة AWS
- غراء AWS
- تكوين بحيرة AWS
- على أساس
- خليج
- لان
- كان
- الفوائد
- كبير
- البيانات الكبيرة
- ابني
- الأعمال
- by
- كاليفورنيا
- CAN
- الأقسام
- سبب
- التغييرات
- اسعارنا محددة من قبل وزارة العمل
- تشن
- اختار
- اختيار
- تصنيف
- عمود
- الأعمدة
- يأتي
- مجتمع
- قارن
- مقارنة
- إكمال
- كنسولات
- بشكل متواصل
- ساهمت
- التكاليف
- الزاحف
- خلق
- خلق
- يخلق
- خلق
- خلق
- حالياًّ
- العملاء
- البيانات
- الوصول إلى البيانات
- بحيرة البيانات
- قاعدة البيانات
- يوم
- الترتيب
- شرح
- نشر
- ينشر
- وصف
- تفاصيل
- يحدد
- اكتشف
- إلى أسفل
- أثناء
- بكفاءة
- إما
- تمكين
- تمكين
- محركات
- الأثير (ETH)
- كل شخص
- موسع
- شرح
- أضعافا مضاعفة
- استخراج
- استخراج البيانات
- أسرع
- الميزات
- تصفية
- تصفية
- مرشحات
- نهائي
- اتباع
- متابعيك
- في حالة
- تشكيل
- تبدأ من
- يولد
- معطى
- العالم
- النمو
- متزايد
- يملك
- he
- ثقيل
- رفع أحمال ثقيلة
- جدا
- عقد
- ساعة
- كيفية
- كيفية
- HTML
- HTTP
- HTTPS
- IAM
- هوية
- تحسن
- تحسين
- تحسينات
- in
- القيمة الاسمية
- الزيادات
- مؤشر
- الفهارس
- غير فعال
- معلومات
- إلى
- IT
- JPG
- احتفظ
- حفظ
- مفاتيح
- بحيرة
- أكبر
- إطلاق
- تصميم
- تجميل
- مثل
- خط
- الأحمال
- جعل
- إدارة
- إدارة
- مدير
- عيون
- البيانات الوصفية
- ربما
- ملايين
- دقائق
- شهر
- الأكثر من ذلك
- كثيرا
- يجب
- التنقل
- التنقل
- قائمة الإختيارات
- بحاجة
- جديد
- حديثا
- لا
- الآن
- عدد
- of
- on
- فقط
- الأمثل
- or
- طلب
- لنا
- الناتج
- على مدى
- صفحة
- خبز
- مسار
- أداء
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- منشور
- يقدم
- معالجة
- المنتج
- مدير المنتج
- المنتجات
- تزود
- تقليص
- منطقة
- مطلوب
- المتطلبات الأساسية
- يتطلب
- الموارد
- مما أدى
- النتائج
- النوع
- الأدوار
- يجري
- تشغيل
- نفسه
- ثواني
- القسم
- تأمين
- كبير
- خدماتنا
- طقم
- إعدادات
- مشاركة
- هي
- يظهر
- هام
- بشكل ملحوظ
- الاشارات
- حل
- الحلول
- مصدر
- شرارة
- طيف
- كومة
- خطوات
- تخزين
- متجر
- صريح
- خيط
- بنجاح
- الدعم
- أنظمة
- جدول
- أخذ
- فريق
- تقني
- قالب
- شكر
- أن
- •
- من مشاركة
- منهم
- then
- تشبه
- هم
- الوقت
- إلى
- اليوم
- استغرق
- ترجمه
- صحيح
- نوع
- أنواع
- مع
- فهم
- غير مرغوب فيه
- تحديث
- تستخدم
- مستعمل
- استخدام
- الاستفادة من
- قيمنا
- القيم
- مختلف
- كبير
- تحقق من
- الإصدار
- وكان
- طريق..
- we
- الويب
- خدمات ويب
- متى
- التي
- من الذى
- سوف
- مع
- بدون
- مجموعة العمل
- أعمال
- العالم
- يامل
- عام
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت