الأمازون الأحمر، وهو مستودع بيانات سحابي مستخدم على نطاق واسع، تطور بشكل كبير لتلبية متطلبات الأداء لأحمال العمل الأكثر تطلبًا. يغطي هذا المنشور إحدى هذه الميزات الجديدة - مفتاح فرز تخطيط البيانات متعدد الأبعاد.
يعمل Amazon Redshift الآن على تحسين أداء استعلامك من خلال دعم مفاتيح فرز تخطيط البيانات متعددة الأبعاد، وهو نوع جديد من مفتاح الفرز الذي يقوم بفرز بيانات الجدول حسب مسندات المرشح بدلاً من الأعمدة الفعلية للجدول. ستعمل مفاتيح فرز تخطيط البيانات متعددة الأبعاد على تحسين أداء عمليات فحص الجدول بشكل كبير، خاصة عندما يحتوي عبء عمل الاستعلام الخاص بك على عوامل تصفية فحص متكررة.
يوفر Amazon Redshift بالفعل القدرة على التحسين التلقائي للجدول (ATO)، الذي يعمل تلقائيًا على تحسين تصميم الجداول من خلال تطبيق مفاتيح الفرز والتوزيع دون الحاجة إلى تدخل المسؤول. في هذا المنشور، نقدم مفاتيح فرز تخطيط البيانات متعددة الأبعاد كإمكانية إضافية تقدمها ATO ومعززة بخوارزمية مستشار الفرز الخاصة بـ Amazon Redshift.
مفاتيح فرز تخطيط البيانات متعددة الأبعاد
عند تحديد جدول باستخدام مفتاح الفرز التلقائي، ستقوم Amazon Redshift ATO بتحليل سجل الاستعلام الخاص بك وتحديد تلقائيًا إما مفتاح فرز أحادي العمود أو مفتاح فرز تخطيط بيانات متعدد الأبعاد لجدولك، بناءً على الخيار الأفضل لعبء العمل الخاص بك. عند تحديد تخطيط بيانات متعدد الأبعاد، سيقوم Amazon Redshift بإنشاء وظيفة فرز متعددة الأبعاد تشارك في تحديد موقع الصفوف التي يتم الوصول إليها عادةً بواسطة نفس الاستعلامات، ويتم استخدام وظيفة الفرز لاحقًا أثناء تشغيل الاستعلام لتخطي كتل البيانات وحتى تخطي فحص المسند الفردي أعمدة.
خذ بعين الاعتبار استعلام المستخدم التالي، وهو نمط استعلام سائد في عبء عمل المستخدم:
يقوم Amazon Redshift بتخزين البيانات لكل عمود في كتل قرص بحجم 1 ميجابايت ويخزن الحد الأدنى والحد الأقصى للقيم في كل كتلة كجزء من البيانات التعريفية للجدول. إذا كان الاستعلام يستخدم a المسند مقيدة النطاق، يستطيع Amazon Redshift استخدام الحد الأدنى والحد الأقصى للقيم لتخطي أعداد كبيرة من الكتل بسرعة أثناء عمليات فحص الجدول. ومع ذلك، لا يمكن استخدام مرشح هذا الاستعلام في عمود المنطقة الفرعية لتحديد الكتل التي سيتم تخطيها استنادًا إلى الحد الأدنى والحد الأقصى للقيم، ونتيجة لذلك، يقوم Amazon Redshift بفحص جميع الصفوف من جدول العناوين:
عندما تم تشغيل استعلام المستخدم مع titles
باستخدام مفتاح فرز ذو عمود واحد subregion
، نتيجة الاستعلام السابق هي كما يلي:
يوضح هذا أن مسح الجدول قرأ 2,164,081,640 صفًا.
لتحسين عمليات المسح على titles
الجدول، قد يقرر Amazon Redshift تلقائيًا استخدام مفتاح فرز تخطيط البيانات متعدد الأبعاد. كافة الصفوف التي تلبي lower(subregion) like '%United States%'
سيتم وضع المسند في موقع مشترك في منطقة مخصصة من الجدول، وبالتالي لن يقوم Amazon Redshift بفحص كتل البيانات التي تلبي المسند إلا.
عندما يتم تشغيل استعلام المستخدم مع titles
باستخدام مفتاح فرز تخطيط البيانات متعدد الأبعاد الذي يتضمن lower(subregion) like '%United States%'
كمسند، نتيجة sys_query_detail
الاستعلام هو كما يلي:
يوضح هذا أن مسح الجدول قرأ 152,324,046 صفًا، وهو ما يمثل 7% فقط من النص الأصلي، واستخدم مفتاح فرز تخطيط البيانات متعدد الأبعاد.
لاحظ أن هذا المثال يستخدم استعلامًا واحدًا لعرض ميزة تخطيط البيانات متعددة الأبعاد، لكن Amazon Redshift سيأخذ في الاعتبار جميع الاستعلامات التي يتم تشغيلها مقابل الجدول ويمكنه إنشاء مناطق متعددة لتلبية المسندات الأكثر تشغيلًا.
لنأخذ مثالاً آخر، مع مسندات أكثر تعقيدًا واستعلامات متعددة هذه المرة.
تخيل وجود طاولة items (cost int, available int, demand int)
بأربعة صفوف كما هو موضح في المثال التالي.
#هوية شخصية | كلف | متاح | الطلب |
1 | 4 | 3 | 3 |
2 | 2 | 23 | 6 |
3 | 5 | 4 | 5 |
4 | 1 | 1 | 2 |
يتكون عبء العمل السائد لديك من استعلامين:
- نمط الاستعلامات بنسبة 70%:
- نمط الاستعلامات بنسبة 20%:
باستخدام تقنيات الفرز التقليدية، يمكنك اختيار فرز الجدول على عمود التكلفة، بحيث يتم تقييمه cost > 3
سوف تستفيد من هذا النوع. لذلك، جدول العناصر بعد الفرز باستخدام واحد cost
سيبدو العمود كما يلي.
#هوية شخصية | كلف | متاح | الطلب |
المنطقة رقم 1، بتكلفة <= 3 | |||
المنطقة رقم 2، بتكلفة > 3 |
#هوية شخصية | كلف | متاح | الطلب |
4 | 1 | 1 | 2 |
2 | 2 | 23 | 6 |
1 | 4 | 3 | 3 |
3 | 5 | 4 | 5 |
باستخدام هذا الفرز التقليدي، يمكننا على الفور استبعاد الصفين العلويين (الأزرق) ذوي المعرف 4 والمعرف 2، لأنهما لا يرضيان cost > 3
.
من ناحية أخرى، باستخدام مفتاح فرز تخطيط البيانات متعدد الأبعاد، سيتم فرز الجدول بناءً على مزيج من المسندين الشائعين في عبء عمل المستخدم، وهما cost > 3
و available < demand
. ونتيجة لذلك، يتم فرز صفوف الجدول إلى أربع مناطق.
#هوية شخصية | كلف | متاح | الطلب |
المنطقة رقم 1، بتكلفة <= 3 ومتاحة < الطلب | |||
المنطقة رقم 2، بتكلفة <= 3 ومتاحة >= الطلب | |||
المنطقة رقم 3، بتكلفة > 3 ومتاحة < الطلب | |||
المنطقة رقم 4، بتكلفة > 3 ومتاحة >= الطلب |
#هوية شخصية | كلف | متاح | الطلب |
4 | 1 | 1 | 2 |
2 | 2 | 23 | 6 |
3 | 5 | 4 | 5 |
1 | 4 | 3 | 3 |
يكون هذا المفهوم أكثر قوة عند تطبيقه على كتل كاملة بدلاً من صفوف مفردة، وعند تطبيقه على المسندات المعقدة التي تستخدم عوامل تشغيل غير مناسبة لتقنيات الفرز التقليدية (مثل like
)، وعند تطبيقها على أكثر من مسندين.
جداول النظام
ستظهر جداول نظام Amazon Redshift التالية للمستخدمين إذا تم استخدام تخطيطات البيانات متعددة الأبعاد في الجداول والاستعلامات الخاصة بهم:
- لتحديد ما إذا كان جدول معين يستخدم مفتاح فرز تخطيط بيانات متعدد الأبعاد، يمكنك التحقق من ذلك
sortkey1
in svv_table_info مساوي لAUTO(SORTKEY(padb_internal_mddl_key_col))
. - لتحديد ما إذا كان استعلام معين يستخدم تخطيط بيانات متعدد الأبعاد لتسريع عمليات فحص الجدول، يمكنك التحقق
step_attribute
في ال sys_query_detail منظر. القيمة ستكون مساوية لmulti-dimensional
إذا تم استخدام مفتاح فرز تخطيط البيانات متعدد الأبعاد للجدول أثناء الفحص.
معايير الأداء
لقد أجرينا اختبار قياس الأداء الداخلي لأحمال عمل متعددة باستخدام مرشحات المسح المتكررة ورأينا أن تقديم مفاتيح فرز تخطيط البيانات متعددة الأبعاد أدى إلى النتائج التالية:
- تقليل إجمالي وقت التشغيل بنسبة 74% مقارنة بعدم وجود مفتاح فرز.
- تقليل إجمالي وقت التشغيل بنسبة 40% مقارنة بالحصول على أفضل مفتاح فرز بعمود واحد في كل جدول.
- انخفاض بنسبة 80% في إجمالي الصفوف المقروءة من الجداول مقارنة بعدم وجود مفتاح فرز.
- انخفاض بنسبة 47% في إجمالي الصفوف المقروءة من الجداول مقارنة بالحصول على أفضل مفتاح فرز بعمود واحد في كل جدول.
مقارنة الميزة
مع تقديم مفاتيح فرز تخطيط البيانات متعددة الأبعاد، يمكن الآن فرز جداولك حسب التعبيرات المستندة إلى مسندات التصفية الشائعة في عبء العمل الخاص بك. يوفر الجدول التالي مقارنة ميزات Amazon Redshift مع اثنين من المنافسين.
الميزات | الأمازون الأحمر | المنافس أ | المنافس ب |
دعم الفرز على الأعمدة | نعم | نعم | نعم |
دعم الفرز حسب التعبير | نعم | نعم | لا |
اختيار العمود التلقائي للفرز | نعم | لا | نعم |
اختيار التعبيرات التلقائية للفرز | نعم | لا | لا |
الاختيار التلقائي بين فرز الأعمدة أو فرز التعبيرات | نعم | لا | لا |
الاستخدام التلقائي لخصائص الفرز للتعبيرات أثناء عمليات المسح | نعم | لا | لا |
الاعتبارات
ضع في اعتبارك ما يلي عند استخدام تخطيط بيانات متعدد الأبعاد:
- يتم تمكين تخطيط البيانات متعدد الأبعاد عندما تقوم بتعيين الجدول الخاص بك كـ SORTKEY AUTO.
- سيختار Amazon Redshift Advisor تلقائيًا إما مفتاح فرز أحادي العمود أو تخطيط بيانات متعدد الأبعاد للجدول من خلال تحليل عبء العمل التاريخي لديك.
- يقوم Amazon Redshift ATO بضبط نتائج فرز تخطيط البيانات متعدد الأبعاد بناءً على الطريقة التي تتفاعل بها الاستعلامات المستمرة مع عبء العمل.
- يحتفظ Amazon Redshift ATO بمفاتيح فرز تخطيط البيانات متعددة الأبعاد بنفس الطريقة التي يتبعها حاليًا مع مفاتيح الفرز الموجودة. تشير إلى العمل مع التحسين التلقائي للجدول لمزيد من التفاصيل حول ATO.
- ستعمل مفاتيح فرز تخطيط البيانات متعددة الأبعاد مع كل من المجموعات المتوفرة ومجموعات العمل التي لا تحتوي على خادم.
- ستعمل مفاتيح فرز تخطيط البيانات متعددة الأبعاد مع بياناتك الحالية طالما تم تمكين AUTO SORTKEY على الجدول الخاص بك وتم اكتشاف عبء العمل باستخدام مرشحات المسح المتكررة. ستتم إعادة تنظيم الجدول بناءً على نتائج وظيفة الفرز متعدد الأبعاد.
- لتعطيل مفاتيح فرز تخطيط البيانات متعددة الأبعاد لجدول، استخدم جدول التغيير:
ALTER TABLE table_name ALTER SORTKEY NONE
. يؤدي هذا إلى تعطيل ميزة مفتاح الفرز التلقائي على الطاولة. - يتم الاحتفاظ بمفاتيح فرز تخطيط البيانات متعددة الأبعاد عند استعادة مجموعتك المتوفرة أو ترحيلها إلى مجموعة بدون خادم أو العكس.
وفي الختام
في هذا المنشور، أظهرنا أن مفاتيح فرز تخطيط البيانات متعددة الأبعاد يمكن أن تحسن بشكل كبير أداء وقت تشغيل الاستعلام لأحمال العمل حيث تحتوي الاستعلامات السائدة على عوامل تصفية مسح متكررة.
لإنشاء مجموعة معاينة من وحدة تحكم Amazon Redshift، انتقل إلى مجموعات الصفحة واختيار إنشاء مجموعة المعاينة. يمكنك إنشاء مجموعة في مناطق شرق الولايات المتحدة (أوهايو)، وشرق الولايات المتحدة (شمال فرجينيا)، وغرب الولايات المتحدة (أوريغون)، وآسيا والمحيط الهادئ (طوكيو)، وأوروبا (أيرلندا)، وأوروبا (ستوكهولم) واختبار أعباء العمل الخاصة بك.
نود أن نسمع تعليقاتك على هذه الميزة الجديدة ونتطلع إلى تعليقاتك على هذا المنشور.
عن المؤلفين
ميليند أوك هو مهندس حلول متخصص في مستودع البيانات مقره نيويورك. لقد عمل على بناء حلول مستودعات البيانات لأكثر من 15 عامًا وهو متخصص في Amazon Redshift.
جيالين دينغ هو عالم تطبيقي في مجموعة Learned Systems Group، وهو متخصص في تطبيق تقنيات التعلم الآلي والتحسين لتحسين أداء أنظمة البيانات مثل Amazon Redshift.
يانشو جي مدير منتجات في فريق Amazon Redshift. لديها خبرة في رؤية المنتج والاستراتيجية في منتجات ومنصات البيانات الرائدة في الصناعة. لديها مهارة بارزة في بناء منتجات برمجية كبيرة باستخدام تطوير الويب وتصميم النظام وقاعدة البيانات وتقنيات البرمجة الموزعة. في حياتها الشخصية ، تحب Yanzhu الرسم والتصوير ولعب التنس.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/big-data/improve-performance-of-workloads-containing-repetitive-scan-filters-with-multidimensional-data-layout-sort-keys-in-amazon-redshift/
- :لديها
- :يكون
- :ليس
- :أين
- 1
- 100
- 15 سنة
- 15%
- 152
- 7
- 8
- 9
- a
- تسريع
- الوصول
- إضافي
- المستشار
- بعد
- ضد
- خوارزمية
- الكل
- سابقا
- أمازون
- أمازون ويب سيرفيسز
- an
- تحليل
- تحليل
- و
- آخر
- تطبيقي
- تطبيق
- هي
- AS
- آسيا
- المحيط الآسيوي
- السيارات
- أوتوماتيك
- تلقائيا
- متاح
- AWS
- على أساس
- BE
- لان
- كان
- مؤشر
- تستفيد
- أفضل
- أفضل
- ما بين
- حظر
- Blocks
- الأزرق
- على حد سواء
- ابني
- لكن
- by
- CAN
- قدرة
- التحقق
- اختار
- سحابة
- كتلة
- عمود
- الأعمدة
- مجموعة
- تعليقات
- عادة
- مقارنة
- مقارنة
- المنافسين
- مجمع
- مفهوم
- نظر
- يتكون
- كنسولات
- بناء
- يحتوي
- التكلفة
- ويغطي
- خلق
- حاليا
- البيانات
- مستودع البيانات
- قاعدة البيانات
- تقرر
- مخصصة
- حدد
- الطلب
- يطالب
- تصميم
- تفاصيل
- الكشف عن
- حدد
- التطوير التجاري
- وزعت
- توزيع
- هل
- مهيمن
- لا
- أثناء
- كل
- الشرق
- إما
- تمكين
- كامل
- متساو
- خاصة
- الأثير (ETH)
- أوروبا
- تقييم
- حتى
- تطورت
- مثال
- القائمة
- الخبره في مجال الغطس
- التعبيرات
- الميزات
- ردود الفعل
- تصفية
- مرشحات
- متابعيك
- متابعات
- في حالة
- إلى الأمام
- أربعة
- تبدأ من
- وظيفة
- تجمع
- يد
- يملك
- وجود
- he
- سماع
- لها
- تاريخي
- تاريخ
- لكن
- HTML
- HTTPS
- ID
- if
- فورا
- تحسن
- يحسن
- in
- يشمل
- فرد
- الرائدة في صناعة
- بدلًا من ذلك
- تفاعل
- داخلي
- تدخل
- إلى
- تقديم
- إدخال
- المُقدّمة
- أيرلندا
- IT
- العناصر
- القفل
- مفاتيح
- كبير
- تصميم
- تعلم
- تعلم
- الحياة
- مثل
- الإعجابات
- طويل
- بحث
- يبدو مثل
- حب
- آلة
- آلة التعلم
- تحتفظ
- مدير
- أسلوب
- أقصى
- تعرف علي
- البيانات الوصفية
- ربما
- المهاجرة
- مانع
- الحد الأدنى
- الأكثر من ذلك
- أكثر
- متعدد
- التنقل
- حاجة
- جديد
- ميزة جديدة
- نيويورك
- لا
- الآن
- أرقام
- تحدث
- of
- خصم
- عرضت
- أوهايو
- on
- ONE
- جارية
- فقط
- مشغلي
- التحسين
- المثلى
- خيار
- or
- طلب
- ولاية أوريغون
- أصلي
- أخرى
- خارج
- معلقة
- على مدى
- سلمي
- اللوحة
- جزء
- خاص
- نمط
- أداء
- تنفيذ
- الشخصية
- تصوير
- مادي
- منصات التداول
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- لعب
- منشور
- قوي
- محفوظ
- أرسال
- أنتج
- المنتج
- مدير المنتج
- المنتجات
- برمجة وتطوير
- HAS
- ويوفر
- الاستفسارات
- بسرعة
- عرض
- تخفيض
- الرجوع
- منطقة
- المناطق
- تكرارية
- المتطلبات الأساسية
- استعادة
- نتيجة
- النتائج
- يجري
- تشغيل
- يدير
- نفسه
- تفحص
- مسح
- مسح
- عالم
- الموسم
- انظر تعريف
- حدد
- مختار
- اختيار
- Serverless
- خدماتنا
- طقم
- هي
- إظهار
- عرض
- أظهرت
- أظهرت
- يظهر
- بشكل ملحوظ
- عزباء
- مهارة
- So
- تطبيقات الكمبيوتر
- الحلول
- متخصص
- تتخصص
- متخصصة
- فروعنا
- الإستراتيجيات
- بعد ذلك
- جوهري
- هذه
- مناسب
- دعم
- نظام
- أنظمة
- جدول
- أخذ
- فريق
- تقنيات
- كرة المضرب
- تجربه بالعربي
- الاختبار
- من
- أن
- •
- من مشاركة
- وبالتالي
- هم
- الوقت
- عناوين
- إلى
- طوكيو
- تيشرت
- الإجمالي
- تقليدي
- اثنان
- نوع
- عادة
- us
- تستخدم
- مستعمل
- مستخدم
- المستخدمين
- يستخدم
- استخدام
- قيمنا
- القيم
- رذيلة
- المزيد
- فرجينيا
- رؤيتنا
- المخزن
- وكان
- طريق..
- we
- الويب
- تطوير شبكة الويب
- خدمات ويب
- West Side
- متى
- سواء
- التي
- على نحو واسع
- سوف
- مع
- بدون
- للعمل
- سوف
- سنوات
- نيويورك
- لصحتك!
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت