آمازون Redshift، یک انبار داده ابری که به طور گسترده مورد استفاده قرار می گیرد، به طور قابل توجهی تکامل یافته است تا الزامات عملکرد سخت ترین حجم کاری را برآورده کند. این پست یکی از ویژگی های جدید را پوشش می دهد - کلید مرتب سازی طرح بندی داده های چند بعدی.
Amazon Redshift اکنون با پشتیبانی از کلیدهای مرتبسازی طرحبندی دادههای چند بعدی، که نوع جدیدی از کلید مرتبسازی است که دادههای جدول را بهجای ستونهای فیزیکی جدول بر اساس محمولههای فیلتر مرتب میکند، عملکرد جستجوی شما را بهبود میبخشد. کلیدهای مرتبسازی چیدمان دادههای چند بعدی به طور قابل توجهی عملکرد اسکنهای جدول را بهبود میبخشند، به خصوص زمانی که حجم کاری درخواست شما حاوی فیلترهای اسکن تکراری باشد.
آمازون Redshift قبلاً این قابلیت را فراهم می کند بهینه سازی خودکار جدول (ATO) که به طور خودکار طراحی جداول را با اعمال کلیدهای مرتب سازی و توزیع بدون نیاز به دخالت مدیر بهینه می کند. در این پست، کلیدهای مرتب سازی چیدمان داده های چند بعدی را به عنوان یک قابلیت اضافی ارائه شده توسط ATO و تقویت شده توسط الگوریتم مشاور کلید مرتب سازی Amazon Redshift معرفی می کنیم.
کلیدهای مرتب سازی طرح داده های چند بعدی
هنگامی که جدولی را با کلید مرتب سازی خودکار تعریف می کنید، Amazon Redshift ATO تاریخچه پرس و جو شما را تجزیه و تحلیل می کند و به طور خودکار یک کلید مرتب سازی تک ستونی یا کلید مرتب سازی داده های چند بعدی را برای جدول شما انتخاب می کند، بر اساس اینکه کدام گزینه برای حجم کاری شما بهتر است. وقتی طرحبندی دادههای چند بعدی انتخاب میشود، Amazon Redshift یک تابع مرتبسازی چند بعدی ایجاد میکند که ردیفهایی را که معمولاً توسط همان پرسوجوها به آنها دسترسی پیدا میکنند، مکانیابی میکند، و تابع مرتبسازی متعاقباً در طول اجرای پرسوجو برای رد کردن بلوکهای داده و حتی رد شدن از اسکن گزاره منفرد استفاده میشود. ستون ها.
پرس و جو کاربر زیر را در نظر بگیرید که یک الگوی پرس و جو غالب در حجم کاری کاربر است:
Amazon Redshift داده های هر ستون را در بلوک های دیسک 1 مگابایتی ذخیره می کند و حداقل و حداکثر مقادیر را در هر بلوک به عنوان بخشی از ابرداده جدول ذخیره می کند. اگر یک پرس و جو از a استفاده کند محمول محدود به محدودهAmazon Redshift می تواند از حداقل و حداکثر مقادیر برای رد شدن سریع تعداد زیادی بلوک در طول اسکن جدول استفاده کند. با این حال، فیلتر این پرس و جو در ستون زیرمنطقه نمی تواند برای تعیین اینکه کدام بلوک ها بر اساس مقادیر حداقل و حداکثر رد شوند، استفاده شود و در نتیجه، Amazon Redshift همه ردیف ها را از جدول عنوان ها اسکن می کند:
زمانی که پرس و جو کاربر با اجرا شد titles
با استفاده از کلید مرتب سازی تک ستونی در subregion
، نتیجه پرس و جو قبلی به شرح زیر است:
این نشان می دهد که اسکن جدول 2,164,081,640 ردیف را می خواند.
برای بهبود اسکن در titles
جدول، Amazon Redshift ممکن است به طور خودکار تصمیم به استفاده از کلید مرتبسازی طرحبندی دادههای چند بعدی بگیرد. تمام ردیف هایی که رضایت می دهند lower(subregion) like '%United States%'
گزاره در یک منطقه اختصاصی از جدول قرار می گیرد و بنابراین آمازون Redshift فقط بلوک های داده ای را اسکن می کند که گزاره را برآورده می کند.
هنگامی که پرس و جو کاربر با اجرا می شود titles
با استفاده از کلید مرتب سازی طرح بندی داده های چند بعدی که شامل lower(subregion) like '%United States%'
به عنوان یک محمول، نتیجه از sys_query_detail
پرس و جو به شرح زیر است:
این نشان می دهد که اسکن جدول 152,324,046،7،XNUMX ردیف را می خواند که تنها XNUMX٪ از نسخه اصلی است، و از کلید مرتب سازی طرح بندی داده های چند بعدی استفاده می کند.
توجه داشته باشید که این مثال از یک پرسوجو برای نمایش ویژگی طرحبندی دادههای چند بعدی استفاده میکند، اما آمازون Redshift تمام جستارهایی را که در مقابل جدول اجرا میشوند در نظر میگیرد و میتواند چندین ناحیه ایجاد کند تا متداولترین گزارههای اجرا شده را برآورده کند.
بیایید مثال دیگری بزنیم، این بار با محمولات پیچیده تر و پرس و جوهای متعدد.
تصور کنید یک میز دارید items (cost int, available int, demand int)
با چهار ردیف همانطور که در مثال زیر نشان داده شده است.
#شناسه | هزینه | در دسترس | تقاضا |
1 | 4 | 3 | 3 |
2 | 2 | 23 | 6 |
3 | 5 | 4 | 5 |
4 | 1 | 1 | 2 |
حجم کار غالب شما شامل دو پرس و جو است:
- 70% الگوی پرس و جو:
- 20% الگوی پرس و جو:
با تکنیکهای مرتبسازی سنتی، میتوانید جدول را بر روی ستون هزینه مرتب کنید، به طوری که ارزیابی از cost > 3
از این نوع سود خواهد برد. بنابراین، جدول موارد پس از مرتب سازی با استفاده از یک تک cost
ستون مانند زیر خواهد بود.
#شناسه | هزینه | در دسترس | تقاضا |
منطقه شماره 1، با هزینه <= 3 | |||
منطقه شماره 2، با هزینه > 3 |
#شناسه | هزینه | در دسترس | تقاضا |
4 | 1 | 1 | 2 |
2 | 2 | 23 | 6 |
1 | 4 | 3 | 3 |
3 | 5 | 4 | 5 |
با استفاده از این مرتب سازی سنتی، می توانیم بلافاصله دو ردیف بالا (آبی) با ID 4 و ID 2 را حذف کنیم، زیرا آنها راضی نمی شوند. cost > 3
.
از سوی دیگر، با یک کلید مرتبسازی طرحبندی دادههای چند بعدی، جدول بر اساس ترکیبی از دو محمول رایج در حجم کاری کاربر مرتب میشود. cost > 3
و available < demand
. در نتیجه، ردیفهای جدول به چهار منطقه مرتب میشوند.
#شناسه | هزینه | در دسترس | تقاضا |
منطقه شماره 1، با هزینه <= 3 و در دسترس < تقاضا | |||
منطقه #2، با هزینه <= 3 و موجود >= تقاضا | |||
منطقه شماره 3، با هزینه > 3 و در دسترس < تقاضا | |||
منطقه شماره 4، با هزینه > 3 و موجود >= تقاضا |
#شناسه | هزینه | در دسترس | تقاضا |
4 | 1 | 1 | 2 |
2 | 2 | 23 | 6 |
3 | 5 | 4 | 5 |
1 | 4 | 3 | 3 |
این مفهوم زمانی که به جای ردیفهای منفرد برای کل بلوکها اعمال میشود، زمانی که برای محمولات پیچیدهای که از عملگرهایی که برای تکنیکهای مرتبسازی سنتی مناسب نیستند (مانند like
) و زمانی که به بیش از دو گزاره اعمال شود.
جداول سیستم
جداول سیستم Amazon Redshift زیر به کاربران نشان میدهد که آیا طرحبندی دادههای چند بعدی در جداول و جستارهای آنها استفاده شده است:
- برای تعیین اینکه آیا یک جدول خاص از کلید مرتب سازی طرح بندی داده چند بعدی استفاده می کند، می توانید بررسی کنید که آیا
sortkey1
in svv_table_info برابر است باAUTO(SORTKEY(padb_internal_mddl_key_col))
. - برای تعیین اینکه آیا یک پرس و جو خاص از طرح داده های چند بعدی برای تسریع اسکن جدول استفاده می کند، می توانید بررسی کنید
step_attribute
در sys_query_detail چشم انداز. مقدار برابر خواهد بودmulti-dimensional
اگر از کلید مرتب سازی طرح داده های چند بعدی جدول در حین اسکن استفاده شده باشد.
معیارهای عملکرد
ما تست معیار داخلی را برای بارهای کاری متعدد با فیلترهای اسکن تکراری انجام دادیم و مشاهده کردیم که معرفی کلیدهای مرتبسازی چیدمان دادههای چند بعدی نتایج زیر را ایجاد کرد:
- 74٪ کاهش کل زمان اجرا در مقایسه با نداشتن کلید مرتب سازی.
- 40٪ کاهش کل زمان اجرا در مقایسه با داشتن بهترین کلید مرتب سازی تک ستونی در هر جدول.
- کاهش 80٪ در کل ردیف های خوانده شده از جداول در مقایسه با نداشتن کلید مرتب سازی.
- کاهش 47 درصدی در کل ردیف های خوانده شده از جداول در مقایسه با داشتن بهترین کلید مرتب سازی تک ستونی در هر جدول.
مقایسه ویژگی ها
با معرفی کلیدهای مرتبسازی چیدمان دادههای چند بعدی، جداول شما اکنون میتوانند بر اساس عبارات بر اساس محمولات فیلتر رایج در حجم کاری شما مرتب شوند. جدول زیر مقایسه ویژگی های Amazon Redshift در برابر دو رقیب را ارائه می دهد.
ویژگی | آمازون Redshift | رقیب A | رقیب B |
پشتیبانی از مرتب سازی بر روی ستون ها | بله | بله | بله |
پشتیبانی از مرتب سازی بر اساس بیان | بله | بله | نه |
انتخاب خودکار ستون برای مرتب سازی | بله | نه | بله |
انتخاب خودکار عبارات برای مرتب سازی | بله | نه | نه |
انتخاب خودکار بین مرتب سازی ستون ها یا مرتب سازی عبارات | بله | نه | نه |
استفاده خودکار از ویژگی های مرتب سازی برای عبارات در طول اسکن | بله | نه | نه |
ملاحظات
هنگام استفاده از طرحبندی دادههای چند بعدی، موارد زیر را در نظر داشته باشید:
- هنگامی که جدول خود را به عنوان SORTKEY AUTO تنظیم می کنید، طرح داده چند بعدی فعال می شود.
- Amazon Redshift Advisor به طور خودکار یک کلید مرتبسازی تک ستونی یا طرحبندی دادههای چند بعدی را با تجزیه و تحلیل حجم کاری تاریخی شما انتخاب میکند.
- Amazon Redshift ATO نتایج مرتبسازی چیدمان دادههای چند بعدی را بر اساس نحوه تعامل پرسوجوهای مداوم با حجم کار تنظیم میکند.
- Amazon Redshift ATO کلیدهای مرتب سازی طرح بندی داده های چند بعدی را به همان روشی که در حال حاضر برای کلیدهای مرتب سازی موجود انجام می دهد حفظ می کند. رجوع شود به کار با بهینه سازی خودکار جدول برای جزئیات بیشتر در مورد ATO
- کلیدهای مرتبسازی طرحبندی دادههای چند بعدی هم با خوشههای ارائهشده و هم با گروههای کاری بدون سرور کار میکنند.
- تا زمانی که AUTO SORTKEY روی جدول شما فعال باشد و حجم کاری با فیلترهای اسکن تکراری شناسایی شود، کلیدهای مرتبسازی طرحبندی دادههای چند بعدی با دادههای موجود شما کار میکنند. جدول بر اساس نتایج تابع مرتب سازی چند بعدی سازماندهی مجدد خواهد شد.
- برای غیرفعال کردن کلیدهای مرتب سازی طرح بندی داده های چند بعدی برای یک جدول، از جدول تغییر استفاده کنید:
ALTER TABLE table_name ALTER SORTKEY NONE
. این ویژگی کلید مرتب سازی خودکار روی جدول را غیرفعال می کند. - کلیدهای مرتبسازی طرحبندی دادههای چند بعدی هنگام بازیابی یا انتقال خوشه ارائهشده شما به یک خوشه بدون سرور یا بالعکس حفظ میشوند.
نتیجه
در این پست، ما نشان دادیم که کلیدهای مرتبسازی چیدمان دادههای چند بعدی میتوانند به طور قابلتوجهی عملکرد زمان اجرای پرسوجو را برای بارهای کاری که در آن کوئریهای غالب دارای فیلترهای اسکن تکراری هستند، بهبود بخشد.
برای ایجاد یک خوشه پیشنمایش از کنسول آمازون Redshift، به آن بروید خوشه صفحه و انتخاب کنید ایجاد خوشه پیش نمایش. می توانید یک خوشه در مناطق شرق ایالات متحده (اوهایو)، شرق ایالات متحده (شمال ویرجینیا)، غرب ایالات متحده (اورگان)، آسیا اقیانوسیه (توکیو)، اروپا (ایرلند) و اروپا (استکهلم) ایجاد کنید و حجم کاری خود را آزمایش کنید.
ما دوست داریم نظرات شما را در مورد این ویژگی جدید بشنویم و منتظر نظرات شما در مورد این پست هستیم.
درباره نویسندگان
میلیند اوکه یک معمار راه حل متخصص انبار داده در نیویورک است. او بیش از 15 سال است که راه حل های انبار داده را می سازد و در Amazon Redshift متخصص است.
جیالین دینگ یک دانشمند کاربردی در گروه سیستم های آموخته شده است و متخصص در استفاده از تکنیک های یادگیری ماشین و بهینه سازی برای بهبود عملکرد سیستم های داده مانند Amazon Redshift است.
یانژو جی مدیر محصول در تیم آمازون Redshift است. او دارای تجربه در چشم انداز محصول و استراتژی در محصولات داده و پلتفرم های پیشرو در صنعت است. او مهارت برجسته ای در ساخت محصولات نرم افزاری قابل توجه با استفاده از توسعه وب، طراحی سیستم، پایگاه داده و تکنیک های برنامه نویسی توزیع شده دارد. یانژو در زندگی شخصی خود به نقاشی، عکاسی و بازی تنیس علاقه دارد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/big-data/improve-performance-of-workloads-containing-repetitive-scan-filters-with-multidimensional-data-layout-sort-keys-in-amazon-redshift/
- : دارد
- :است
- :نه
- :جایی که
- 1
- 100
- سال 15
- ٪۱۰۰
- 152
- 7
- 8
- 9
- a
- شتاب دادن
- قابل دسترسی است
- اضافی
- مشاور
- پس از
- در برابر
- الگوریتم
- معرفی
- قبلا
- آمازون
- آمازون خدمات وب
- an
- تحلیل
- تجزیه و تحلیل
- و
- دیگر
- اعمال می شود
- با استفاده از
- هستند
- AS
- آسیا
- آسیا و اقیانوسیه
- خودکار
- اتوماتیک
- بطور خودکار
- در دسترس
- AWS
- مستقر
- BE
- زیرا
- بوده
- محک
- سود
- بهترین
- بهتر
- میان
- مسدود کردن
- بلاک ها
- آبی
- هر دو
- بنا
- اما
- by
- CAN
- قابلیت
- بررسی
- را انتخاب کنید
- ابر
- خوشه
- ستون
- ستون ها
- ترکیب
- نظرات
- عموما
- مقایسه
- مقایسه
- رقبای
- پیچیده
- مفهوم
- در نظر بگیرید
- تشکیل شده است
- کنسول
- ساختن
- شامل
- هزینه
- را پوشش می دهد
- ایجاد
- در حال حاضر
- داده ها
- انبار داده
- پایگاه داده
- تصمیم گیری
- اختصاصی
- تعريف كردن
- تقاضا
- خواستار
- طرح
- جزئیات
- شناسایی شده
- مشخص کردن
- پروژه
- توزیع شده
- توزیع
- میکند
- غالب
- آیا
- در طی
- هر
- شرق
- هر دو
- فعال
- تمام
- برابر
- به خصوص
- اتر (ETH)
- اروپا
- ارزیابی
- حتی
- تکامل
- مثال
- موجود
- تجربه
- اصطلاحات
- ویژگی
- باز خورد
- فیلتر
- فیلترها برای تصفیه آب
- پیروی
- به دنبال آن است
- برای
- به جلو
- چهار
- از جانب
- تابع
- گروه
- دست
- آیا
- داشتن
- he
- شنیدن
- او
- تاریخی
- تاریخ
- اما
- HTML
- HTTPS
- ID
- if
- بلافاصله
- بهبود
- را بهبود می بخشد
- in
- شامل
- فرد
- پیشرو در صنعت
- در عوض
- تعامل
- داخلی
- مداخله
- به
- معرفی
- معرفی
- معرفی
- ایرلند
- IT
- اقلام
- کلید
- کلید
- بزرگ
- طرح
- آموخته
- یادگیری
- زندگی
- پسندیدن
- دوست دارد
- طولانی
- نگاه کنيد
- شبیه
- عشق
- دستگاه
- فراگیری ماشین
- حفظ
- مدیر
- روش
- بیشترین
- دیدار
- متاداده
- قدرت
- مهاجرت
- ذهن
- حد اقل
- بیش
- اکثر
- چندگانه
- هدایت
- نیاز
- جدید
- ویژگی های جدید
- نیویورک
- نه
- اکنون
- تعداد
- اتفاق می افتد
- of
- خاموش
- ارائه شده
- اوهایو
- on
- ONE
- مداوم
- فقط
- اپراتور
- بهینه سازی
- بهینه سازی می کند
- گزینه
- or
- سفارش
- اورگان
- اصلی
- دیگر
- خارج
- برجسته
- روی
- ارام
- نقاشی
- بخش
- ویژه
- الگو
- کارایی
- انجام
- شخصی
- عکاسی
- فیزیکی
- سیستم عامل
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- پست
- قوی
- حفظ شده است
- پیش نمایش
- ساخته
- محصول
- مدیر تولید
- محصولات
- برنامه نويسي
- املاک
- فراهم می کند
- نمایش ها
- سریعا
- خواندن
- کاهش
- مراجعه
- منطقه
- مناطق
- تکراری
- مورد نیاز
- بازگرداندن
- نتیجه
- نتایج
- دویدن
- در حال اجرا
- اجرا می شود
- همان
- اسکن
- پویش
- اسکن
- دانشمند
- فصل
- دیدن
- را انتخاب کنید
- انتخاب شد
- انتخاب
- بدون سرور
- خدمات
- تنظیم
- او
- نشان
- نمایشگاه
- نشان داد
- نشان داده شده
- نشان می دهد
- به طور قابل توجهی
- تنها
- مهارت
- So
- نرم افزار
- مزایا
- متخصص
- تخصص دارد
- متخصص
- پرده
- استراتژی
- متعاقبا
- قابل توجه
- چنین
- مناسب
- حمایت از
- سیستم
- سیستم های
- جدول
- گرفتن
- تیم
- تکنیک
- تنیس
- آزمون
- تست
- نسبت به
- که
- La
- شان
- از این رو
- آنها
- این
- زمان
- عناوین
- به
- توکیو
- بالا
- جمع
- سنتی
- دو
- نوع
- به طور معمول
- us
- استفاده کنید
- استفاده
- کاربر
- کاربران
- استفاده
- با استفاده از
- ارزش
- ارزشها
- معاون
- چشم انداز
- ویرجینیا
- دید
- انبار کالا
- بود
- مسیر..
- we
- وب
- توسعه وب
- خدمات وب
- غرب
- چه زمانی
- چه
- که
- به طور گسترده ای
- اراده
- با
- بدون
- مهاجرت کاری
- خواهد بود
- سال
- نیویورک
- شما
- شما
- زفیرنت