Повышение производительности рабочих нагрузок, содержащих фильтры повторяющегося сканирования, с помощью ключей сортировки многомерного макета данных в Amazon Redshift

Переиздано Платоном

Читают: 0

Амазонка Redshift, широко используемое облачное хранилище данных, значительно эволюционировало, чтобы соответствовать требованиям к производительности самых ресурсоемких рабочих нагрузок. В этом посте рассматривается одна такая новая функция — ключ сортировки многомерного макета данных.

Amazon Redshift теперь повышает производительность запросов за счет поддержки ключей сортировки многомерного макета данных — нового типа ключей сортировки, который сортирует данные таблицы по предикатам фильтра, а не по физическим столбцам таблицы. Ключи сортировки многомерного макета данных значительно улучшат производительность сканирования таблиц, особенно если ваша рабочая нагрузка запросов содержит повторяющиеся фильтры сканирования.

Amazon Redshift уже предоставляет возможность автоматическая оптимизация стола (ATO), который автоматически оптимизирует структуру таблиц, применяя ключи сортировки и распределения без необходимости вмешательства администратора. В этом посте мы представляем ключи сортировки многомерного макета данных как дополнительную возможность, предлагаемую ATO и усиленную алгоритмом советника по ключам сортировки Amazon Redshift.

Ключи сортировки многомерного макета данных

Когда вы определяете таблицу с ключом сортировки АВТО, Amazon Redshift ATO проанализирует историю ваших запросов и автоматически выберет для вашей таблицы либо ключ сортировки по одному столбцу, либо ключ сортировки многомерного макета данных, в зависимости от того, какой вариант лучше подходит для вашей рабочей нагрузки. Если выбрано многомерное расположение данных, Amazon Redshift создаст функцию многомерной сортировки, которая совмещает строки, к которым обычно обращаются одни и те же запросы, а функция сортировки впоследствии используется во время выполнения запроса для пропуска блоков данных и даже пропуска сканирования отдельного предиката. столбцы.

Рассмотрим следующий пользовательский запрос, который является доминирующим шаблоном запроса в рабочей нагрузке пользователя:

SELECT season, sum(metric2) AS "__measure__0"
FROM titles
WHERE lower(subregion) like '%United States%'
GROUP BY 1
ORDER BY 1;

Amazon Redshift хранит данные для каждого столбца в дисковых блоках размером 1 МБ и сохраняет минимальные и максимальные значения в каждом блоке как часть метаданных таблицы. Если в запросе используется предикат с ограничением диапазонаAmazon Redshift может использовать минимальное и максимальное значения для быстрого пропуска большого количества блоков во время сканирования таблицы. Однако фильтр этого запроса в столбце субрегиона нельзя использовать для определения того, какие блоки следует пропускать на основе минимального и максимального значений, и в результате Amazon Redshift сканирует все строки из таблицы заголовков:

SELECT table_name, input_rows, step_attribute
FROM sys_query_detail
WHERE query_id = 123456789;

Когда запрос пользователя был запущен с помощью titles с помощью ключа сортировки по одному столбцу subregion, результат предыдущего запроса будет следующим:

  table_name | input_rows | step_attribute
-------------+------------+---------------
  titles     | 2164081640 | 
(1 rows)

Это показывает, что при сканировании таблицы было прочитано 2,164,081,640 XNUMX XNUMX XNUMX строк.

Чтобы улучшить сканирование на titles таблицы, Amazon Redshift может автоматически решить использовать ключ сортировки многомерного макета данных. Все строки, удовлетворяющие lower(subregion) like '%United States%' предикат будет размещен в выделенной области таблицы, поэтому Amazon Redshift будет сканировать только те блоки данных, которые удовлетворяют предикату.

Когда запрос пользователя выполняется с помощью titles используя ключ сортировки многомерного макета данных, который включает в себя lower(subregion) like '%United States%' как предикат, результат sys_query_detail запрос выглядит следующим образом:

  table_name | input_rows | step_attribute
-------------+------------+---------------
  titles     | 152324046  | multi-dimensional
(1 rows)

Это показывает, что при сканировании таблицы было прочитано 152,324,046 7 XNUMX строк, что составляет всего XNUMX% от исходного значения, и при этом использовался ключ сортировки многомерного макета данных.

Обратите внимание, что в этом примере используется один запрос для демонстрации функции многомерного размещения данных, но Amazon Redshift учтет все запросы, выполняемые к таблице, и может создать несколько регионов для удовлетворения наиболее часто используемых предикатов.

Давайте возьмем другой пример, на этот раз с более сложными предикатами и несколькими запросами.

Представьте, что у вас есть стол items (cost int, available int, demand int) с четырьмя строками, как показано в следующем примере.

#мне бы	стоят	доступен	спрос
1	4	3	3
2	2	23	6
3	5	4	5
4	1	1	2

Ваша основная рабочая нагрузка состоит из двух запросов:

Шаблон 70% запросов:

select * from items where cost > 3 and available < demand

Шаблон 20% запросов:

select avg(cost) from items where available < demand

Используя традиционные методы сортировки, вы можете отсортировать таблицу по столбцу затрат, чтобы оценка cost > 3 выиграет от такого рода. Итак, таблица элементов после сортировки с использованием одного cost столбец будет выглядеть следующим образом.

#мне бы	стоят	доступен	спрос
Регион №1, стоимость <= 3
Регион №2, стоимость > 3

#мне бы	стоят	доступен	спрос
4	1	1	2
2	2	23	6
1	4	3	3
3	5	4	5

Используя эту традиционную сортировку, мы можем сразу исключить две верхние (синие) строки с идентификаторами 4 и 2, поскольку они не удовлетворяют требованиям. cost > 3.

С другой стороны, при использовании ключа сортировки многомерного макета данных таблица будет отсортирована на основе комбинации двух часто встречающихся предикатов в рабочей нагрузке пользователя: cost > 3 и available < demand. В результате строки таблицы сортируются по четырем регионам.

#мне бы	стоят	доступен	спрос
Регион №1, стоимость <= 3 и доступность < спроса.
Регион №2, стоимость <= 3 и доступность >= спроса.
Регион №3, стоимость > 3 и доступность < спроса.
Регион № 4, стоимость > 3 и доступность >= спроса.

#мне бы	стоят	доступен	спрос
4	1	1	2
2	2	23	6
3	5	4	5
1	4	3	3

Эта концепция становится еще более мощной, когда она применяется к целым блокам, а не к отдельным строкам, когда применяется к сложным предикатам, которые используют операторы, не подходящие для традиционных методов сортировки (таких как like), а также при применении к более чем двум предикатам.

Системные таблицы

Следующие системные таблицы Amazon Redshift покажут пользователям, используются ли в их таблицах и запросах многомерные макеты данных:

Чтобы определить, использует ли конкретная таблица ключ сортировки многомерного макета данных, вы можете проверить, используется ли sortkey1 in svv_table_info равно AUTO(SORTKEY(padb_internal_mddl_key_col)).
Чтобы определить, использует ли конкретный запрос многомерное расположение данных для ускорения сканирования таблицы, вы можете проверить step_attribute в sys_query_detail вид. Значение будет равно multi-dimensional если во время сканирования использовался ключ сортировки многомерного макета данных таблицы.

Тесты производительности

Мы провели внутреннее тестирование производительности для нескольких рабочих нагрузок с фильтрами повторяющегося сканирования и увидели, что введение ключей сортировки многомерного макета данных дало следующие результаты:

Общее сокращение времени выполнения на 74 % по сравнению с отсутствием ключа сортировки.
Общее сокращение времени выполнения на 40 % по сравнению с использованием лучшего ключа сортировки по одному столбцу в каждой таблице.
Сокращение общего количества строк, считываемых из таблиц, на 80 % по сравнению с отсутствием ключа сортировки.
Сокращение общего количества строк, считываемых из таблиц, на 47 % по сравнению с лучшим ключом сортировки по одному столбцу в каждой таблице.

Сравнение функций

С появлением ключей сортировки многомерного макета данных ваши таблицы теперь можно сортировать по выражениям на основе часто встречающихся предикатов фильтров в вашей рабочей нагрузке. В следующей таблице представлено сравнение функций Amazon Redshift с двумя конкурентами.

Особенность	Амазонка Redshift	Конкурент А	Конкурент Б
Поддержка сортировки по столбцам	Да	Да	Да
Поддержка сортировки по выражению	Да	Да	Нет
Автоматический выбор столбца для сортировки	Да	Нет	Да
Автоматический выбор выражений для сортировки	Да	Нет	Нет
Автоматический выбор между сортировкой столбцов или сортировкой выражений	Да	Нет	Нет
Автоматическое использование свойств сортировки выражений во время сканирования	Да	Нет	Нет

Соображения

При использовании многомерного макета данных помните следующее:

Многомерное расположение данных включается, когда вы устанавливаете для таблицы режим SORTKEY AUTO.
Amazon Redshift Advisor автоматически выберет либо ключ сортировки по одному столбцу, либо макет многомерных данных для таблицы, анализируя вашу историческую рабочую нагрузку.
Amazon Redshift ATO корректирует результаты сортировки макета многомерных данных в зависимости от того, как текущие запросы взаимодействуют с рабочей нагрузкой.
Amazon Redshift ATO поддерживает ключи сортировки многомерного макета данных так же, как в настоящее время это делается для существующих ключей сортировки. Ссылаться на Работа с автоматической оптимизацией таблицы подробнее об АТО.
Ключи сортировки многомерного макета данных будут работать как с подготовленными кластерами, так и с бессерверными рабочими группами.
Ключи сортировки многомерного макета данных будут работать с существующими данными до тех пор, пока в вашей таблице включена функция АВТОСОРТИРОВКИ и обнаружена рабочая нагрузка с фильтрами повторяющегося сканирования. Таблица будет реорганизована на основе результатов функции многомерной сортировки.
Чтобы отключить ключи сортировки многомерного макета данных для таблицы, используйте alter table: ALTER TABLE table_name ALTER SORTKEY NONE. Это отключает функцию ключа автоматической сортировки в таблице.
Ключи сортировки многомерного макета данных сохраняются при восстановлении или переносе подготовленного кластера в бессерверный кластер и наоборот.

Заключение

В этом посте мы показали, что ключи сортировки многомерного макета данных могут значительно повысить производительность выполнения запросов для рабочих нагрузок, в которых доминирующие запросы имеют повторяющиеся фильтры сканирования.

Чтобы создать кластер предварительного просмотра из консоли Amazon Redshift, перейдите к Кластеры страницу и выберите Создать предварительный кластер. Вы можете создать кластер в регионах Восток США (Огайо), Восток США (Северная Вирджиния), Запад США (Орегон), Азиатско-Тихоокеанский регион (Токио), Европа (Ирландия) и Европа (Стокгольм) и протестировать свои рабочие нагрузки.

Мы хотели бы услышать ваши отзывы об этой новой функции и с нетерпением ждем ваших комментариев к этому посту.

Об авторах

Милинд Оке является специалистом по хранилищу данных, архитектором решений из Нью-Йорка. Он занимается созданием решений для хранилищ данных более 15 лет и специализируется на Amazon Redshift.

Цзялин Дин — учёный-прикладник в группе Learned Systems, специализирующийся на применении методов машинного обучения и оптимизации для повышения производительности систем обработки данных, таких как Amazon Redshift.

Янжу Цзи является менеджером по продукту в команде Amazon Redshift. У нее есть опыт работы с концепцией продуктов и стратегией ведущих в отрасли продуктов и платформ данных. Она обладает выдающимися навыками создания существенных программных продуктов с использованием методов веб-разработки, проектирования систем, баз данных и распределенного программирования. В личной жизни Янжу любит рисовать, фотографировать и играть в теннис.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/big-data/improve-performance-of-workloads-containing-repetitive-scan-filters-with-multidimensional-data-layout-sort-keys-in-amazon-redshift/

Отметка времени: 28 ноября 2023

Отметка времени: 9 января, 2024

Переиздано Платоном

Ключи сортировки многомерного макета данных

Системные таблицы

Тесты производительности

Сравнение функций

Соображения

Заключение

Об авторах

Больше от AWS Большие данные

AWS признана претендентом в магическом квадранте Gartner 2023 года для платформ аналитики и бизнес-аналитики

Представляем поддержку Apache Hudi с помощью сканеров AWS Glue | Веб-сервисы Amazon

Улучшения хранимых процедур в Amazon Redshift | Веб-сервисы Amazon

Выполните нагрузочное тестирование Amazon Kinesis с помощью Locust | Веб-сервисы Амазонки

Улучшите мониторинг и отладку заданий AWS Glue, используя новые метрики наблюдения за заданиями | Веб-сервисы Amazon

Улучшения поиска Amazon OpenSearch Service: обзор 2023 г. | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись