Verbessern Sie die Leistung von Workloads, die sich wiederholende Scanfilter enthalten, mit Sortierschlüsseln für mehrdimensionale Datenlayouts in Amazon Redshift | Amazon Web Services

Neuauflage von Plato

Verfolger: 0

Amazon RedShift, ein weit verbreitetes Cloud-Data-Warehouse, wurde erheblich weiterentwickelt, um den Leistungsanforderungen der anspruchsvollsten Arbeitslasten gerecht zu werden. In diesem Beitrag geht es um eine dieser neuen Funktionen: den Sortierschlüssel für das mehrdimensionale Datenlayout.

Amazon Redshift verbessert jetzt Ihre Abfrageleistung durch die Unterstützung mehrdimensionaler Datenlayout-Sortierschlüssel. Dabei handelt es sich um einen neuen Typ von Sortierschlüsseln, der die Daten einer Tabelle nach Filterprädikaten statt nach physischen Spalten der Tabelle sortiert. Sortierschlüssel für mehrdimensionale Datenlayouts verbessern die Leistung von Tabellenscans erheblich, insbesondere wenn Ihre Abfragearbeitslast sich wiederholende Scanfilter enthält.

Amazon Redshift bietet bereits die Möglichkeit dazu automatische Tabellenoptimierung (ATO), das das Design von Tabellen automatisch optimiert, indem es Sortier- und Verteilungsschlüssel anwendet, ohne dass ein Administratoreingriff erforderlich ist. In diesem Beitrag stellen wir mehrdimensionale Datenlayout-Sortierschlüssel als zusätzliche Funktion vor, die von ATO angeboten und durch den Sortierschlüssel-Advisor-Algorithmus von Amazon Redshift verstärkt wird.

Sortierschlüssel für mehrdimensionale Datenlayouts

Wenn Sie eine Tabelle mit dem Sortierschlüssel AUTO definieren, analysiert Amazon Redshift ATO Ihren Abfrageverlauf und wählt automatisch entweder einen einspaltigen Sortierschlüssel oder einen mehrdimensionalen Datenlayout-Sortierschlüssel für Ihre Tabelle aus, je nachdem, welche Option für Ihre Arbeitslast besser ist. Wenn ein mehrdimensionales Datenlayout ausgewählt ist, erstellt Amazon Redshift eine mehrdimensionale Sortierfunktion, die Zeilen anordnet, auf die normalerweise von denselben Abfragen zugegriffen wird, und die Sortierfunktion wird anschließend während der Abfrageläufe verwendet, um Datenblöcke und sogar das Scannen des einzelnen Prädikats zu überspringen Säulen.

Betrachten Sie die folgende Benutzerabfrage, die ein dominantes Abfragemuster in der Arbeitslast des Benutzers darstellt:

SELECT season, sum(metric2) AS "__measure__0"
FROM titles
WHERE lower(subregion) like '%United States%'
GROUP BY 1
ORDER BY 1;

Amazon Redshift speichert Daten für jede Spalte in 1-MB-Festplattenblöcken und speichert die Minimal- und Maximalwerte in jedem Block als Teil der Metadaten der Tabelle. Wenn eine Abfrage a verwendet Bereichsbeschränktes PrädikatAmazon Redshift kann die Minimal- und Maximalwerte verwenden, um bei Tabellenscans schnell eine große Anzahl von Blöcken zu überspringen. Der Filter dieser Abfrage für die Subregion-Spalte kann jedoch nicht verwendet werden, um basierend auf Mindest- und Höchstwerten zu bestimmen, welche Blöcke übersprungen werden sollen. Daher durchsucht Amazon Redshift alle Zeilen aus der Titeltabelle:

SELECT table_name, input_rows, step_attribute
FROM sys_query_detail
WHERE query_id = 123456789;

Wann die Abfrage des Benutzers ausgeführt wurde mit titles Verwenden eines einspaltigen Sortierschlüssels subregion, das Ergebnis der vorherigen Abfrage lautet wie folgt:

  table_name | input_rows | step_attribute
-------------+------------+---------------
  titles     | 2164081640 | 
(1 rows)

Dies zeigt, dass der Tabellenscan 2,164,081,640 Zeilen gelesen hat.

Um die Scans zu verbessern titles In der Tabelle entscheidet sich Amazon Redshift möglicherweise automatisch für die Verwendung eines Sortierschlüssels für das mehrdimensionale Datenlayout. Alle Zeilen, die die Anforderungen erfüllen lower(subregion) like '%United States%' Das Prädikat würde sich in einem dedizierten Bereich der Tabelle befinden, und daher scannt Amazon Redshift nur Datenblöcke, die das Prädikat erfüllen.

Wenn die Abfrage des Benutzers mit ausgeführt wird titles Verwenden eines mehrdimensionalen Datenlayout-Sortierschlüssels, der Folgendes umfasst: lower(subregion) like '%United States%' als Prädikat das Ergebnis des sys_query_detail Die Abfrage lautet wie folgt:

  table_name | input_rows | step_attribute
-------------+------------+---------------
  titles     | 152324046  | multi-dimensional
(1 rows)

Dies zeigt, dass der Tabellenscan 152,324,046 Zeilen gelesen hat, was nur 7 % des Originals entspricht, und dass der Sortierschlüssel für das mehrdimensionale Datenlayout verwendet wurde.

Beachten Sie, dass dieses Beispiel eine einzelne Abfrage verwendet, um die Funktion des mehrdimensionalen Datenlayouts zu veranschaulichen, Amazon Redshift jedoch alle Abfragen berücksichtigt, die für die Tabelle ausgeführt werden, und mehrere Regionen erstellen kann, um die am häufigsten ausgeführten Prädikate zu erfüllen.

Nehmen wir ein weiteres Beispiel, dieses Mal mit komplexeren Prädikaten und mehreren Abfragen.

Stellen Sie sich vor, Sie hätten einen Tisch items (cost int, available int, demand int) mit vier Reihen, wie im folgenden Beispiel gezeigt.

#Ich würde	kosten	verfügbar	Nachfrage
1	4	3	3
2	2	23	6
3	5	4	5
4	1	1	2

Ihre dominante Arbeitslast besteht aus zwei Abfragen:

70 % Abfragemuster:

select * from items where cost > 3 and available < demand

20 % Abfragemuster:

select avg(cost) from items where available < demand

Bei herkömmlichen Sortiertechniken könnten Sie sich dafür entscheiden, die Tabelle nach der Kostenspalte zu sortieren, sodass die Auswertung von erfolgt cost > 3 wird von der Sorte profitieren. Also, die Artikeltabelle wird nach dem Sortieren mit einem einzigen verwendet cost Die Spalte sieht wie folgt aus.

#Ich würde	kosten	verfügbar	Nachfrage
Region Nr. 1, mit Kosten <= 3
Region Nr. 2, mit Kosten > 3

#Ich würde	kosten	verfügbar	Nachfrage
4	1	1	2
2	2	23	6
1	4	3	3
3	5	4	5

Durch die Verwendung dieser herkömmlichen Sortierung können wir die beiden obersten (blauen) Zeilen mit ID 4 und ID 2 sofort ausschließen, da sie die Anforderungen nicht erfüllen cost > 3.

Andererseits wird die Tabelle mit einem mehrdimensionalen Datenlayout-Sortierschlüssel basierend auf einer Kombination der beiden häufig vorkommenden Prädikate in der Arbeitslast des Benutzers sortiert: cost > 3 und available < demand. Dadurch werden die Zeilen der Tabelle in vier Bereiche sortiert.

#Ich würde	kosten	verfügbar	Nachfrage
Region Nr. 1, mit Kosten <= 3 und Verfügbarkeit < Nachfrage
Region Nr. 2, mit Kosten <= 3 und Verfügbarkeit >= Nachfrage
Region Nr. 3, mit Kosten > 3 und Verfügbarkeit < Nachfrage
Region Nr. 4, mit Kosten > 3 und Verfügbarkeit >= Nachfrage

#Ich würde	kosten	verfügbar	Nachfrage
4	1	1	2
2	2	23	6
3	5	4	5
1	4	3	3

Dieses Konzept ist noch leistungsfähiger, wenn es auf ganze Blöcke statt auf einzelne Zeilen angewendet wird, wenn es auf komplexe Prädikate angewendet wird, die Operatoren verwenden, die für herkömmliche Sortiertechniken nicht geeignet sind (z. B like) und wenn es auf mehr als zwei Prädikate angewendet wird.

Systemtabellen

Die folgenden Amazon-Redshift-Systemtabellen zeigen Benutzern, ob in ihren Tabellen und Abfragen mehrdimensionale Datenlayouts verwendet werden:

Um festzustellen, ob eine bestimmte Tabelle einen mehrdimensionalen Datenlayout-Sortierschlüssel verwendet, können Sie prüfen, ob dies der Fall ist sortkey1 in svv_table_info entspricht AUTO(SORTKEY(padb_internal_mddl_key_col)).
Um festzustellen, ob eine bestimmte Abfrage ein mehrdimensionales Datenlayout verwendet, um Tabellenscans zu beschleunigen, können Sie dies überprüfen step_attribute der sys_query_detail Sicht. Der Wert wird gleich sein multi-dimensional wenn der mehrdimensionale Datenlayout-Sortierschlüssel der Tabelle während des Scans verwendet wurde.

Leistungsbenchmarks

Wir haben interne Benchmark-Tests für mehrere Workloads mit sich wiederholenden Scanfiltern durchgeführt und festgestellt, dass die Einführung mehrdimensionaler Datenlayout-Sortierschlüssel zu den folgenden Ergebnissen führte:

Eine Gesamtlaufzeitverkürzung von 74 % im Vergleich zum Fehlen eines Sortierschlüssels.
Eine Reduzierung der Gesamtlaufzeit um 40 % im Vergleich zur Verwendung des besten Sortierschlüssels für eine Spalte in jeder Tabelle.
Eine Reduzierung der Gesamtzahl der aus Tabellen gelesenen Zeilen um 80 % im Vergleich zum Fehlen eines Sortierschlüssels.
Eine Reduzierung der Gesamtzahl der aus Tabellen gelesenen Zeilen um 47 % im Vergleich zur Verwendung des besten Einzelspalten-Sortierschlüssels für jede Tabelle.

Funktionsvergleich

Mit der Einführung mehrdimensionaler Datenlayout-Sortierschlüssel können Ihre Tabellen jetzt nach Ausdrücken sortiert werden, die auf den häufig vorkommenden Filterprädikaten in Ihrer Arbeitslast basieren. Die folgende Tabelle bietet einen Funktionsvergleich von Amazon Redshift mit zwei Mitbewerbern.

Merkmal	Amazon RedShift	Wettbewerber A	Wettbewerber B
Unterstützung für die Sortierung nach Spalten	Ja	Ja	Ja
Unterstützung für die Sortierung nach Ausdruck	Ja	Ja	Nein
Automatische Spaltenauswahl zum Sortieren	Ja	Nein	Ja
Automatische Auswahl von Ausdrücken zum Sortieren	Ja	Nein	Nein
Automatische Auswahl zwischen Spaltensortierung oder Ausdruckssortierung	Ja	Nein	Nein
Automatische Verwendung von Sortiereigenschaften für Ausdrücke während Scans	Ja	Nein	Nein

Überlegungen

Beachten Sie Folgendes, wenn Sie ein mehrdimensionales Datenlayout verwenden:

Das mehrdimensionale Datenlayout ist aktiviert, wenn Sie Ihre Tabelle auf SORTKEY AUTO festlegen.
Amazon Redshift Advisor wählt automatisch entweder einen einspaltigen Sortierschlüssel oder ein mehrdimensionales Datenlayout für die Tabelle aus, indem er Ihre historische Arbeitslast analysiert.
Amazon Redshift ATO passt die Sortierergebnisse des mehrdimensionalen Datenlayouts basierend auf der Art und Weise an, in der laufende Abfragen mit der Arbeitslast interagieren.
Amazon Redshift ATO verwaltet Sortierschlüssel für mehrdimensionale Datenlayouts auf die gleiche Weise wie derzeit für vorhandene Sortierschlüssel. Beziehen auf Arbeiten mit automatischer Tabellenoptimierung Weitere Informationen zu ATO.
Sortierschlüssel für mehrdimensionale Datenlayouts funktionieren sowohl mit bereitgestellten Clustern als auch mit serverlosen Arbeitsgruppen.
Sortierschlüssel für mehrdimensionale Datenlayouts funktionieren mit Ihren vorhandenen Daten, solange der AUTO SORTKEY für Ihre Tabelle aktiviert ist und eine Arbeitslast mit sich wiederholenden Scanfiltern erkannt wird. Die Tabelle wird basierend auf den Ergebnissen der mehrdimensionalen Sortierfunktion neu organisiert.
Um mehrdimensionale Datenlayout-Sortierschlüssel für eine Tabelle zu deaktivieren, verwenden Sie alter table: ALTER TABLE table_name ALTER SORTKEY NONE. Dadurch wird die AUTO-Sortierschlüsselfunktion für die Tabelle deaktiviert.
Sortierschlüssel für mehrdimensionale Datenlayouts bleiben erhalten, wenn Sie Ihren bereitgestellten Cluster wiederherstellen oder zu einem serverlosen Cluster migrieren oder umgekehrt.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, dass mehrdimensionale Datenlayout-Sortierschlüssel die Laufzeitleistung von Abfragen für Arbeitslasten erheblich verbessern können, bei denen dominante Abfragen über sich wiederholende Scanfilter verfügen.

Um einen Vorschau-Cluster über die Amazon-Redshift-Konsole zu erstellen, navigieren Sie zu Cluster Seite und wählen Vorschaucluster erstellen. Sie können einen Cluster in den Regionen USA Ost (Ohio), USA Ost (Nord-Virginia), USA West (Oregon), Asien-Pazifik (Tokio), Europa (Irland) und Europa (Stockholm) erstellen und Ihre Arbeitslasten testen.

Wir würden uns über Ihr Feedback zu dieser neuen Funktion freuen und freuen uns auf Ihre Kommentare zu diesem Beitrag.

Über die Autoren

Milin Oke ist ein Data Warehouse Specialist Solutions Architect mit Sitz in New York. Er baut seit über 15 Jahren Data-Warehouse-Lösungen und ist auf Amazon Redshift spezialisiert.

Jialin Ding ist ein angewandter Wissenschaftler in der Learned Systems Group, der sich auf die Anwendung maschineller Lern- und Optimierungstechniken zur Verbesserung der Leistung von Datensystemen wie Amazon Redshift spezialisiert hat.

Yanzhu Ji ist Produktmanager im Amazon Redshift-Team. Sie hat Erfahrung in Produktvision und -strategie in branchenführenden Datenprodukten und -plattformen. Sie verfügt über hervorragende Fähigkeiten in der Erstellung umfangreicher Softwareprodukte unter Verwendung von Webentwicklung, Systemdesign, Datenbanken und verteilten Programmiertechniken. In ihrem Privatleben malt, fotografiert und spielt Yanzhu gerne Tennis.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/big-data/improve-performance-of-workloads-containing-repetitive-scan-filters-with-multidimensional-data-layout-sort-keys-in-amazon-redshift/

Zeitstempel: 28. November 2023

Zeitstempel: 21. August 2023

Verbessern Sie die Leistung von Workloads, die sich wiederholende Scanfilter enthalten, mit mehrdimensionalen Datenlayout-Sortierschlüsseln in Amazon Redshift | Amazon Web Services

Neuauflage von Plato

Sortierschlüssel für mehrdimensionale Datenlayouts

Systemtabellen

Leistungsbenchmarks

Funktionsvergleich

Überlegungen

Zusammenfassung

Über die Autoren

Mehr von AWS Big Data

Netzwerkkonnektivitätsmuster für Amazon OpenSearch Serverless | Amazon Web Services

Nahtlose Migration von Stitch Fix: Übergang von selbstverwaltetem Kafka zu Amazon MSK | Amazon Web Services

Stellen Sie von Ihrem lokalen Netzwerk aus eine Verbindung zu Amazon MSK Serverless her

Erstellen Sie einen ETL-Prozess für Amazon Redshift mit Amazon S3 Event Notifications und AWS Step Functions | Amazon Web Services

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto