Amazon Kırmızıya KaydırmaYaygın olarak kullanılan bir bulut veri ambarı olan , en zorlu iş yüklerinin performans gereksinimlerini karşılamak için önemli ölçüde gelişti. Bu yazı böyle yeni bir özelliği ele alıyor: çok boyutlu veri düzeni sıralama anahtarı.
Amazon Redshift artık bir tablonun verilerini tablonun fiziksel sütunları yerine filtre tahminlerine göre sıralayan yeni bir sıralama anahtarı türü olan çok boyutlu veri düzeni sıralama anahtarlarını destekleyerek sorgu performansınızı artırıyor. Çok boyutlu veri düzeni sıralama anahtarları, özellikle sorgu iş yükünüz tekrarlanan tarama filtreleri içerdiğinde tablo taramalarının performansını önemli ölçüde artıracaktır.
Amazon Redshift halihazırda şu yetenekleri sağlıyor: otomatik tablo optimizasyonu (ATO), yönetici müdahalesine gerek kalmadan sıralama ve dağıtım anahtarlarını uygulayarak tabloların tasarımını otomatik olarak optimize eder. Bu yazıda, ATO tarafından sunulan ve Amazon Redshift'in sıralama anahtarı danışmanı algoritması tarafından desteklenen ek bir özellik olarak çok boyutlu veri düzeni sıralama anahtarlarını tanıtıyoruz.
Çok boyutlu veri düzeni sıralama tuşları
AUTO sıralama anahtarıyla bir tablo tanımladığınızda Amazon Redshift ATO, sorgu geçmişinizi analiz eder ve iş yükünüz için hangi seçeneğin daha iyi olduğuna bağlı olarak tablonuz için otomatik olarak tek sütunlu sıralama anahtarını veya çok boyutlu veri düzeni sıralama anahtarını seçer. Çok boyutlu veri düzeni seçildiğinde Amazon Redshift, genellikle aynı sorgular tarafından erişilen satırları aynı konumlandıran çok boyutlu bir sıralama işlevi oluşturur ve sıralama işlevi daha sonra sorgu çalıştırmaları sırasında veri bloklarını atlamak ve hatta tekil yüklemin taranmasını atlamak için kullanılır. sütunlar.
Kullanıcının iş yükünde baskın bir sorgu modeli olan aşağıdaki kullanıcı sorgusunu göz önünde bulundurun:
Amazon Redshift, her sütuna ait verileri 1 MB'lık disk bloklarında saklar ve tablonun meta verilerinin bir parçası olarak her bloktaki minimum ve maksimum değerleri saklar. Bir sorgu bir aralık kısıtlı yüklemAmazon Redshift, tablo taramaları sırasında çok sayıda bloğu hızla atlamak için minimum ve maksimum değerleri kullanabilir. Ancak bu sorgunun alt bölge sütunundaki filtresi, minimum ve maksimum değerlere göre hangi blokların atlanacağını belirlemek için kullanılamaz ve sonuç olarak Amazon Redshift, başlıklar tablosundaki tüm satırları tarar:
Kullanıcının sorgusu ile çalıştırıldığında titles
tek sütunlu sıralama anahtarı kullanarak subregion
, önceki sorgunun sonucu aşağıdaki gibidir:
Bu, tablo taramasının 2,164,081,640 satır okuduğunu gösterir.
Taramaları iyileştirmek için titles
Amazon Redshift otomatik olarak çok boyutlu bir veri düzeni sıralama anahtarı kullanmaya karar verebilir. Koşulları karşılayan tüm satırlar lower(subregion) like '%United States%'
yüklem, tablonun özel bir bölgesinde aynı yerde bulunur ve bu nedenle Amazon Redshift yalnızca yüklemi karşılayan veri bloklarını tarar.
Kullanıcının sorgusu çalıştırıldığında titles
içeren çok boyutlu bir veri düzeni sıralama anahtarı kullanarak lower(subregion) like '%United States%'
bir yüklem olarak, sonucu sys_query_detail
sorgu şu şekilde:
Bu, tablo taramasının orijinalin yalnızca %152,324,046'si olan 7 satırı okuduğunu ve çok boyutlu veri düzeni sıralama anahtarını kullandığını gösterir.
Bu örneğin çok boyutlu veri düzeni özelliğini sergilemek için tek bir sorgu kullandığını ancak Amazon Redshift'in tabloda çalışan tüm sorguları dikkate alacağını ve en sık çalıştırılan tahminleri karşılamak için birden fazla bölge oluşturabileceğini unutmayın.
Bu sefer daha karmaşık yüklemler ve birden çok sorgu içeren başka bir örneği ele alalım.
Bir masanızın olduğunu hayal edin items (cost int, available int, demand int)
aşağıdaki örnekte gösterildiği gibi dört satırla.
#İD | maliyet | mevcut | talep |
1 | 4 | 3 | 3 |
2 | 2 | 23 | 6 |
3 | 5 | 4 | 5 |
4 | 1 | 1 | 2 |
Baskın iş yükünüz iki sorgudan oluşur:
- %70 sorgu modeli:
- %20 sorgu modeli:
Geleneksel sıralama teknikleriyle, tabloyu maliyet sütununa göre sıralamayı seçebilirsiniz; cost > 3
türden faydalanacaktır. Yani, tek bir tablo kullanarak sıralama yaptıktan sonra öğeler tablosu cost
sütun aşağıdaki gibi görünecektir.
#İD | maliyet | mevcut | talep |
Bölge #1, maliyet <= 3 ile | |||
Bölge #2, maliyet >3 |
#İD | maliyet | mevcut | talep |
4 | 1 | 1 | 2 |
2 | 2 | 23 | 6 |
1 | 4 | 3 | 3 |
3 | 5 | 4 | 5 |
Bu geleneksel sıralamayı kullanarak, ID 4 ve ID 2'ye sahip ilk iki (mavi) satırı hemen hariç tutabiliriz çünkü bunlar tatmin edici değildir cost > 3
.
Öte yandan, çok boyutlu bir veri düzeni sıralama anahtarıyla tablo, kullanıcının iş yükünde yaygın olarak ortaya çıkan iki yüklemin birleşimine göre sıralanacaktır; cost > 3
ve available < demand
. Sonuç olarak tablonun satırları dört bölgeye göre sıralanır.
#İD | maliyet | mevcut | talep |
Bölge #1, maliyet <= 3 ve kullanılabilirlik < talep ile | |||
Bölge #2, maliyet <= 3 ve mevcut >= talep ile | |||
Bölge #3, maliyet > 3 ve mevcut < talep | |||
Bölge #4, maliyet > 3 ve kullanılabilirlik >= talep ile |
#İD | maliyet | mevcut | talep |
4 | 1 | 1 | 2 |
2 | 2 | 23 | 6 |
3 | 5 | 4 | 5 |
1 | 4 | 3 | 3 |
Bu kavram, tek sıralar yerine tüm bloklara uygulandığında, geleneksel sıralama tekniklerine uygun olmayan operatörler kullanan karmaşık yüklemlere (örneğin, like
) ve ikiden fazla yükleme uygulandığında.
Sistem tabloları
Aşağıdaki Amazon Redshift sistem tabloları, kullanıcılara tablolarında ve sorgularında çok boyutlu veri düzenlerinin kullanılıp kullanılmadığını gösterecektir:
- Belirli bir tablonun çok boyutlu veri düzeni sıralama anahtarı kullanıp kullanmadığını belirlemek için,
sortkey1
in svv_table_info eşittirAUTO(SORTKEY(padb_internal_mddl_key_col))
. - Belirli bir sorgunun tablo taramalarını hızlandırmak amacıyla çok boyutlu veri düzenini kullanıp kullanmadığını belirlemek için şunları kontrol edebilirsiniz:
step_attribute
içinde sys_query_detail görüş. Değer şuna eşit olacaktır:multi-dimensional
tarama sırasında tablonun çok boyutlu veri düzeni sıralama anahtarı kullanıldıysa.
Performans karşılaştırmaları
Tekrarlanan tarama filtreleriyle birden çok iş yükü için dahili karşılaştırma testleri gerçekleştirdik ve çok boyutlu veri düzeni sıralama anahtarlarının kullanılmasının aşağıdaki sonuçları ürettiğini gördük:
- Sıralama anahtarının olmamasına kıyasla toplam çalışma süresinde %74 azalma.
- Her tabloda en iyi tek sütunlu sıralama anahtarına sahip olmakla karşılaştırıldığında toplam çalışma süresinde %40 azalma.
- Sıralama anahtarının olmamasıyla karşılaştırıldığında tablolardan okunan toplam satır sayısında %80 azalma.
- Her tabloda en iyi tek sütunlu sıralama anahtarına sahip olmakla karşılaştırıldığında tablolardan okunan toplam satır sayısında %47 azalma.
Özellik karşılaştırması
Çok boyutlu veri düzeni sıralama anahtarlarının kullanıma sunulmasıyla birlikte, tablolarınız artık iş yükünüzdeki yaygın olarak ortaya çıkan filtre tahminlerine dayalı olarak ifadelere göre sıralanabilir. Aşağıdaki tabloda Amazon Redshift'in iki rakiple özellik karşılaştırması sunulmaktadır.
Özellikler(Hazırlık aşamasında) | Amazon Kırmızıya Kaydırma | Rakip A | yarışmacı B |
Sütunlara göre sıralama desteği | Evet | Evet | Evet |
İfadeye göre sıralama desteği | Evet | Evet | Yok hayır |
Sıralama için otomatik sütun seçimi | Evet | Yok hayır | Evet |
Sıralama için otomatik ifade seçimi | Evet | Yok hayır | Yok hayır |
Sütun sıralaması veya ifade sıralaması arasında otomatik seçim | Evet | Yok hayır | Yok hayır |
Taramalar sırasında ifadeler için sıralama özelliklerinin otomatik kullanımı | Evet | Yok hayır | Yok hayır |
Hususlar
Çok boyutlu bir veri düzeni kullanırken aşağıdakileri aklınızda bulundurun:
- Tablonuzu SORTKEY AUTO olarak ayarladığınızda çok boyutlu veri düzeni etkinleştirilir.
- Amazon Redshift Advisor, geçmiş iş yükünüzü analiz ederek tablo için otomatik olarak tek sütunlu bir sıralama anahtarı veya çok boyutlu veri düzeni seçecektir.
- Amazon Redshift ATO, çok boyutlu veri düzeni sıralama sonuçlarını, devam eden sorguların iş yüküyle etkileşim biçimine göre ayarlar.
- Amazon Redshift ATO, çok boyutlu veri düzeni sıralama anahtarlarını, mevcut sıralama anahtarlarında olduğu gibi korur. Bakınız Otomatik tablo optimizasyonuyla çalışma ATO hakkında daha fazla bilgi için.
- Çok boyutlu veri düzeni sıralama anahtarları, hem sağlanan kümelerle hem de sunucusuz çalışma gruplarıyla çalışacaktır.
- Çok boyutlu veri düzeni sıralama anahtarları, tablonuzda AUTO SORTKEY etkinleştirildiği ve tekrarlanan tarama filtreleri içeren bir iş yükü algılandığı sürece mevcut verilerinizle çalışacaktır. Tablo, çok boyutlu sıralama fonksiyonunun sonuçlarına göre yeniden düzenlenecektir.
- Bir tablonun çok boyutlu veri düzeni sıralama anahtarlarını devre dışı bırakmak için tabloyu değiştir'i kullanın:
ALTER TABLE table_name ALTER SORTKEY NONE
. Bu, tablodaki OTO sıralama anahtarı özelliğini devre dışı bırakır. - Çok boyutlu veri düzeni sıralama anahtarları, sağlanan kümenizi sunucusuz bir kümeye geri yüklerken veya taşırken (ya da tam tersi) korunur.
Sonuç
Bu gönderide, çok boyutlu veri düzeni sıralama anahtarlarının, baskın sorguların yinelenen tarama filtrelerine sahip olduğu iş yükleri için sorgu çalışma zamanı performansını önemli ölçüde artırabildiğini gösterdik.
Amazon Redshift konsolundan bir önizleme kümesi oluşturmak için şuraya gidin: Kümeleri sayfa ve seç Önizleme kümesi oluştur. ABD Doğu (Ohio), ABD Doğu (K. Virginia), ABD Batı (Oregon), Asya Pasifik (Tokyo), Avrupa (İrlanda) ve Avrupa (Stockholm) Bölgelerinde küme oluşturabilir ve iş yüklerinizi test edebilirsiniz.
Bu yeni özellikle ilgili geri bildirimlerinizi duymaktan memnuniyet duyarız ve bu yazı hakkındaki yorumlarınızı sabırsızlıkla bekliyoruz.
yazarlar hakkında
hafif tamam New York merkezli bir Veri Ambarı Uzmanı Çözüm Mimarıdır. 15 yılı aşkın bir süredir veri ambarı çözümleri geliştiriyor ve Amazon Redshift konusunda uzman.
Jialin Ding Learned Systems Group'ta Uygulamalı Bilim Adamıdır ve Amazon Redshift gibi veri sistemlerinin performansını artırmak için makine öğrenimi ve optimizasyon tekniklerini uygulama konusunda uzmanlaşmıştır.
Yanzhu Ji Amazon Redshift ekibinde Ürün Yöneticisidir. Sektör lideri veri ürünleri ve platformlarında ürün vizyonu ve stratejisi konusunda deneyime sahiptir. Web geliştirme, sistem tasarımı, veri tabanı ve dağıtılmış programlama teknikleri kullanarak önemli yazılım ürünleri oluşturma konusunda olağanüstü bir beceriye sahiptir. Yanzhu, kişisel hayatında resim yapmayı, fotoğraf çekmeyi ve tenis oynamayı seviyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/big-data/improve-performance-of-workloads-containing-repetitive-scan-filters-with-multidimensional-data-layout-sort-keys-in-amazon-redshift/
- :vardır
- :dır-dir
- :olumsuzluk
- :Neresi
- 1
- 100
- 15 yıl
- %15
- 152
- 7
- 8
- 9
- a
- hızlandırmak
- erişilen
- Ek
- danışman
- Sonra
- karşı
- algoritma
- Türkiye
- zaten
- Amazon
- Amazon Web Servisleri
- an
- çözümlemek
- analiz
- ve
- Başka
- uygulamalı
- Uygulanması
- ARE
- AS
- Asya
- Asya Pasifik
- Oto
- Otomatik
- otomatik olarak
- mevcut
- AWS
- merkezli
- BE
- Çünkü
- olmuştur
- kıyaslama
- yarar
- İYİ
- Daha iyi
- arasında
- Engellemek
- Blokları
- Mavi
- her ikisi de
- bina
- fakat
- by
- CAN
- kabiliyet
- Kontrol
- Klinik
- bulut
- Küme
- Sütun
- Sütunlar
- kombinasyon
- yorumlar
- çoğunlukla
- karşılaştırıldığında
- karşılaştırma
- rakipler
- karmaşık
- kavram
- Düşünmek
- oluşur
- konsolos
- kurmak
- içeren
- Ücret
- kapaklar
- yaratmak
- Şu anda
- veri
- veri ambarı
- veritabanı
- karar vermek
- adanmış
- tanımlamak
- Talep
- talep
- Dizayn
- ayrıntılar
- algılandı
- Belirlemek
- gelişme
- dağıtıldı
- dağıtım
- yok
- baskın
- Dont
- sırasında
- her
- Doğu
- ya
- etkin
- Tüm
- eşit
- özellikle
- Eter (ETH)
- AVRUPA
- değerlendirme
- Hatta
- gelişti
- örnek
- mevcut
- deneyim
- ifade
- Özellikler(Hazırlık aşamasında)
- geribesleme
- filtre
- filtreler
- takip etme
- şu
- İçin
- ileri
- dört
- itibaren
- işlev
- grup
- el
- Var
- sahip olan
- he
- duymak
- onu
- tarihsel
- tarih
- Ancak
- HTML
- HTTPS
- ID
- if
- hemen
- iyileştirmek
- geliştirir
- in
- içerir
- bireysel
- endüstri lideri
- yerine
- etkileşim
- iç
- müdahale
- içine
- tanıtmak
- tanıtım
- Giriş
- İrlanda
- IT
- ürün
- anahtar
- anahtarlar
- büyük
- Düzen
- öğrendim
- öğrenme
- hayat
- sevmek
- seviyor
- Uzun
- Bakın
- gibi görünmek
- Aşk
- makine
- makine öğrenme
- tutar
- müdür
- tavır
- maksimum
- Neden
- Metadata
- olabilir
- göç
- akla
- asgari
- Daha
- çoğu
- çoklu
- Gezin
- gerek
- yeni
- yeni özellik
- New York
- yok hayır
- şimdi
- sayılar
- meydana gelen
- of
- kapalı
- sunulan
- Ohio
- on
- ONE
- devam
- bir tek
- operatörler
- optimizasyon
- optimize
- seçenek
- or
- sipariş
- Oregon
- orijinal
- Diğer
- dışarı
- ödenmemiş
- tekrar
- Pasifik
- boyama
- Bölüm
- belirli
- model
- performans
- yapılan
- kişisel
- fotoğrafçılık
- fiziksel
- Platformlar
- Platon
- Plato Veri Zekası
- PlatoVeri
- oynama
- Çivi
- güçlü
- korunmuş
- Önizleme
- Üretilmiş
- PLATFORM
- ürün müdürü
- Ürünler
- Programlama
- özellikleri
- sağlar
- sorgular
- hızla
- Okumak
- azalma
- başvurmak
- bölge
- bölgeler
- tekrarlayan
- Yer Alan Kurallar
- geri
- sonuç
- Sonuçlar
- koşmak
- koşu
- ishal
- aynı
- taramak
- tarama
- tarar
- bilim adamı
- sezon
- görmek
- seçmek
- seçilmiş
- seçim
- Serverless
- Hizmetler
- set
- o
- şov
- vitrin
- gösterdi
- gösterilen
- Gösteriler
- önemli ölçüde
- tek
- beceri
- So
- Yazılım
- Çözümler
- uzman
- uzmanlaşmış
- uzmanlaşmış
- mağaza
- Stratejileri
- Daha sonra
- önemli
- böyle
- uygun
- Destek
- sistem
- Sistemler
- tablo
- Bizi daha iyi tanımak için
- takım
- teknikleri
- tenis
- test
- Test yapmak
- göre
- o
- The
- ve bazı Asya
- bu nedenle
- onlar
- Re-Tweet
- zaman
- başlıkları
- için
- Tokyo
- üst
- Toplam
- geleneksel
- iki
- tip
- tipik
- us
- kullanım
- Kullanılmış
- kullanıcı
- kullanıcılar
- kullanım
- kullanma
- değer
- Değerler
- mengene
- Görüntüle
- Virjinya
- vizyonumuz
- depo
- oldu
- Yol..
- we
- ağ
- Web geliştirme
- web hizmetleri
- Batısında
- ne zaman
- olup olmadığını
- hangi
- geniş ölçüde
- irade
- ile
- olmadan
- İş
- olur
- yıl
- york
- sen
- zefirnet