Amazon EMR, Spark iş yüklerinin maliyet performansını %2-7 oranında artırmak için Amazon EC3 C7g (Graviton13) bulut sunucuları için desteği kullanıma sunuyor

Amazon EMR, Spark iş yüklerinin maliyet performansını %2-7 oranında artırmak için Amazon EC3 C7g (Graviton13) bulut sunucuları için desteği kullanıma sunuyor

Kaynak Düğüm: 1935298

Amazon EMR'si Apache Spark, Hive, Presto, Trino, HBase ve Flink gibi açık kaynaklı çerçeveleri kullanarak analiz uygulamalarını kolayca çalıştırmak için yönetilen bir hizmet sağlar. Şunun için Amazon EMR çalışma zamanı: Kıvılcım ve çabuk açık kaynaklı Apache Spark ve Presto'ya kıyasla iki kattan fazla performans iyileştirmesi sağlayan optimizasyonlar içerir.

Amazon EMR sürüm 6.7 ile artık şunları kullanabilirsiniz: Amazon Elastik Bilgi İşlem Bulutu kullanan (Amazon EC2) C7g bulut sunucuları AWS Graviton3 işlemciler. Bu bulut sunucuları, bulut sunucusu boyutuna bağlı olarak Amazon EMR'de Spark iş yüklerini çalıştırmanın fiyat-performans oranını önceki nesil bulut sunucularına göre %7.93-13.35 oranında artırır. Bu gönderide, fiyat-performans faydasını nasıl tahmin ettiğimizi açıklıyoruz.

EC2 C7g bulut sunucuları ile Amazon EMR çalışma zamanı performansı

C3g bulut sunucuları ile Apache Spark (Apache Spark 6.9 ile uyumlu) için Amazon EMR çalışma zamanını kullanarak Amazon EMR 3.3'da TPC-DS 7 TB karşılaştırma sorguları çalıştırdık. Veriler şurada saklandı: Amazon Basit Depolama Hizmeti (Amazon S3) ve sonuçlar, önceki nesil bulut sunucusu ailesinden eşdeğer C6g kümeleriyle karşılaştırıldı. TPC-DS 3 TB kıyaslama sorgularında toplam sorgu çalışma süresini ve sorgu çalışma zamanının geometrik ortalamasını kullanarak performans iyileştirmelerini ölçtük.

Sonuçlarımız, bulut sunucusu boyutuna bağlı olarak, C13.65g bulut sunucularına sahip eşdeğer EMR kümeleriyle karşılaştırıldığında, C18.73g'li EMR kümelerinde toplam sorgu çalışma zamanı performansında %16.98–20.28'lük iyileşme ve geometrik ortalamada %7–6'lik iyileşme gösterdi. Maliyetleri karşılaştırırken, bulut sunucusu boyutuna bağlı olarak C7.93g ile eşdeğerine kıyasla C13.35g ile EMR kümesinde maliyette %7-6 oranında azalma gözlemledik. Sorguları çalıştırmak için yeterli belleğe sahip olmadığı için C6g xlarge örneğini kıyaslamadık.

Aşağıdaki tabloda, eşdeğer C3g ve C6.9g bulut sunucusu EMR kümeleriyle karşılaştırmalı olarak Amazon EMR 7 kullanılarak TPC-DS 6 TB karşılaştırmalı değerlendirme sorgularının çalıştırılmasından elde edilen sonuçlar gösterilmektedir.

Örnek Boyutu 16 XL 12 XL 8 XL 4 XL 2 XL
Kümenin toplam boyutu (1 lider + 5 çekirdek düğüm) 6 6 6 6 6
C6g'de toplam sorgu çalışma süresi (saniye) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
C7g'de toplam sorgu çalışma süresi (saniye) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
C7g ile toplam sorgu çalışma zamanı iyileştirmesi %13.65 %15.13 %14.95 %18.73 %16.64
Geometrik ortalama sorgu çalışma zamanı C6g (saniye) 22.2113 21.75459 23.38081 31.97192 45.41656
Geometrik ortalama sorgu çalışma zamanı C7g (saniye) 18.43905 17.65898 19.01684 25.48695 37.43737
C7g ile geometrik ortalama sorgu çalışma zamanı iyileştirmesi %16.98 %18.83 %18.66 %20.28 %17.57
EC2 C6g bulut sunucusu fiyatı (saat başına $) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
EMR C6g bulut sunucusu fiyatı (saat başına $) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) bulut sunucusu fiyatı (saat başına $) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
C6g'de çalıştırma maliyeti (örnek başına $) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
EC2 C7g bulut sunucusu fiyatı (saat başına $) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
EMR C7g fiyatı (örnek başına saat başına $) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) C7g bulut sunucusu fiyatı (saat başına $) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
C7g'de çalıştırma maliyeti (örnek başına $) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Performans iyileştirme dahil olmak üzere C7g ile toplam maliyet azaltma -7.93% -9.52% -9.32% -13.35% -11.13%

Aşağıdaki grafik, eşdeğer C7g nesillerine kıyasla C2g 6xlarge bulut sunucularında gözlemlenen sorgu başına iyileştirmeleri göstermektedir.

Kıyaslama metodolojisi

Bu gönderide kullanılan karşılaştırmalı değerlendirme, endüstri standardı TPC-DS karşılaştırmalı değerlendirmesinden türetilmiştir ve sorguları kullanır. Spark SQL Performans Testleri GitHub deposu GMT ile düzeltmeleri uygulamalı.

Saat başına maliyeti, kümedeki örnek sayısı ve kümede sorguları çalıştırmak için geçen süre ile çarparak TCO'yu hesapladık. Tüm bulut sunucuları için ABD Doğu (K. Virginia) Bölgesinde isteğe bağlı fiyatlandırmayı kullandık.

Sonuç

Bu gönderide, eşdeğer önceki nesil bulut sunucularını kullanmaya kıyasla Amazon EMR'yi C7g bulut sunucularıyla kullanmanın maliyet-performans faydasını nasıl tahmin ettiğimizi açıkladık. Bu yeni bulut sunucularını Amazon EMR ile kullanmak, maliyet performansını %7-13 oranında artırır.


yazarlar hakkında

AMAÇLARIAl MS Amazon Web Services'ta Amazon EMR için bir ürün yöneticisidir.

Kyeonghyun Ryoo Amazon Web Services'ta EMR için Yazılım Geliştirme Mühendisi. Öncelikle dahili ekipler ve müşteriler için üretkenliklerini en üst düzeye çıkarmak üzere otomasyon araçları tasarlama ve oluşturma üzerinde çalışır. İş dışında, hala video oyunları oynamaktan zevk alan profesyonel oyun alanında emekli bir dünya şampiyonu.

Yuzhou Güneş Amazon Web Services'ta EMR için bir yazılım geliştirme mühendisidir.

Steve Koonce Amazon Web Services'ta EMR için bir Mühendislik Yöneticisidir.

Zaman Damgası:

Den fazla AWS Büyük Veri