Amazon EMR'si Apache Spark, Hive, Presto, Trino, HBase ve Flink gibi açık kaynaklı çerçeveleri kullanarak analiz uygulamalarını kolayca çalıştırmak için yönetilen bir hizmet sağlar. Şunun için Amazon EMR çalışma zamanı: Kıvılcım ve çabuk açık kaynaklı Apache Spark ve Presto'ya kıyasla iki kattan fazla performans iyileştirmesi sağlayan optimizasyonlar içerir.
Amazon EMR sürüm 6.7 ile artık şunları kullanabilirsiniz: Amazon Elastik Bilgi İşlem Bulutu kullanan (Amazon EC2) C7g bulut sunucuları AWS Graviton3 işlemciler. Bu bulut sunucuları, bulut sunucusu boyutuna bağlı olarak Amazon EMR'de Spark iş yüklerini çalıştırmanın fiyat-performans oranını önceki nesil bulut sunucularına göre %7.93-13.35 oranında artırır. Bu gönderide, fiyat-performans faydasını nasıl tahmin ettiğimizi açıklıyoruz.
EC2 C7g bulut sunucuları ile Amazon EMR çalışma zamanı performansı
C3g bulut sunucuları ile Apache Spark (Apache Spark 6.9 ile uyumlu) için Amazon EMR çalışma zamanını kullanarak Amazon EMR 3.3'da TPC-DS 7 TB karşılaştırma sorguları çalıştırdık. Veriler şurada saklandı: Amazon Basit Depolama Hizmeti (Amazon S3) ve sonuçlar, önceki nesil bulut sunucusu ailesinden eşdeğer C6g kümeleriyle karşılaştırıldı. TPC-DS 3 TB kıyaslama sorgularında toplam sorgu çalışma süresini ve sorgu çalışma zamanının geometrik ortalamasını kullanarak performans iyileştirmelerini ölçtük.
Sonuçlarımız, bulut sunucusu boyutuna bağlı olarak, C13.65g bulut sunucularına sahip eşdeğer EMR kümeleriyle karşılaştırıldığında, C18.73g'li EMR kümelerinde toplam sorgu çalışma zamanı performansında %16.98–20.28'lük iyileşme ve geometrik ortalamada %7–6'lik iyileşme gösterdi. Maliyetleri karşılaştırırken, bulut sunucusu boyutuna bağlı olarak C7.93g ile eşdeğerine kıyasla C13.35g ile EMR kümesinde maliyette %7-6 oranında azalma gözlemledik. Sorguları çalıştırmak için yeterli belleğe sahip olmadığı için C6g xlarge örneğini kıyaslamadık.
Aşağıdaki tabloda, eşdeğer C3g ve C6.9g bulut sunucusu EMR kümeleriyle karşılaştırmalı olarak Amazon EMR 7 kullanılarak TPC-DS 6 TB karşılaştırmalı değerlendirme sorgularının çalıştırılmasından elde edilen sonuçlar gösterilmektedir.
Örnek Boyutu | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Kümenin toplam boyutu (1 lider + 5 çekirdek düğüm) | 6 | 6 | 6 | 6 | 6 |
C6g'de toplam sorgu çalışma süresi (saniye) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
C7g'de toplam sorgu çalışma süresi (saniye) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
C7g ile toplam sorgu çalışma zamanı iyileştirmesi | %13.65 | %15.13 | %14.95 | %18.73 | %16.64 |
Geometrik ortalama sorgu çalışma zamanı C6g (saniye) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Geometrik ortalama sorgu çalışma zamanı C7g (saniye) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
C7g ile geometrik ortalama sorgu çalışma zamanı iyileştirmesi | %16.98 | %18.83 | %18.66 | %20.28 | %17.57 |
EC2 C6g bulut sunucusu fiyatı (saat başına $) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
EMR C6g bulut sunucusu fiyatı (saat başına $) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) bulut sunucusu fiyatı (saat başına $) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
C6g'de çalıştırma maliyeti (örnek başına $) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
EC2 C7g bulut sunucusu fiyatı (saat başına $) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
EMR C7g fiyatı (örnek başına saat başına $) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) C7g bulut sunucusu fiyatı (saat başına $) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
C7g'de çalıştırma maliyeti (örnek başına $) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Performans iyileştirme dahil olmak üzere C7g ile toplam maliyet azaltma | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
Aşağıdaki grafik, eşdeğer C7g nesillerine kıyasla C2g 6xlarge bulut sunucularında gözlemlenen sorgu başına iyileştirmeleri göstermektedir.
Kıyaslama metodolojisi
Bu gönderide kullanılan karşılaştırmalı değerlendirme, endüstri standardı TPC-DS karşılaştırmalı değerlendirmesinden türetilmiştir ve sorguları kullanır. Spark SQL Performans Testleri GitHub deposu GMT ile düzeltmeleri uygulamalı.
Saat başına maliyeti, kümedeki örnek sayısı ve kümede sorguları çalıştırmak için geçen süre ile çarparak TCO'yu hesapladık. Tüm bulut sunucuları için ABD Doğu (K. Virginia) Bölgesinde isteğe bağlı fiyatlandırmayı kullandık.
Sonuç
Bu gönderide, eşdeğer önceki nesil bulut sunucularını kullanmaya kıyasla Amazon EMR'yi C7g bulut sunucularıyla kullanmanın maliyet-performans faydasını nasıl tahmin ettiğimizi açıkladık. Bu yeni bulut sunucularını Amazon EMR ile kullanmak, maliyet performansını %7-13 oranında artırır.
yazarlar hakkında
Al MS Amazon Web Services'ta Amazon EMR için bir ürün yöneticisidir.
Kyeonghyun Ryoo Amazon Web Services'ta EMR için Yazılım Geliştirme Mühendisi. Öncelikle dahili ekipler ve müşteriler için üretkenliklerini en üst düzeye çıkarmak üzere otomasyon araçları tasarlama ve oluşturma üzerinde çalışır. İş dışında, hala video oyunları oynamaktan zevk alan profesyonel oyun alanında emekli bir dünya şampiyonu.
Yuzhou Güneş Amazon Web Services'ta EMR için bir yazılım geliştirme mühendisidir.
Steve Koonce Amazon Web Services'ta EMR için bir Mühendislik Yöneticisidir.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- %35
- 7
- 9
- a
- karşısında
- Ek
- AI
- Türkiye
- Amazon
- Amazon EC2
- Amazon EMR'si
- Amazon Web Servisleri
- analytics
- ve
- Apache
- Apache Spark
- uygulamaları
- uygulamalı
- Otomasyon
- Çünkü
- kıyaslama
- yarar
- bina
- hesaplanmış
- şampiyon
- Küme
- karşılaştırıldığında
- karşılaştırarak
- uyumlu
- hesaplamak
- çekirdek
- Ücret
- maliyet azaltma
- maliyetler
- Müşteriler
- veri
- bağlı
- Türetilmiş
- tanımlamak
- tarif edilen
- tasarım
- gelişme
- DID
- kolayca
- Doğu
- mühendis
- Mühendislik
- keyfini çıkarın
- Eşdeğer
- tahmini
- Eter (ETH)
- aile
- takip etme
- çerçeveler
- itibaren
- Games
- kumar
- nesil
- nesiller
- GitHub
- grafik
- kovan
- Ne kadar
- HTTPS
- iyileştirmek
- iyileşme
- iyileştirmeler
- geliştirir
- in
- içerir
- Dahil olmak üzere
- örnek
- iç
- IT
- başlattı
- lider
- yönetilen
- müdür
- Maksimuma çıkarmak
- Bellek
- MS
- çarpılması
- yeni
- düğümler
- numara
- açık kaynak
- dışında
- performans
- Platon
- Plato Veri Zekası
- PlatoVeri
- oynama
- Çivi
- önceki
- fiyat
- fiyatlandırma
- öncelikle
- işlemciler
- PLATFORM
- ürün müdürü
- verimlilik
- profesyonel
- sağlamak
- sağlar
- bölge
- serbest
- Sonuçlar
- koşmak
- koşu
- saniye
- hizmet
- Hizmetler
- Gösteriler
- Basit
- beden
- Yazılım
- yazılım geliştirme
- Kıvılcım
- SQL
- Yine
- hafızası
- saklı
- böyle
- yeterli
- destek
- tablo
- takım
- testleri
- The
- ve bazı Asya
- zaman
- için
- araçlar
- Toplam
- us
- kullanım
- Video
- video oyunları
- Virjinya
- ağ
- web hizmetleri
- hangi
- DSÖ
- İş
- çalışır
- Dünya
- zefirnet