Amazon EMR Sunucusuz maliyet tahmin aracı

Amazon EMR Sunucusuz maliyet tahmin aracı

Kaynak Düğüm: 1776349

Amazon EMR Sunucusuz sunucusuz bir seçenektir Amazon EMR'si bu, veri analistlerinin ve mühendislerinin kümeleri veya sunucuları yapılandırmadan, yönetmeden ve ölçeklendirmeden Apache Spark ve Hive gibi açık kaynaklı büyük veri analitiği çerçevelerini kullanarak uygulamaları çalıştırmasını kolaylaştırır. Amazon EMR'nin performans açısından optimize edilmiş çalışma zamanı ile bulut sunucularını ve kümeleri planlamak ve çalıştırmak zorunda kalmadan en son açık kaynaklı çerçevelerin tüm özelliklerine sahip olursunuz.

Amazon EMR ile analitik uygulamalarınızı özel EMR kümelerinde, mevcut Amazon Elastik Kubernetes Hizmeti (Amazon EKS) kümeleri veya kümeleri veya bulut sunucularını yönetmenize gerek olmayan yeni EMR Sunucusuz dağıtım seçeneğini kullanma. Bir Amazon EMR sürümünü (örneğin Amazon EMR 6.8) kullanarak bir Spark veya Hive uygulaması oluşturduğunuzda, uygulamayı kullanarak EMR kümelerinde, EKS kümelerinde çalıştırabilirsiniz. EKS'de Amazon EMRveya uygulamayı değiştirmek zorunda kalmadan EMR Sunucusuz kullanma.

Her dağıtım seçeneğinin avantajları hakkında bilgi edinmek için EMR Sunucusuz, bakın EC2'de EMR Sunucusuz ve Amazon EMR arasındaki özellik farklarından bazıları nelerdir? Amazon EMR SSS bölümünde. Ayrıca bu seçenekler için fiyatlandırma hakkında bilgi edinebilirsiniz. Amazon EMR fiyatlandırma sayfası. Birçok müşteri halihazırda EMR kümelerinde veri analitiği uygulamaları çalıştırıyor ve yeni sunucusuz seçeneğin daha basit ve daha ucuz olduğunu görüyor.

Bu gönderide, şu anda EMR kümelerinde çalışan bir uygulamayı yeni sunucusuz seçeneği kullanarak çalıştırmanın maliyetini nasıl tahmin edebileceğinizi ve bu analizi yalnızca mevcut uygulama ölçümlerinizi kullanarak gerçekleştirebileceğinizi tartışacağız. Bu yaklaşım, uygulama için en uygun maliyetli dağıtım seçeneğini değerlendirmenize ve benimsemenize yardımcı olur. Ancak Amazon EMR fiyatlandırma sayfası, mevcut EMR küme uygulamalarınızı EMR Sunucusuz çalıştırmanın maliyetini nasıl kolayca tahmin edebileceğinizi söylemez. Aşağıdaki bölümlerde, bunu yapmanızı sağlayan bir yaklaşımı açıklıyoruz.

Bu gönderideki örnek, EMR kümelerinde çalışan uygulamalar için nasıl bir maliyet tahmini alabileceğinizi ele alsa da, başka bir yerde bir Spark veya Hive uygulaması çalıştırıyorsanız ve EMR'de çalıştırmanın maliyetini tahmin etmek istiyorsanız da bu yaklaşımı kullanabilirsiniz. Sunucusuz. Örneğin, üzerinde kendi kendini yöneten Spark veya Hive uygulamalarını çalıştırıyorsanız, Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) kümeleri veya üzerinde Spark işleri çalıştırıyorsanız AWS Tutkal, uygulamayı EMR Sunucusuz çalıştırmanın maliyetini tahmin etmek için bu yaklaşımı nasıl kullanabileceğinizi gösteriyoruz.

EMR kümenizde uygulama çalıştırmanın maliyetini tahmin etme

Amazon EMR kümelerinde uygulama çalıştırdığınızda, aşağıdakiler için ayrıca ücretlendirilirsiniz:

  1. Çalışan küme bulut sunucularının Amazon EC2 fiyatı (temel sunucuların fiyatı)
  2. fiyat Amazon Elastik Blok Mağazası EBS ciltlerini eklemeyi seçerseniz (Amazon EBS) ciltleri
  3. Küme bulut sunucuları için Amazon EMR fiyatı

Kümeyi çalıştırmanın toplam maliyeti üçünü de içerir. İsteğe Bağlı, 2 yıllık ve 1 yıllık Rezerve Edilmiş Bulut Sunucuları, Kapasite Tasarruf Planları ve Spot Bulut Sunucuları dahil olmak üzere aralarından seçim yapabileceğiniz çeşitli Amazon EC3 fiyatlandırma seçenekleri vardır. Seçtiğiniz Amazon EC2 fiyatlandırma seçeneği, (a) Amazon EC2 fiyatını belirler. Uygulamayı EMR kümelerinde çalıştırmanın maliyeti (a), (b) ve (c)'nin toplamıdır. Bu maliyeti, kümeyi çalıştırma ömrü boyunca (bir kümenin başlatıldığı andan kümenin sonlandırıldığı zamana kadar) veya küme çalışırken belirli bir süre boyunca hesaplayabilirsiniz. İlkini çalıştırmanızı, yani (a), (b) ve (c)'yi kümenin başlatıldığı andan kümenin sonlandırıldığı zamana kadar hesaplamanızı öneririz. Amazon EMR kümeniz için etiketler ayarladıysanız, AWS Cost Explorer kullanarak EMR kümeniz için ayrıntılı maliyet raporu.

Aynı uygulamaları EMR Sunucusuz kullanarak çalıştırmanın maliyetini tahmin etme

Aynı uygulamaları EMR Sunucusuz kullanarak çalıştırdığınızda, uygulamalarınız tarafından tüketilen vCPU, bellek ve depolama kaynaklarının miktarı için ödeme yaparsınız. EC2 bulut sunucuları veya EBS birimleri için ayrı bir ücret alınmaz. Ayrıca, sağlanan EC2 bulut sunucuları için değil, yalnızca uygulama tarafından fiilen kullanılan kaynaklar için ödeme yaparsınız. Örneğin, uygulamaları EMR kümelerinde çalıştırırken, kümedeki bir EC2 bulut sunucusu kısmen kullanıldığında (örneğin, örnekte bulunan 16 GB'ın 64 GB'ı kullanılır veya örnekte bulunan 4 VCPU'dan 16 VCPU kullanılır) ) veya EC2 bulut sunucusu boştayken (örneğin, bulut sunucusu başlatılırken veya bir uygulamanın başlamasını beklerken), tam EC2 bulut sunucusu için ve bu süre boyunca Amazon EC2, Amazon EMR ve Amazon EBS ücretlerine tabi olursunuz. örnek, EMR kümesinde etkindir. EMR Sunucusuz ile, yalnızca çalışanların Spark veya Hive işinizi çalıştırmaya başladıkları andan durdukları ana kadar kullanılan vCPU, bellek ve depolama kaynakları için ödeme yaparsınız.

EMR Spark veya Hive uygulamanızı EMR Sunucusuz çalıştırmanın maliyetini tahmin etmek için, öncelikle EMR kümenizde çalışan her bir YARN uygulaması tarafından tüketilen toplam işlem vCore-saniyelerini, bellek MB-saniyelerini ve depolama GB-saniyelerini toplamanız gerekir. YARN kabının başlatıldığı andan YARN kabının sonlandırıldığı zamana kadar. Bu ölçümleri, YARN zaman çizelgesi sunucusundan veya YARN CLI araçlarından erişilebilen YARN kaynak yöneticisi günlüklerinden elde edebilirsiniz. YARN uygulamalarının her biri tarafından kullanılan çalışma süresini, vCore-saniyelerini ve bellek MB-saniyelerini alabilirsiniz.

Kümeniz yalnızca Spark uygulamalarını çalıştırıyorsa, tahmin etmek için daha basit bir yaklaşım vardır. YARN kaynak yöneticisi günlüklerinden vCore-saniye, bellek MB-saniye ve depolama GB-saniyelerini almak yerine, bu ölçümleri Spark olay günlüklerinden elde edebilirsiniz. aracı sağladık EMR Sunucusuz Tahmincisiuygulamalarınız için Spark olay günlüklerini ayrıştırabilir ve maliyet tahmininiz için birleştirilmiş ölçümler sağlayabilir.

Uygulamanız için kullanım ölçümlerini aldıktan sonra, kullanarak tahmini EMR Sunucusuz maliyetini hesaplayabilirsiniz. EMR Sunucusuz fiyatlandırma. Saniye başına EMR Sunucusuz vCPU fiyatlandırması ile birleştirilmiş vCore-saniyelerinizi katlayın, birleştirilmiş bellek MB-saniyelerini EMR Sunucusuz saniye başına bellek fiyatlandırması ile çarpın ve depolama GB-saniyelerini EMR Sunucusuz saniye başına depolama fiyatlandırması ile çarpın (yalnızca depolama gereksinimleri çalışan başına 20 GB'ı aşan). vCPU, bellek ve depolama için bu maliyetleri toplayarak, aynı uygulamaları EMR Sunucusuz çalıştırmanın maliyetini karşılaştırabilirsiniz.

Bu yaklaşımda, uygulamanın performansının eşdeğer olduğunu varsayıyoruz. Başka bir deyişle, EMR kümesindeki her bir YARN kapsayıcısı için boyut (vCPU, bellek) ve çalışma zamanı süresi, uygulamayı EMR Sunucusuz üzerinde çalıştırmak için gereken çalışanların sayısı, boyutu ve çalışma zamanı süresi ile aynıdır. Bir EMR sürümü için EMR çalışma zamanı, uygulamanın bir EMR kümesinde veya EMR Sunucusuz üzerinde çalıştırıldığından bağımsız olarak aynı olduğu için bu varsayımı yapıyoruz.

Örnek E-posta

Tek bir küme kullanarak EC2'de Amazon EMR ve EMR Sunucusuz için örnek bir maliyet karşılaştırması yapalım.

Beş düğümlü (bir birincil, iki çekirdek ve iki görev) bir EMR kümesinde bir Spark uygulaması çalıştırdık ve YARN CLI kullanarak YARN ölçümlerini topladık. Aşağıdaki kod, toplu kaynak tahsisimizi gösterir.

toplu kaynak tahsisi

EC2 maliyetleri üzerinden Amazon EMR'yi şu şekilde hesapladık:

  • Küme örnekleri
    • Birincil: m5.2xlarge:1
    • Çekirdek: r5.2xlarge:2
    • Görev: r5.2xlarge:2
  • Küme çalışma süresi = 18 dakika
  • İsteğe bağlı örnek maliyeti
    • m5.2xlarge (8 vCPU, 32 GiB bellek)
      • Amazon EC2: 0.384 USD/saat
      • Amazon EMR artımlı: 0.096 USD/saat
    • r5.2xlarge (8 vCPU, 64 GiB bellek)
      • Amazon EC2: 0.504 USD/saat
      • Amazon EMR artımlı: 0.126 USD/saat

EC2 maliyet hesaplamasına ilişkin EMR aşağıdadır:

  • Amazon EMR maliyeti = ((1 birincil düğüm x 0.096 USD/saat) + (2 çekirdek düğüm x 0.126 USD/saat) + (2 görev düğümü x 0.126 USD/saat)) = 0.60 USD
  • Amazon EC2 maliyeti = ((1 birincil x 0.384 USD/saat) + (2 çekirdek düğüm x 0.504 USD/saat) + (2 görev düğümü x 0.504 USD/saat)) = 2.40 USD
  • EC2 kümesinde Amazon EMR maliyeti/saat = 0.6 USD + 2.40 USD = 3 USD/saat * 8/60 sa (saat cinsinden çalışma süresi)

Amazon EC2'de toplam Amazon EMR maliyeti 0.40 USD/saattir.

EMR Sunucusuz maliyetini hesaplamak için, daha önce EMR kümesinde çalıştırdığınız aynı uygulama için vCore-saniyelerini ve bellek MB-saniyelerini toplayın. Ardından bu sayıları EMR Sunucusuz vCPU ve bellek fiyatıyla çarpın. Hesaplama sonuçlarımız aşağıdaki gibidir:

  • Toplam_vcore_saniye = 5737
  • Toplam_Bellek_mb_saniye = 120156631
  • vCPU/hr ve bellek-GB/hr'ye dönüştürme:
    • Toplu vCPU/sa: 5737/(60*60)=1.59
    • Aggregated memory/hr: 120156631/(60*60*1024)=32.5
  • Toplam vCPU-saat maliyeti = 33 vCPU * 0.052624 VCPU/sa * 8/60 = 0.23 USD
  • Toplam bellek GB maliyeti = 1.59 MB * 0.0057785 bellek/saat * 8/60 = 0.00122 USD

Bu örnekte, toplam EMR Sunucusuz maliyeti %0.231'lik bir azalmayla 42 ABD dolarıdır.

Sonuç

Amazon EMR Sunucusuz, kısa süre önce Amazon EMR'de kullanıma sunulan sunucusuz bir seçenektir ve kümeleri yapılandırmadan, yönetmeden ve ölçeklendirmeden Spark ve Hive gibi açık kaynaklı çerçevelerin çalıştırılmasını kolaylaştırır. Halihazırda EMR kümelerini kullanan müşteriler, EMR uygulamalarını EMR Sunucusuz kullanarak çalıştırmanın maliyetini nasıl tahmin edebileceklerini anlamak isterler. EMR kümelerinizden uygulama ölçümlerini analiz etmeye dayalı bir maliyet analizi yapmak için kullanabileceğiniz bir yaklaşım sunduk.

Umarız bunu bir denersiniz ve görüşlerinizi bizimle paylaşırsınız!


yazarlar hakkında

Radhika Ravirala AWS'de Baş Ürün Yöneticisidir.

Matthew Liem AWS'de Kıdemli Çözüm Mimarisi Yöneticisidir.

Zaman Damgası:

Den fazla AWS Büyük Veri