Kurangi biaya klaster Amazon EMR hingga 19% dengan penyempurnaan baru di Amazon EMR Managed Scaling

Kurangi biaya klaster Amazon EMR hingga 19% dengan penyempurnaan baru di Amazon EMR Managed Scaling

Node Sumber: 1985302

Pada Juni 2020, AWS mengumumkan ketersediaan umum dari Penskalaan Terkelola Amazon EMR. Dengan Penskalaan Terkelola EMR, Anda menentukan batas komputasi minimum dan maksimum untuk klaster Anda, dan Amazon EMR secara otomatis mengubah ukuran klaster Anda untuk kinerja optimal dan penggunaan sumber daya. EMR Managed Scaling secara konstan memantau metrik terkait beban kerja utama dan menggunakan algoritme yang mengoptimalkan ukuran cluster untuk pemanfaatan sumber daya terbaik. Mengingat fitur ini sepenuhnya dikelola, peningkatan algoritme segera terwujud tanpa perlu peningkatan versi. Amazon EMR dapat menskalakan klaster selama puncak dan menskalakannya turun dengan anggun selama periode tidak aktif, mengurangi biaya Anda dan mengoptimalkan kapasitas klaster untuk performa terbaik.

Sepanjang tahun 2022, kami melakukan beberapa penyempurnaan pada algoritme EMR Managed Scaling. Dengan peningkatan ini, kami mengamati bahwa untuk klaster yang diaktifkan dengan EMR Managed Scaling, pemanfaatan meningkat hingga 15 persen, dan total biaya semakin berkurang hingga 19 persen. Mulai pertengahan Desember 2022, peningkatan EMR Managed Scaling diaktifkan secara default untuk klaster yang menggunakan Amazon EMR versi 5.34.0 dan lebih baru serta Amazon EMR versi 6.4.0 dan lebih baru untuk klaster baru dan yang sudah ada. Selanjutnya, mengingat fitur ini sepenuhnya dikelola, Anda akan mendapatkan algoritme Managed Scaling baru yang dioptimalkan secara default, dan Anda tidak perlu melakukan tindakan apa pun.

Di bawah ini adalah beberapa peningkatan utama yang kami aktifkan untuk EMR Managed Scaling:

  • Pemanfaatan klaster yang lebih baik dengan penurunan target klaster EMR Anda
  • Mengurangi biaya dengan mencegah penurunan skala instans yang menyimpan data pengacakan menengah menggunakan Kesadaran data Spark Shuffle
  • Pemanfaatan klaster yang lebih baik dan kurangi biaya dengan peningkatan skala klaster EMR Anda secara bertahap

Kisah sukses pelanggan

Bagaimana algoritma EMR Managed Scaling yang disempurnakan membantu perusahaan teknologi mengurangi biaya:

Untuk mengilustrasikan penghematan biaya dengan contoh, kami melihat klaster EMR untuk perusahaan teknologi, yang banyak menggunakan Amazon EMR untuk memproses data penagihan waktu nyata antara Kafka dan S3 menggunakan Spark. Mereka menjalankan klaster EMR persisten dengan EMR versi 5.35 dan mengaktifkan EMR Managed Scaling. Dasbor Amazon CloudWatch berikut menunjukkan bagaimana mulai 21 Desember, algoritme Managed Scaling yang disempurnakan disediakan (jumlah node yang diminta) hanya 70 node dibandingkan dengan algoritme Managed Scaling sebelumnya yang menyediakan 179 node untuk profil pekerjaan serupa. Semakin rendah jumlah sumber daya yang disediakan untuk menjalankan tugas Anda, semakin rendah total biaya klaster EMR Anda.

Bagaimana algoritme EMR Managed Scaling yang disempurnakan membantu perusahaan periklanan mengurangi biaya:

Kami juga melihat klaster EMR untuk perusahaan periklanan, yang memanfaatkan Amazon EMR untuk strategi analitik data mereka dan menjalankan tugas ETL batch mereka menggunakan Spark. Mereka menjalankan kluster mereka pada EMR versi 6.5 dan mengaktifkan EMR Managed Scaling. Dasbor Amazon CloudWatch berikut menunjukkan bagaimana mulai 15 Desember, algoritme Managed Scaling yang ditingkatkan disediakan (jumlah unit yang diminta) hanya 41 node vs. algoritme Managed Scaling sebelumnya yang menyediakan 86 node untuk profil pekerjaan serupa.

Memperkirakan penghematan biaya dan peningkatan pemanfaatan untuk klaster EMR Anda:

Penghematan biaya klaster:

Untuk melihat perkiraan penghematan biaya untuk klaster EMR Anda dengan peningkatan EMR Managed Scaling, ikuti langkah-langkah di bawah ini:

  • Buka konsol metrik CloudWatch dan dibawah EMR, telusuri menurut Anda ClusterId.
  • Dari daftar metrik yang tersedia untuk ESDM, pilih dua metrik berikut:
    • Kapasitas lari – Berdasarkan jenis unit yang Anda tentukan dalam kebijakan Penskalaan Terkelola, ini akan tersedia sebagai “TotalUnitMenjalankan" atau "TotalNodesBerjalan" atau "TotalVCPUBerjalan"
    • Kapasitas yang diminta oleh Managed Scaling – Berdasarkan jenis unit yang Anda tentukan dalam kebijakan Penskalaan Terkelola, ini akan tersedia sebagai “TotalUnitDiminta" atau "TotalNodesDiminta" atau "TotalVCPUDiminta"
  •  Plot kedua metrik ke dasbor CloudWatch Anda.
  • Pilih kerangka waktu sebagai 3 bulan antara November 2022 dan Januari 2023 untuk melihat peningkatan dengan algoritme Managed Scaling yang ditingkatkan bila dibandingkan dengan algoritme Managed Scaling sebelumnya.

Peningkatan pemanfaatan klaster:

Untuk memperkirakan peningkatan pemanfaatan klaster EMR Anda dengan peningkatan EMR Managed Scaling, ikuti langkah-langkah di bawah ini:

  • Buka konsol metrik CloudWatch dan, di bawah EMR, telusuri menurut Anda ClusterId.
  • Dari daftar metrik yang tersedia untuk ESDM, pilih “BENANGMemoriTersediaPersentase” metrik.
  • Untuk mendapatkan memori yang digunakan oleh YARN, tambahkan ekspresi matematika seperti “Tambahkan Matematika → Mulai dengan ekspresi kosong”
    • Untuk ekspresi matematika baru, atur Label=Pemanfaatan Benang dan mengatur Detail=100-YARNMemoryAvailablePercentage.
  • Plot metrik pemanfaatan klaster ke dasbor CloudWatch Anda.
  • Pilih kerangka waktu sebagai 3 bulan antara November 2022 dan Januari 2023 untuk melihat peningkatan dengan algoritme Managed Scaling yang ditingkatkan bila dibandingkan dengan algoritme Managed Scaling sebelumnya.

Apa berikutnya

Kami akan terus menyempurnakan algoritme Managed Scaling dengan setiap rilis EMR baru dan dengan demikian meningkatkan pengalaman pelanggan saat menskalakan klaster dengan EMR Managed Scaling.

Kesimpulan

Dalam posting ini, kami memberikan ikhtisar tentang peningkatan utama yang kami luncurkan di EMR Managed Scaling. Dengan penyempurnaan ini, kami mengamati bahwa pemanfaatan klaster meningkat hingga 15 persen, dan biaya klaster berkurang hingga 19 persen. Mulai pertengahan Desember 2022, penyempurnaan ini diaktifkan secara default untuk klaster EMR menggunakan Amazon EMR versi 5.34.0 dan lebih baru, serta Amazon EMR versi 6.4.0 dan lebih baru. Mengingat EMR Managed Scaling adalah fitur yang dikelola sepenuhnya, Anda akan mendapatkan algoritme EMR Managed Scaling yang baru dan dioptimalkan secara default, dan Anda tidak perlu melakukan tindakan apa pun.

Untuk mempelajari lebih lanjut dan memulai EMR Managed Scaling, kunjungi Halaman dokumentasi EMR Managed Scaling.


Tentang Penulis

Sushant Majithia adalah Manajer Produk Utama untuk EMR di Amazon Web Services.

 Vishal Vyas adalah Insinyur Perangkat Lunak Senior untuk EMR di Amazon Web Services.

Matius Liem adalah Manajer Arsitektur Solusi Senior di AWS.

Stempel Waktu:

Lebih dari Data Besar AWS