Amazon EMR meluncurkan dukungan untuk instans Amazon EC2 C7g (Graviton3) guna meningkatkan kinerja biaya untuk beban kerja Spark sebesar 7–13%

Amazon EMR meluncurkan dukungan untuk instans Amazon EC2 C7g (Graviton3) guna meningkatkan kinerja biaya untuk beban kerja Spark sebesar 7–13%

Node Sumber: 1935298

Amazon ESDM menyediakan layanan terkelola untuk menjalankan aplikasi analitik dengan mudah menggunakan kerangka kerja sumber terbuka seperti Apache Spark, Hive, Presto, Trino, HBase, dan Flink. Runtime Amazon EMR untuk percikan dan Presto mencakup pengoptimalan yang memberikan peningkatan kinerja dua kali lipat dibandingkan dengan Apache Spark dan Presto sumber terbuka.

Dengan rilis Amazon EMR 6.7, Anda sekarang dapat menggunakan Cloud komputasi elastis Amazon Instans C2g (Amazon EC7), yang menggunakan AWS Graviton3 prosesor. Instans ini meningkatkan harga-kinerja untuk menjalankan beban kerja Spark di Amazon EMR sebesar 7.93–13.35% dibandingkan instans generasi sebelumnya, bergantung pada ukuran instans. Dalam posting ini, kami menjelaskan bagaimana kami memperkirakan manfaat harga-kinerja.

Performa runtime Amazon EMR dengan instans EC2 C7g

Kami menjalankan kueri benchmark TPC-DS 3 TB di Amazon EMR 6.9 menggunakan runtime Amazon EMR untuk Apache Spark (kompatibel dengan Apache Spark 3.3) dengan instans C7g. Data disimpan di Layanan Penyimpanan Sederhana Amazon (Amazon S3), dan hasilnya dibandingkan dengan klaster C6g yang setara dari keluarga instans generasi sebelumnya. Kami mengukur peningkatan kinerja menggunakan total waktu proses kueri dan rata-rata geometris waktu proses kueri di seluruh kueri tolok ukur TPC-DS 3 TB.

Hasil kami menunjukkan peningkatan 13.65–18.73% dalam kinerja waktu proses kueri total dan peningkatan rata-rata geometris sebesar 16.98–20.28% pada klaster EMR dengan C7g dibandingkan dengan klaster EMR yang setara dengan instans C6g, bergantung pada ukuran instans. Dalam membandingkan biaya, kami mengamati pengurangan biaya sebesar 7.93–13.35% pada klaster EMR dengan C7g dibandingkan dengan yang setara dengan C6g, bergantung pada ukuran instans. Kami tidak membandingkan instans C6g xlarge karena tidak memiliki cukup memori untuk menjalankan kueri.

Tabel berikut menampilkan hasil dari menjalankan kueri benchmark TPC-DS 3 TB menggunakan Amazon EMR 6.9 dibandingkan dengan klaster EMR instans C7g dan C6g yang setara.

Ukuran Instance 16 XL 12 XL 8 XL 4 XL 2 XL
Ukuran total cluster (1 pemimpin + 5 node inti) 6 6 6 6 6
Total runtime kueri pada C6g (detik) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Total runtime kueri pada C7g (detik) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Peningkatan runtime kueri total dengan C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Waktu proses kueri rata-rata geometris C6g (detik) 22.2113 21.75459 23.38081 31.97192 45.41656
Waktu proses kueri rata-rata geometris C7g (detik) 18.43905 17.65898 19.01684 25.48695 37.43737
Peningkatan runtime kueri rata-rata geometris dengan C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Harga instans EC2 C6g ($ per jam) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Harga instans EMR C6g ($ per jam) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) harga instans ($ per jam) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Biaya pengoperasian di C6g ($ per instans) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Harga instans EC2 C7g ($ per jam) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Harga EMR C7g ($ per jam per instans) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Harga instans C7g ($ per jam) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Biaya pengoperasian di C7g ($ per instans) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Pengurangan biaya total dengan C7g termasuk peningkatan kinerja -7.93% -9.52% -9.32% -13.35% -11.13%

Grafik berikut menunjukkan peningkatan per kueri yang diamati pada instans C7g 2xlarge dibandingkan dengan generasi C6g yang setara.

Metodologi pembandingan

Patokan yang digunakan dalam posting ini berasal dari tolok ukur TPC-DS standar industri, dan menggunakan kueri dari Spark SQL Performance Test Repo GitHub dengan berikut ini tetap terapan.

Kami menghitung TCO dengan mengalikan biaya per jam dengan jumlah instans di klaster dan waktu yang diperlukan untuk menjalankan kueri di klaster. Kami menggunakan harga sesuai permintaan di Wilayah AS Timur (Virginia U.) untuk semua instans.

Kesimpulan

Dalam postingan ini, kami menjelaskan bagaimana kami memperkirakan manfaat biaya-kinerja dari penggunaan Amazon EMR dengan instans C7g dibandingkan dengan menggunakan instans setara generasi sebelumnya. Menggunakan instans baru ini dengan Amazon EMR meningkatkan kinerja biaya dengan tambahan 7–13%.


Tentang penulis

AI MSAl MS adalah manajer produk untuk Amazon EMR di Amazon Web Services.

Kyeonghyun Ryo adalah Insinyur Pengembangan Perangkat Lunak untuk EMR di Amazon Web Services. Dia terutama bekerja merancang dan membuat alat otomasi untuk tim internal dan pelanggan untuk memaksimalkan produktivitas mereka. Di luar pekerjaannya, dia adalah pensiunan juara dunia dalam game profesional yang masih menikmati bermain video game.

Yuzhou Matahari adalah insinyur pengembangan perangkat lunak untuk EMR di Amazon Web Services.

Steve Koonce adalah Manajer Teknik untuk EMR di Amazon Web Services.

Stempel Waktu:

Lebih dari Data Besar AWS