Amazon EMR ra mắt hỗ trợ cho các phiên bản Amazon EC2 C7g (Graviton3) để cải thiện hiệu suất chi phí cho khối lượng công việc Spark thêm 7–13%

Amazon EMR ra mắt hỗ trợ cho các phiên bản Amazon EC2 C7g (Graviton3) để cải thiện hiệu suất chi phí cho khối lượng công việc Spark thêm 7–13%

Nút nguồn: 1935298

Amazon EMR cung cấp dịch vụ được quản lý để dễ dàng chạy các ứng dụng phân tích bằng cách sử dụng các khung mã nguồn mở như Apache Spark, Hive, Presto, Trino, HBase và Flink. Thời gian chạy Amazon EMR cho Spark Mau bao gồm các tối ưu hóa giúp cải thiện hiệu suất gấp đôi so với Apache Spark và Presto nguồn mở.

Với bản phát hành Amazon EMR 6.7, giờ đây bạn có thể sử dụng Đám mây điện toán đàn hồi Amazon (Amazon EC2) phiên bản C7g, sử dụng AWS Graviton3 bộ vi xử lý. Các phiên bản này cải thiện hiệu suất giá khi chạy khối lượng công việc Spark trên Amazon EMR thêm 7.93–13.35% so với các phiên bản thế hệ trước, tùy thuộc vào kích thước phiên bản. Trong bài đăng này, chúng tôi mô tả cách chúng tôi ước tính lợi ích hiệu suất giá.

Hiệu suất thời gian chạy Amazon EMR với các phiên bản EC2 C7g

Chúng tôi đã chạy các truy vấn điểm chuẩn TPC-DS 3 TB trên Amazon EMR 6.9 bằng cách sử dụng thời gian chạy Amazon EMR cho Apache Spark (tương thích với Apache Spark 3.3) với các phiên bản C7g. Dữ liệu được lưu trữ trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và kết quả được so sánh với các cụm C6g tương đương từ dòng phiên bản thế hệ trước. Chúng tôi đã đo lường các cải tiến về hiệu suất bằng cách sử dụng tổng thời gian chạy truy vấn và giá trị trung bình hình học của thời gian chạy truy vấn trên các truy vấn điểm chuẩn TPC-DS 3 TB.

Kết quả của chúng tôi cho thấy cải thiện 13.65–18.73% trong tổng hiệu suất thời gian chạy truy vấn và cải thiện 16.98–20.28% về giá trị trung bình hình học trên các cụm EMR với C7g so với các cụm EMR tương đương với các phiên bản C6g, tùy thuộc vào kích thước phiên bản. Khi so sánh chi phí, chúng tôi quan sát thấy chi phí trên cụm EMR với C7.93g giảm 13.35–7% so với cụm tương đương với C6g, tùy thuộc vào kích thước phiên bản. Chúng tôi không đo điểm chuẩn cho phiên bản C6g xlarge vì phiên bản này không có đủ bộ nhớ để chạy các truy vấn.

Bảng sau đây cho thấy kết quả từ việc chạy các truy vấn điểm chuẩn TPC-DS 3 TB bằng cách sử dụng Amazon EMR 6.9 so với các cụm EMR phiên bản C7g và C6g tương đương.

Kích thước phiên bản 16 XL 12 XL 8 XL 4 XL 2 XL
Tổng kích thước của cụm (1 nút dẫn đầu + 5 nút lõi) 6 6 6 6 6
Tổng thời gian chạy truy vấn trên C6g (giây) 2774.86205 2752.84429 3173.08086 5108.45489 8697.08117
Tổng thời gian chạy truy vấn trên C7g (giây) 2396.22799 2336.28224 2698.72928 4151.85869 7249.58148
Cải thiện toàn bộ thời gian chạy truy vấn với C7g 13.65% 15.13% 14.95% 18.73% 16.64%
Thời gian chạy truy vấn trung bình hình học C6g (giây) 22.2113 21.75459 23.38081 31.97192 45.41656
Thời gian chạy truy vấn trung bình hình học C7g (giây) 18.43905 17.65898 19.01684 25.48695 37.43737
Cải thiện thời gian chạy truy vấn trung bình hình học với C7g 16.98% 18.83% 18.66% 20.28% 17.57%
Giá phiên bản EC2 C6g ($ mỗi giờ) $2.1760 $1.6320 $1.0880 $0.5440 $0.2720
Giá phiên bản EMR C6g ($ mỗi giờ) $0.5440 $0.4080 $0.2720 $0.1360 $0.0680
(EC2 + EMR) giá phiên bản ($ mỗi giờ) $2.7200 $2.0400 $1.3600 $0.6800 $0.3400
Chi phí chạy trên C6g ($ mỗi phiên bản) $2.09656 $1.55995 $1.19872 $0.96493 $0.82139
Giá phiên bản EC2 C7g ($ mỗi giờ) $2.3200 $1.7400 $1.1600 $0.5800 $0.2900
Giá EMR C7g ($ mỗi giờ mỗi phiên bản) $0.5800 $0.4350 $0.2900 $0.1450 $0.0725
(EC2 + EMR) Giá phiên bản C7g ($ mỗi giờ) $2.9000 $2.1750 $1.4500 $0.7250 $0.3625
Chi phí chạy trên C7g ($ mỗi phiên bản) $1.930290 $1.411500 $1.086990 $0.836140 $0.729990
Giảm tổng chi phí với C7g bao gồm cải thiện hiệu suất -7.93% -9.52% -9.32% -13.35% -11.13%

Biểu đồ sau đây cho thấy các cải tiến trên mỗi truy vấn quan sát được trên các phiên bản C7g 2xlarge so với các thế hệ C6g tương đương.

phương pháp đo điểm chuẩn

Điểm chuẩn được sử dụng trong bài đăng này được lấy từ điểm chuẩn TPC-DS tiêu chuẩn của ngành và sử dụng các truy vấn từ Kiểm tra hiệu suất Spark SQL Kho lưu trữ GitHub với những điều sau đây nhất định đã áp dụng.

Chúng tôi đã tính TCO bằng cách nhân chi phí mỗi giờ với số phiên bản trong cụm và thời gian chạy truy vấn trên cụm. Chúng tôi đã sử dụng giá theo yêu cầu ở Khu vực Miền Đông Hoa Kỳ (Bắc Virginia) cho tất cả các trường hợp.

Kết luận

Trong bài đăng này, chúng tôi đã mô tả cách chúng tôi ước tính lợi ích hiệu suất chi phí từ việc sử dụng Amazon EMR với các phiên bản C7g so với việc sử dụng các phiên bản thế hệ trước tương đương. Việc sử dụng các phiên bản mới này với Amazon EMR giúp cải thiện hiệu suất chi phí thêm 7–13%.


Giới thiệu về tác giả

AI MSMS là người quản lý sản phẩm cho Amazon EMR tại Amazon Web Services.

Kyeonghyun Ryoo là Kỹ sư phát triển phần mềm cho EMR tại Amazon Web Services. Anh ấy chủ yếu làm việc về thiết kế và xây dựng các công cụ tự động hóa cho các nhóm nội bộ và khách hàng để tối đa hóa năng suất của họ. Ngoài công việc, anh ấy là một nhà vô địch thế giới về chơi game chuyên nghiệp đã nghỉ hưu nhưng vẫn thích chơi trò chơi điện tử.

Tôn Ngọc Châu là kỹ sư phát triển phần mềm cho EMR tại Amazon Web Services.

Steve Koonce là Giám đốc kỹ thuật cho EMR tại Amazon Web Services.

Dấu thời gian:

Thêm từ Dữ liệu lớn AWS