Amazon EMR cung cấp dịch vụ được quản lý để dễ dàng chạy các ứng dụng phân tích bằng cách sử dụng các khung mã nguồn mở như Apache Spark, Hive, Presto, Trino, HBase và Flink. Thời gian chạy Amazon EMR cho Spark và Mau bao gồm các tối ưu hóa giúp cải thiện hiệu suất gấp đôi so với Apache Spark và Presto nguồn mở.
Với bản phát hành Amazon EMR 6.7, giờ đây bạn có thể sử dụng Đám mây điện toán đàn hồi Amazon (Amazon EC2) phiên bản C7g, sử dụng AWS Graviton3 bộ vi xử lý. Các phiên bản này cải thiện hiệu suất giá khi chạy khối lượng công việc Spark trên Amazon EMR thêm 7.93–13.35% so với các phiên bản thế hệ trước, tùy thuộc vào kích thước phiên bản. Trong bài đăng này, chúng tôi mô tả cách chúng tôi ước tính lợi ích hiệu suất giá.
Hiệu suất thời gian chạy Amazon EMR với các phiên bản EC2 C7g
Chúng tôi đã chạy các truy vấn điểm chuẩn TPC-DS 3 TB trên Amazon EMR 6.9 bằng cách sử dụng thời gian chạy Amazon EMR cho Apache Spark (tương thích với Apache Spark 3.3) với các phiên bản C7g. Dữ liệu được lưu trữ trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và kết quả được so sánh với các cụm C6g tương đương từ dòng phiên bản thế hệ trước. Chúng tôi đã đo lường các cải tiến về hiệu suất bằng cách sử dụng tổng thời gian chạy truy vấn và giá trị trung bình hình học của thời gian chạy truy vấn trên các truy vấn điểm chuẩn TPC-DS 3 TB.
Kết quả của chúng tôi cho thấy cải thiện 13.65–18.73% trong tổng hiệu suất thời gian chạy truy vấn và cải thiện 16.98–20.28% về giá trị trung bình hình học trên các cụm EMR với C7g so với các cụm EMR tương đương với các phiên bản C6g, tùy thuộc vào kích thước phiên bản. Khi so sánh chi phí, chúng tôi quan sát thấy chi phí trên cụm EMR với C7.93g giảm 13.35–7% so với cụm tương đương với C6g, tùy thuộc vào kích thước phiên bản. Chúng tôi không đo điểm chuẩn cho phiên bản C6g xlarge vì phiên bản này không có đủ bộ nhớ để chạy các truy vấn.
Bảng sau đây cho thấy kết quả từ việc chạy các truy vấn điểm chuẩn TPC-DS 3 TB bằng cách sử dụng Amazon EMR 6.9 so với các cụm EMR phiên bản C7g và C6g tương đương.
Kích thước phiên bản | 16 XL | 12 XL | 8 XL | 4 XL | 2 XL |
Tổng kích thước của cụm (1 nút dẫn đầu + 5 nút lõi) | 6 | 6 | 6 | 6 | 6 |
Tổng thời gian chạy truy vấn trên C6g (giây) | 2774.86205 | 2752.84429 | 3173.08086 | 5108.45489 | 8697.08117 |
Tổng thời gian chạy truy vấn trên C7g (giây) | 2396.22799 | 2336.28224 | 2698.72928 | 4151.85869 | 7249.58148 |
Cải thiện toàn bộ thời gian chạy truy vấn với C7g | 13.65% | 15.13% | 14.95% | 18.73% | 16.64% |
Thời gian chạy truy vấn trung bình hình học C6g (giây) | 22.2113 | 21.75459 | 23.38081 | 31.97192 | 45.41656 |
Thời gian chạy truy vấn trung bình hình học C7g (giây) | 18.43905 | 17.65898 | 19.01684 | 25.48695 | 37.43737 |
Cải thiện thời gian chạy truy vấn trung bình hình học với C7g | 16.98% | 18.83% | 18.66% | 20.28% | 17.57% |
Giá phiên bản EC2 C6g ($ mỗi giờ) | $2.1760 | $1.6320 | $1.0880 | $0.5440 | $0.2720 |
Giá phiên bản EMR C6g ($ mỗi giờ) | $0.5440 | $0.4080 | $0.2720 | $0.1360 | $0.0680 |
(EC2 + EMR) giá phiên bản ($ mỗi giờ) | $2.7200 | $2.0400 | $1.3600 | $0.6800 | $0.3400 |
Chi phí chạy trên C6g ($ mỗi phiên bản) | $2.09656 | $1.55995 | $1.19872 | $0.96493 | $0.82139 |
Giá phiên bản EC2 C7g ($ mỗi giờ) | $2.3200 | $1.7400 | $1.1600 | $0.5800 | $0.2900 |
Giá EMR C7g ($ mỗi giờ mỗi phiên bản) | $0.5800 | $0.4350 | $0.2900 | $0.1450 | $0.0725 |
(EC2 + EMR) Giá phiên bản C7g ($ mỗi giờ) | $2.9000 | $2.1750 | $1.4500 | $0.7250 | $0.3625 |
Chi phí chạy trên C7g ($ mỗi phiên bản) | $1.930290 | $1.411500 | $1.086990 | $0.836140 | $0.729990 |
Giảm tổng chi phí với C7g bao gồm cải thiện hiệu suất | -7.93% | -9.52% | -9.32% | -13.35% | -11.13% |
Biểu đồ sau đây cho thấy các cải tiến trên mỗi truy vấn quan sát được trên các phiên bản C7g 2xlarge so với các thế hệ C6g tương đương.
phương pháp đo điểm chuẩn
Điểm chuẩn được sử dụng trong bài đăng này được lấy từ điểm chuẩn TPC-DS tiêu chuẩn của ngành và sử dụng các truy vấn từ Kiểm tra hiệu suất Spark SQL Kho lưu trữ GitHub với những điều sau đây nhất định đã áp dụng.
Chúng tôi đã tính TCO bằng cách nhân chi phí mỗi giờ với số phiên bản trong cụm và thời gian chạy truy vấn trên cụm. Chúng tôi đã sử dụng giá theo yêu cầu ở Khu vực Miền Đông Hoa Kỳ (Bắc Virginia) cho tất cả các trường hợp.
Kết luận
Trong bài đăng này, chúng tôi đã mô tả cách chúng tôi ước tính lợi ích hiệu suất chi phí từ việc sử dụng Amazon EMR với các phiên bản C7g so với việc sử dụng các phiên bản thế hệ trước tương đương. Việc sử dụng các phiên bản mới này với Amazon EMR giúp cải thiện hiệu suất chi phí thêm 7–13%.
Giới thiệu về tác giả
MS là người quản lý sản phẩm cho Amazon EMR tại Amazon Web Services.
Kyeonghyun Ryoo là Kỹ sư phát triển phần mềm cho EMR tại Amazon Web Services. Anh ấy chủ yếu làm việc về thiết kế và xây dựng các công cụ tự động hóa cho các nhóm nội bộ và khách hàng để tối đa hóa năng suất của họ. Ngoài công việc, anh ấy là một nhà vô địch thế giới về chơi game chuyên nghiệp đã nghỉ hưu nhưng vẫn thích chơi trò chơi điện tử.
Tôn Ngọc Châu là kỹ sư phát triển phần mềm cho EMR tại Amazon Web Services.
Steve Koonce là Giám đốc kỹ thuật cho EMR tại Amazon Web Services.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/big-data/amazon-emr-launches-support-for-amazon-ec2-c7g-graviton3-instances-to-improve-cost-performance-for-spark-workloads-by-7-13/
- 1
- 100
- 35%
- 7
- 9
- a
- ngang qua
- thêm vào
- AI
- Tất cả
- đàn bà gan dạ
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- phân tích
- và
- Apache
- Apache Spark
- các ứng dụng
- áp dụng
- Tự động hóa
- bởi vì
- điểm chuẩn
- hưởng lợi
- Xây dựng
- tính
- nhà vô địch
- cụm
- so
- so sánh
- tương thích
- Tính
- Trung tâm
- Phí Tổn
- giảm chi phí
- Chi phí
- khách hàng
- dữ liệu
- Tùy
- Nguồn gốc
- mô tả
- mô tả
- thiết kế
- Phát triển
- ĐÃ LÀM
- dễ dàng
- Đông
- ky sư
- Kỹ Sư
- thưởng thức
- Tương đương
- ước tính
- Ether (ETH)
- gia đình
- tiếp theo
- khung
- từ
- Trò chơi
- chơi game
- thế hệ
- các thế hệ
- GitHub
- đồ thị
- Tổ ong
- Độ đáng tin của
- HTTPS
- nâng cao
- cải thiện
- cải tiến
- cải thiện
- in
- bao gồm
- Bao gồm
- ví dụ
- nội bộ
- IT
- ra mắt
- lãnh đạo
- quản lý
- giám đốc
- Tối đa hóa
- Bộ nhớ
- MS
- nhân lên
- Mới
- các nút
- con số
- mã nguồn mở
- bên ngoài
- hiệu suất
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- chơi
- Bài đăng
- trước
- giá
- giá
- chủ yếu
- bộ vi xử lý
- Sản phẩm
- giám đốc sản xuất
- năng suất
- chuyên nghiệp
- cho
- cung cấp
- khu
- phát hành
- Kết quả
- chạy
- chạy
- giây
- dịch vụ
- DỊCH VỤ
- Chương trình
- Đơn giản
- Kích thước máy
- Phần mềm
- phát triển phần mềm
- Spark
- SQL
- Vẫn còn
- là gắn
- lưu trữ
- như vậy
- đủ
- hỗ trợ
- bàn
- đội
- kiểm tra
- Sản phẩm
- cung cấp their dịch
- thời gian
- đến
- công cụ
- Tổng số:
- us
- sử dụng
- Video
- trò chơi video
- virginia
- web
- các dịch vụ web
- cái nào
- CHÚNG TÔI LÀ
- Công việc
- công trinh
- thế giới
- zephyrnet