Giảm tới 19% chi phí cụm Amazon EMR với các cải tiến mới trong Amazon EMR Managed Scaling

Giảm tới 19% chi phí cụm Amazon EMR với các cải tiến mới trong Amazon EMR Managed Scaling

Nút nguồn: 1985302

Vào tháng 2020 năm XNUMX, AWS đã thông báo về tính khả dụng chung của Quy mô được quản lý EMR của Amazon. Với Thay đổi quy mô được quản lý EMR, bạn chỉ định giới hạn điện toán tối thiểu và tối đa cho các cụm của mình và Amazon EMR sẽ tự động thay đổi kích thước cụm của bạn để có hiệu suất và sử dụng tài nguyên tối ưu. EMR Managed Scaling liên tục giám sát các chỉ số chính liên quan đến khối lượng công việc và sử dụng thuật toán tối ưu hóa kích thước cụm để sử dụng tài nguyên tốt nhất. Cho rằng tính năng này được quản lý hoàn toàn, các cải tiến đối với thuật toán được thực hiện ngay lập tức mà không cần nâng cấp phiên bản. Amazon EMR có thể tăng quy mô cụm trong thời gian cao điểm và giảm quy mô một cách linh hoạt trong thời gian nhàn rỗi, giúp giảm chi phí của bạn và tối ưu hóa công suất cụm để có hiệu suất tốt nhất.

Trong suốt năm 2022, chúng tôi đã thực hiện nhiều cải tiến đối với thuật toán EMR Managed Scaling. Với những cải tiến này, chúng tôi đã quan sát thấy rằng đối với các cụm được bật bằng Thay đổi quy mô được quản lý EMR, việc sử dụng được cải thiện tới 15 phần trăm và tổng chi phí đã giảm thêm tới 19 phần trăm. Bắt đầu từ giữa tháng 2022 năm 5.34.0, các cải tiến Thay đổi quy mô được quản lý bằng EMR được bật theo mặc định cho các cụm sử dụng Amazon EMR phiên bản 6.4.0 trở lên và Amazon EMR phiên bản XNUMX trở lên cho cả cụm mới và cụm hiện có. Ngoài ra, với điều kiện là tính năng này được quản lý hoàn toàn, bạn sẽ nhận được thuật toán Thay đổi quy mô được quản lý mới được tối ưu hóa theo mặc định và bạn không cần thực hiện hành động nào.

Dưới đây là một số cải tiến chính mà chúng tôi đã kích hoạt cho EMR Managed Scaling:

  • Cải thiện việc sử dụng cụm với mục tiêu thu nhỏ cụm EMR của bạn
  • Giảm chi phí bằng cách ngăn thu nhỏ các phiên bản lưu trữ dữ liệu xáo trộn trung gian bằng cách sử dụng Nhận biết dữ liệu Spark Shuffle
  • Cải thiện việc sử dụng cụm và giảm chi phí bằng cách mở rộng dần cụm EMR của bạn

Câu chuyện thành công của khách hàng

Cách thuật toán EMR Managed Scaling nâng cao đã giúp doanh nghiệp công nghệ giảm chi phí như thế nào:

Để minh họa việc tiết kiệm chi phí bằng các ví dụ, chúng tôi đã xem xét một cụm EMR cho một doanh nghiệp công nghệ sử dụng nhiều Amazon EMR để xử lý dữ liệu thanh toán theo thời gian thực giữa Kafka và S3 bằng Spark. Họ chạy một cụm EMR liên tục với EMR phiên bản 5.35 và đã bật EMR Managed Scaling. Bảng điều khiển Amazon CloudWatch sau đây cho thấy thuật toán Thay đổi quy mô được quản lý nâng cao được cung cấp như thế nào kể từ ngày 21 tháng XNUMX (tổng số nút được yêu cầu) chỉ có 70 nút so với thuật toán Thay đổi quy mô được quản lý trước đó cung cấp 179 nút cho một cấu hình công việc tương tự. Số lượng tài nguyên được cung cấp để chạy công việc của bạn càng thấp thì tổng chi phí cho cụm EMR của bạn càng thấp.

Cách thuật toán EMR Managed Scaling nâng cao đã giúp một doanh nghiệp quảng cáo giảm chi phí như thế nào:

Chúng tôi cũng đã xem xét một cụm EMR cho một doanh nghiệp quảng cáo, doanh nghiệp này tận dụng Amazon EMR cho chiến lược phân tích dữ liệu của họ và thực thi các công việc ETL hàng loạt của họ bằng Spark. Họ chạy các cụm của mình trên EMR phiên bản 6.5 và đã bật EMR Managed Scaling. Bảng điều khiển Amazon CloudWatch sau đây cho thấy thuật toán Thay đổi quy mô được quản lý nâng cao đã cung cấp như thế nào kể từ ngày 15 tháng XNUMX (tổng số đơn vị được yêu cầu) chỉ có 41 nút so với thuật toán Thay đổi quy mô được quản lý trước đó cung cấp 86 nút cho một cấu hình công việc tương tự.

Ước tính mức tiết kiệm chi phí và cải thiện việc sử dụng cho các cụm EMR của bạn:

Tiết kiệm chi phí cụm:

Để xem các khoản tiết kiệm chi phí ước tính cho cụm EMR của bạn với các cải tiến Thay đổi quy mô được quản lý EMR, vui lòng thực hiện theo các bước bên dưới:

  • Mở Bảng điều khiển chỉ số CloudWatch và dưới EMR, tìm kiếm của bạn ClusterId.
  • Từ danh sách các chỉ số có sẵn cho EMR, hãy chọn hai chỉ số sau:
    • Công suất chạy – Dựa trên loại đơn vị bạn đã chỉ định trong chính sách Thay đổi quy mô được quản lý của mình, đơn vị này sẽ có sẵn dưới dạng “Tổng số Đơn vịChạy" hoặc là "Tổng Số NútChạy" hoặc "TotalVCPUĐang chạy"
    • Dung lượng được yêu cầu bởi Managed Scaling – Dựa trên loại đơn vị bạn đã chỉ định trong chính sách Thay đổi quy mô được quản lý của mình, đơn vị này sẽ có sẵn dưới dạng “Tổng số đơn vị được yêu cầu" hoặc là "Tổng Số Nút Đã Yêu Cầu" hoặc "TổngVCPUrequested"
  •  Vẽ cả hai chỉ số vào bảng điều khiển CloudWatch của bạn.
  • Chọn khung thời gian là 3 tháng từ tháng 2022 năm 2023 đến tháng XNUMX năm XNUMX để xem các cải tiến với thuật toán Thay đổi quy mô được quản lý nâng cao khi so sánh với thuật toán Thay đổi quy mô được quản lý trước đó.

Cải tiến sử dụng cụm:

Để ước tính những cải tiến trong việc sử dụng cụm EMR của bạn với các cải tiến Thay đổi quy mô được quản lý EMR, vui lòng thực hiện theo các bước bên dưới:

  • Mở bảng điều khiển chỉ số CloudWatch và bên dưới EMR, tìm kiếm của bạn ClusterId.
  • Từ danh sách các số liệu có sẵn cho EMR, hãy chọn “YARNBộ nhớ có sẵnPhần trăm” Hệ mét.
  • Để lấy bộ nhớ được sử dụng bởi YARN, hãy thêm một biểu thức toán học, chẳng hạn như “Thêm toán học → Bắt đầu với biểu thức trống”
    • Đối với biểu thức toán học mới, hãy đặt Nhãn=Sử dụng sợi và thiết lập Chi tiết=100-YARNMemoryAvailablePercentage.
  • Vẽ số liệu sử dụng cụm vào bảng điều khiển CloudWatch của bạn.
  • Chọn khung thời gian là 3 tháng từ tháng 2022 năm 2023 đến tháng XNUMX năm XNUMX để xem các cải tiến với thuật toán Thay đổi quy mô được quản lý nâng cao khi so sánh với thuật toán Thay đổi quy mô được quản lý trước đó.

Cái gì tiếp theo

Chúng tôi sẽ tiếp tục điều chỉnh thuật toán Thay đổi quy mô được quản lý với mỗi bản phát hành EMR mới và do đó cải thiện trải nghiệm của khách hàng khi thay đổi quy mô các cụm bằng Thay đổi quy mô được quản lý EMR.

Kết luận

Trong bài đăng này, chúng tôi đã cung cấp thông tin tổng quan về cải tiến chính mà chúng tôi đã triển khai trong Thay đổi quy mô được quản lý bằng EMR. Với những cải tiến này, chúng tôi đã quan sát thấy rằng việc sử dụng cụm được cải thiện tới 15 phần trăm và chi phí cụm giảm tới 19 phần trăm. Bắt đầu từ giữa tháng 2022 năm 5.34.0, những điểm cải tiến này được bật theo mặc định cho các cụm EMR sử dụng Amazon EMR phiên bản 6.4.0 trở lên và Amazon EMR phiên bản XNUMX trở lên. Vì EMR Managed Scaling là một tính năng được quản lý hoàn toàn, bạn sẽ nhận được thuật toán EMR Managed Scaling mới, được tối ưu hóa theo mặc định và bạn không cần thực hiện hành động nào.

Để tìm hiểu thêm và bắt đầu với EMR Managed Scaling, hãy truy cập Trang tài liệu EMR Managed Scaling.


Về các tác giả

Sushant Majithia là Giám đốc sản phẩm chính cho EMR tại Amazon Web Services.

 Vishal Vyas là Kỹ sư phần mềm cao cấp cho EMR tại Amazon Web Services.

Matthêu Liêm là Giám đốc kiến ​​trúc giải pháp cấp cao tại AWS.

Dấu thời gian:

Thêm từ Dữ liệu lớn AWS