In 2022, chúng tôi đã thông báo cho bạn về những cải tiến mới mà chúng tôi đã thực hiện trong Quy mô được quản lý EMR của Amazon, giúp cải thiện việc sử dụng cụm cũng như giảm chi phí cụm. Vào năm 2023, chúng tôi vui mừng thông báo rằng nhóm Amazon EMR đã làm việc chăm chỉ. Chúng tôi đã làm việc ngược lại so với yêu cầu của khách hàng và ra mắt nhiều tính năng mới để nâng cao trải nghiệm mở rộng và quản lý công suất cụm Amazon EMR trên cụm EC2 của bạn.
Amazon EMR là giải pháp dữ liệu lớn trên đám mây để xử lý dữ liệu ở quy mô petabyte, phân tích tương tác và học máy (ML) bằng cách sử dụng các khung nguồn mở như Apache Spark, Tổ ong Apachevà Mau. Khách hàng đã yêu cầu chúng tôi cung cấp các tính năng có thể cải thiện hơn nữa trải nghiệm mở rộng và quản lý năng lực của EMR trên cụm EC2, bao gồm cả các cụm lớn, hoạt động lâu dài. Chúng tôi đã làm việc chăm chỉ để đáp ứng những nhu cầu đó. Sau đây là một số cải tiến chính:
- Nâng cao tính minh bạch và tính linh hoạt của khách hàng với việc cung cấp thời gian chờ cho Phiên bản Spot
- Mở rộng quy mô các nút tác vụ được tối ưu hóa cho Amazon EMR trên các cụm EC2 được khởi chạy cùng với các nhóm phiên bản
- Cải thiện khả năng phục hồi công việc với khả năng bảo vệ nâng cao cho Trình điều khiển Spark
Hãy cùng tìm hiểu sâu hơn và thảo luận chi tiết về các tính năng mới của Amazon EMR trên EC2.
Nâng cao tính minh bạch và tính linh hoạt của khách hàng với việc cung cấp thời gian chờ cho Phiên bản Spot
Nhiều khách hàng của Amazon EMR sử dụng Phiên bản dùng ngay EC2 cho EMR của họ trên cụm EC2 để giảm chi phí. Phiên bản Spot còn trống Đám mây điện toán đàn hồi Amazon (Amazon EC2) công suất điện toán được cung cấp với mức giảm giá lên tới 90% so với giá Theo yêu cầu. Amazon EMR cung cấp cho bạn khả năng mở rộng quy mô cụm của bạn theo cách thủ công hoặc bằng cách sử dụng Tự động mở rộng quy mô. Bạn cũng có thể sử dụng Quy mô được quản lý EMR của Amazon tính năng tự động thay đổi kích thước cụm của bạn dựa trên khối lượng công việc và mức sử dụng.
Để nâng cao trải nghiệm của khách hàng khi mở rộng quy mô bằng Phiên bản Spot, đối với EMR trên cụm EC2 được khởi chạy bằng nhóm phiên bản, giờ đây bạn có thể chỉ định thời gian chờ cung cấp cho Phiên bản Spot. Hết thời gian chờ cung cấp sẽ yêu cầu Amazon EMR ngừng cung cấp dung lượng Phiên bản dùng ngay nếu cụm vượt quá ngưỡng thời gian được chỉ định trong các hoạt động mở rộng quy mô cụm. Bạn có thể định cấu hình thời gian chờ cung cấp phiên bản Spot cho các cụm được thay đổi kích thước theo cách thủ công hoặc sử dụng Amazon EMR Managed Scaling và Auto Scaling.
Ngoài ra, để mang lại sự minh bạch tốt hơn, khi hết khoảng thời gian chờ, Amazon EMR cũng sẽ tự động gửi sự kiện đến một Sự kiện Amazon CloudWatch suối. Với các sự kiện CloudWatch này, bạn có thể tạo quy tắc khớp các sự kiện theo mẫu đã chỉ định, sau đó định tuyến các sự kiện đến mục tiêu để thực hiện hành động. Để tìm hiểu thêm, vui lòng tham khảo Tùy chỉnh khoảng thời gian chờ cung cấp để thay đổi kích thước cụm trong Amazon EMR.
Vui lòng xem phần tóm tắt bên dưới trải nghiệm cho các tình huống khác nhau khi bạn định cấu hình khoảng thời gian chờ cung cấp trong quá trình thay đổi kích thước cho cụm Amazon EMR trên EC2 của mình
Kịch bản | Kinh nghiệm |
Amazon EMR có thể cung cấp dung lượng Spot mong muốn trước khi hết thời gian chờ cung cấp | Amazon EMR tự động mở rộng quy mô cụm theo công suất mong muốn và khách hàng không cần thực hiện hành động nào |
Amazon EMR không thể cung cấp bất kỳ dung lượng Spot nào hoặc chỉ có thể cung cấp một phần dung lượng Spot và thời gian chờ cung cấp đã hết | Nếu Amazon EMR không thể cung cấp dung lượng Spot cần thiết và thời gian chờ cung cấp đã hết, Amazon EMR sẽ hủy yêu cầu thay đổi kích thước và ngừng nỗ lực cung cấp thêm dung lượng Spot. Amazon EMR cũng sẽ xuất bản các sự kiện lên luồng Sự kiện Amazon CloudWatch. Khách hàng có thể sử dụng các sự kiện này để tạo quy tắc và thực hiện các hành động phù hợp |
Nếu các phiên bản Spot trong cụm Amazon EMR trên EC2 của bạn bị gián đoạn do Amazon EC2 cần lấy lại chúng | Amazon EMR sẽ tự động kích hoạt yêu cầu thay đổi kích thước mới để cân bằng lại cụm của bạn bằng cách thay thế phiên bản bằng bất kỳ loại có sẵn nào trong cụm của bạn. Amazon EMR cũng sẽ sử dụng cùng thời gian chờ thay đổi kích thước cung cấp đã được định cấu hình trên cụm. Không cần hành động nào từ khách hàng. |
Bạn nên xem xét mức độ quan trọng của khả năng sẵn có khi chỉ định giá trị thời gian chờ cung cấp:
- Khi khả năng sẵn có của khối lượng công việc của bạn là rất quan trọng – Để đảm bảo có sẵn dung lượng mong muốn, chúng tôi khuyên bạn nên định cấu hình thời gian chờ cung cấp thay đổi kích thước dựa trên thời gian cần thiết để chạy ứng dụng và SLA ứng dụng. Ví dụ: nếu SLA của ứng dụng là 60 phút và phải mất 30 phút để ứng dụng hoàn tất, bạn nên đặt thời gian chờ cấp phép thay đổi kích thước thành 30 phút hoặc ít hơn. Amazon EMR sẽ cố gắng cung cấp dung lượng Spot cho đến khi hết thời gian chờ (30 phút trở xuống) và xuất bản sự kiện CloudWatch để bạn có thể thực hiện các hành động thích hợp.
- Khi khối lượng công việc của bạn linh hoạt về thời gian và khả năng sẵn có không phải là một yếu tố – Nếu khối lượng công việc linh hoạt về thời gian và khả năng cung cấp dung lượng không phải là một yếu tố thì để đảm bảo khả năng cao nhất đạt được dung lượng Spot mong muốn, bạn có thể định cấu hình giá trị thời gian chờ cao hơn cho thời gian chờ cung cấp thay đổi kích thước.
Tăng quy mô nút tác vụ được tối ưu hóa cho Amazon EMR trên cụm EC2 được khởi chạy cùng với nhóm Phiên bản
Các nhóm phiên bản cung cấp cách thiết lập đơn giản hơn để khởi chạy EMR trên cụm EC2. Mỗi cụm được khởi chạy bằng các nhóm phiên bản có thể bao gồm tối đa 50 nhóm phiên bản: một nhóm phiên bản chính chứa một phiên bản EC2, một nhóm phiên bản lõi chứa một hoặc nhiều phiên bản EC2 và tối đa 48 nhóm phiên bản nhiệm vụ tùy chọn. Bạn có thể thay đổi quy mô từng nhóm phiên bản bằng cách thêm và xóa phiên bản EC2 theo cách thủ công hoặc bạn có thể thiết lập quy mô tự động. Bạn cũng có thể sử dụng tính năng Amazon EMR Managed Scaling để tự động thay đổi kích thước cụm của mình dựa trên khối lượng công việc và mức sử dụng.
Để nâng cao trải nghiệm của khách hàng đối với các nhóm phiên bản trên EMR trên cụm EC2 khi mở rộng quy mô nút tác vụ bằng Amazon EMR Managed Scaling, chúng tôi đã cải tiến thuật toán quản lý quy mô để chọn các nhóm phiên bản tác vụ có khả năng đạt được công suất cao nhất. Hơn nữa, khi quy mô được quản lý không thể đạt được công suất với một nhóm phiên bản nhiệm vụ duy nhất, để giảm mọi độ trễ khi mở rộng quy mô, Amazon EMR sẽ tự động chuyển sang một nhóm nhiệm vụ khác và hoàn thành công suất bằng cách sử dụng nhiều nhóm phiên bản nhiệm vụ. Do đó, bạn càng linh hoạt về loại phiên bản của mình thì cơ hội cung cấp năng lực càng cao. Để tìm hiểu thêm, hãy tham khảo Ví dụ: các biện pháp thực hành tốt nhất và tính linh hoạt của Vùng sẵn sàng.
Cải thiện khả năng phục hồi công việc với khả năng bảo vệ nâng cao cho Trình điều khiển Spark
In 2022, để cải thiện khả năng phục hồi công việc khi sử dụng Amazon EMR Managed Scaling, chúng tôi đã tăng cường quản lý quy mô để nhận biết dữ liệu ngẫu nhiên Spark, giúp ngăn chặn việc giảm quy mô các phiên bản lưu trữ dữ liệu ngẫu nhiên trung gian cho Apache Spark. Điều này giúp ngăn chặn việc thử lại và tính toán lại công việc, từ đó mang lại hiệu suất tốt hơn và chi phí thấp hơn.
Để cải thiện hơn nữa khả năng phục hồi công việc khi sử dụng Quy mô được quản lý của Amazon EMR, chúng tôi đã tăng cường hơn nữa quy mô được quản lý để nhận biết Spark Driver, điều này đảm bảo rằng trong quá trình thu nhỏ quy mô cụm, Quy mô được quản lý của Amazon EMR sẽ ưu tiên thu nhỏ quy mô của các nút không có Spark Driver đang hoạt động chạy trên chúng. Điều này giúp giảm thiểu thất bại trong công việc và thử lại công việc, giúp cải thiện hơn nữa hiệu suất và giảm chi phí. Tính năng nâng cao này được bật theo mặc định cho các cụm EMR sử dụng Amazon EMR phiên bản 5.34.0 trở lên và Amazon EMR phiên bản 6.4.0 trở lên.
Để xác nhận nút nào trong cụm của bạn đang chạy Spark Driver, bạn có thể truy cập Máy chủ lịch sử Spark và lọc trình điều khiển trên Người thừa hành tab ID ứng dụng Spark của bạn.
Kết luận
Trong bài đăng này, chúng tôi nêu bật những cải tiến mà chúng tôi đã thực hiện trong quản lý năng lực và Amazon EMR Managed Scaling cho EMR trên cụm EC2. Chúng tôi tập trung vào việc cải thiện khả năng phục hồi công việc, nâng cao tính linh hoạt và minh bạch khi cung cấp Phiên bản dùng ngay, đồng thời tối ưu hóa trải nghiệm mở rộng quy mô khi sử dụng quy mô được quản lý với các nhóm phiên bản trên Amazon EMR trên cụm EC2. Mặc dù tính đến thời điểm hiện tại, chúng tôi đã ra mắt nhiều tính năng trong năm 2023 và tốc độ đổi mới tiếp tục tăng nhanh nhưng đây mới chỉ là ngày đầu tiên ra mắt và chúng tôi rất mong nhận được phản hồi từ bạn về cách các tính năng này giúp bạn khai thác thêm giá trị cho tổ chức của mình. Chúng tôi mời bạn dùng thử những tính năng mới này và liên hệ với chúng tôi thông qua nhóm tài khoản AWS của bạn nếu bạn có thêm nhận xét.
Giới thiệu về tác giả
Sushant Majithia là Giám đốc sản phẩm chính cho EMR tại AWS.
Ankur Goyal là một SDM với nhóm Nền tảng dữ liệu lớn của Amazon EMR. Anh xây dựng các ứng dụng phân tán quy mô lớn và các thuật toán tối ưu hóa cụm. Ankur quan tâm đến các chủ đề Phân tích, Học máy và Dự báo.
Matthêu Liêm là Giám đốc kiến trúc giải pháp cấp cao tại AWS.
Tarun Chanana là một SDM với nhóm Nền tảng dữ liệu lớn của Amazon EMR.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- ChartPrime. Nâng cao trò chơi giao dịch của bạn với ChartPrime. Truy cập Tại đây.
- BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/
- : có
- :là
- :không phải
- $ LÊN
- 1
- 100
- 11
- 2023
- 30
- 50
- 60
- 7
- 9
- a
- Có khả năng
- Giới thiệu
- đẩy nhanh tiến độ
- Theo
- Tài khoản
- có được
- có được
- Hoạt động
- hành động
- hoạt động
- thêm
- thêm vào
- thuật toán
- thuật toán
- Ngoài ra
- Mặc dù
- đàn bà gan dạ
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- an
- phân tích
- và
- Một
- bất kì
- Apache
- Apache Spark
- Các Ứng Dụng
- các ứng dụng
- thích hợp
- kiến trúc
- LÀ
- AS
- At
- Nỗ lực
- tự động
- Tự động
- tự động
- sẵn có
- có sẵn
- nhận thức
- AWS
- dựa
- BE
- được
- trước
- phía dưới
- Hơn
- lớn
- Dữ Liệu Lớn.
- xây dựng
- by
- CAN
- khả năng
- Sức chứa
- tỷ lệ cược
- Chọn
- đám mây
- dữ liệu lớn trên đám mây
- cụm
- Bình luận
- so
- hoàn thành
- Tính
- cấu hình
- Xác nhận
- hậu quả là
- Hãy xem xét
- chứa
- liên tiếp
- Trung tâm
- Phí Tổn
- Chi phí
- tạo
- mức độ nghiêm trọng
- khách hàng
- kinh nghiệm khach hang
- khách hàng
- dữ liệu
- Nền tảng dữ liệu
- xử lý dữ liệu
- ngày
- sâu sắc hơn
- Mặc định
- sự chậm trễ
- mong muốn
- chi tiết
- khác nhau
- giảm giá
- thảo luận
- phân phối
- bổ nhào
- dont
- trình điều khiển
- suốt trong
- mỗi
- hay
- kích hoạt
- nâng cao
- nâng cao
- tăng cường
- cải tiến
- đảm bảo
- đảm bảo
- Ether (ETH)
- Sự kiện
- sự kiện
- ví dụ
- vượt quá
- kinh nghiệm
- hết hạn
- yếu tố
- xa
- Đặc tính
- Tính năng
- lọc
- Tìm kiếm
- Linh hoạt
- linh hoạt
- tập trung
- tiếp theo
- Trong
- Forward
- khung
- từ
- Hoàn thành
- xa hơn
- Hơn nữa
- được
- nhận được
- Nhóm
- Các nhóm
- vui mừng
- Cứng
- Có
- he
- nghe
- giúp đỡ
- đã giúp
- giúp đỡ
- giúp
- cao hơn
- cao nhất
- Nhấn mạnh
- lịch sử
- Độ đáng tin của
- HTML
- http
- HTTPS
- ID
- if
- nâng cao
- cải tiến
- cải thiện
- in
- bao gồm
- Bao gồm
- sự đổi mới
- ví dụ
- tương tác
- quan tâm
- Trung cấp
- bị gián đoạn
- mời
- IT
- Việc làm
- Key
- lớn
- một lát sau
- phóng
- phát động
- Dẫn
- LEARN
- học tập
- ít
- khả năng
- Xem
- thấp hơn
- máy
- học máy
- thực hiện
- quản lý
- quản lý
- giám đốc
- thủ công
- Trận đấu
- Gặp gỡ
- phút
- ML
- chi tiết
- nhiều
- cần thiết
- nhu cầu
- Mới
- Các tính năng mới
- Không
- các nút
- tại
- of
- cung cấp
- cung cấp
- Cung cấp
- on
- Theo yêu cầu
- ONE
- có thể
- mã nguồn mở
- Hoạt động
- tối ưu hóa
- tối ưu hóa
- or
- tổ chức
- Hòa bình
- Họa tiết
- hiệu suất
- thời gian
- nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- xin vui lòng
- Bài đăng
- thực hành
- ngăn chặn
- giá
- chính
- Hiệu trưởng
- xử lý
- Sản phẩm
- giám đốc sản xuất
- bảo vệ
- cho
- cung cấp
- xuất bản
- tái cân bằng
- giới thiệu
- giảm
- Giảm
- xem
- vẫn còn
- loại bỏ
- báo cáo
- yêu cầu
- cần phải
- Yêu cầu
- Route
- quy tắc
- chạy
- chạy
- tương tự
- Quy mô
- mở rộng
- mở rộng quy mô
- SDM
- gửi
- cao cấp
- DỊCH VỤ
- định
- thiết lập
- nên
- Shuffle
- duy nhất
- So
- cho đến nay
- giải pháp
- một số
- Spark
- quy định
- Spot
- Dừng
- Dừng
- hàng
- dòng
- như vậy
- Công tắc điện
- Hãy
- mất
- mục tiêu
- Nhiệm vụ
- nhóm
- nói
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- sau đó
- Kia là
- điều này
- những
- ngưỡng
- Thông qua
- thời gian
- đến
- Chủ đề
- chạm
- Minh bạch
- kích hoạt
- thử
- loại
- mở khóa
- cho đến khi
- us
- sử dụng
- sử dụng
- giá trị
- Truy cập
- là
- we
- web
- các dịch vụ web
- TỐT
- khi nào
- cái nào
- sẽ
- với
- Công việc
- làm việc
- sẽ
- bạn
- trên màn hình
- zephyrnet