In 2022, 에서 새로 개선된 사항에 대해 말씀드렸습니다. Amazon EMR 관리형 확장이는 클러스터 활용도를 향상하고 클러스터 비용을 줄이는 데 도움이 되었습니다. 2023년에는 Amazon EMR 팀이 열심히 일하고 있음을 보고하게 되어 기쁘게 생각합니다. 우리는 고객 요구 사항을 토대로 작업하여 EC2 클러스터의 Amazon EMR 용량 관리 및 확장 경험을 향상하기 위해 여러 가지 새로운 기능을 출시했습니다.
아마존 EMR 는 오픈 소스 프레임워크를 사용하여 페타바이트 규모의 데이터 처리, 대화형 분석, 기계 학습(ML)을 위한 클라우드 빅데이터 솔루션입니다. 아파치 스파크, 아파치 하이브및 프레스토 악장. 고객은 대규모 장기 실행 클러스터를 포함하여 EC2 클러스터에서 EMR의 용량 관리 및 확장 경험을 더욱 향상시킬 수 있는 기능을 요청했습니다. 우리는 그러한 요구를 충족시키기 위해 열심히 노력해 왔습니다. 다음은 주요 개선 사항 중 일부입니다.
- 스팟 인스턴스에 대한 프로비저닝 시간 제한을 통해 고객 투명성과 유연성 향상
- 인스턴스 그룹으로 시작된 EC2 클러스터의 Amazon EMR에 대해 최적화된 작업 노드 확장
- Spark 드라이버에 대한 향상된 보호로 작업 복원력 향상
EC2의 새로운 Amazon EMR 기능에 대해 더 자세히 알아보고 자세히 논의해 보겠습니다.
스팟 인스턴스에 대한 프로비저닝 시간 제한을 통해 고객 투명성과 유연성 향상
많은 Amazon EMR 고객이 사용합니다. EC2 스팟 인스턴스 비용을 절감하기 위해 EC2 클러스터의 EMR을 사용합니다. 스팟 인스턴스는 예비입니다. 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 컴퓨팅 용량은 온디맨드 가격에 비해 최대 90% 할인된 가격으로 제공됩니다. Amazon EMR은 수동으로 또는 다음을 사용하여 클러스터를 확장할 수 있는 기능을 제공합니다. 자동 스케일링. 당신은 또한 사용할 수 있습니다 Amazon EMR 관리형 확장 워크로드 및 활용도에 따라 클러스터 크기를 자동으로 조정하는 기능입니다.
스팟 인스턴스를 사용하여 확장할 때 고객 경험을 향상시키기 위해 인스턴스 집합을 사용하여 시작된 EC2 클러스터의 EMR에 대해 이제 스팟 인스턴스에 대한 프로비저닝 시간 초과를 지정할 수 있습니다. 프로비저닝 시간 초과는 클러스터 조정 작업 중에 클러스터가 지정된 시간 임계값을 초과하는 경우 스팟 인스턴스 용량 프로비저닝을 중지하도록 Amazon EMR에 지시합니다. 수동으로 크기를 조정하거나 Amazon EMR Managed Scaling 및 Auto Scaling을 사용하여 클러스터 크기를 조정하는 스팟 인스턴스 프로비저닝 제한 시간을 구성할 수 있습니다.
또한 더 나은 투명성을 제공하기 위해 제한 시간이 만료되면 Amazon EMR은 이벤트를 자동으로 전송합니다. Amazon CloudWatch 이벤트 개울. 이러한 CloudWatch 이벤트를 사용하면 지정된 패턴에 따라 이벤트를 일치시키는 규칙을 생성한 다음 이벤트를 대상으로 라우팅하여 조치를 취할 수 있습니다. 자세한 내용은 다음을 참조하세요. Amazon EMR에서 클러스터 크기 조정을 위한 프로비저닝 제한 시간 사용자 지정.
EC2 클러스터의 Amazon EMR 크기 조정 중에 프로비저닝 시간 초과 기간을 구성할 때 다양한 시나리오에 대한 경험이 아래에 요약되어 있습니다.
시나리오 | 세부사항 |
Amazon EMR은 프로비저닝 제한 시간이 만료되기 전에 원하는 스팟 용량을 프로비저닝할 수 있습니다. | Amazon EMR은 자동으로 클러스터를 원하는 용량으로 확장하며 고객의 조치가 필요하지 않습니다. |
Amazon EMR은 스팟 용량을 프로비저닝할 수 없거나 부분 스팟 용량만 프로비저닝할 수 있으며 프로비저닝 제한 시간이 만료되었습니다. | Amazon EMR이 필요한 스팟 용량을 프로비저닝할 수 없고 프로비저닝 제한 시간이 만료된 경우 Amazon EMR은 크기 조정 요청을 취소하고 추가 스팟 용량을 프로비저닝하려는 시도를 중지합니다. Amazon EMR은 Amazon CloudWatch Events 스트림에도 이벤트를 게시합니다. 고객은 이러한 이벤트를 사용하여 규칙을 만들고 적절한 조치를 취할 수 있습니다. |
Amazon EC2가 다시 필요로 하여 EC2 클러스터의 Amazon EMR에 있는 스팟 인스턴스가 중단된 경우 | Amazon EMR은 인스턴스를 클러스터에서 사용 가능한 유형으로 교체하여 클러스터의 균형을 재조정하는 새로운 크기 조정 요청을 자동으로 트리거합니다. Amazon EMR은 클러스터에 구성된 것과 동일한 프로비저닝 크기 조정 제한 시간도 사용합니다. 고객이 취해야 할 조치는 없습니다. |
프로비저닝 시간 초과 값을 지정할 때 용량 가용성의 중요성을 고려해야 합니다.
- 워크로드 용량 가용성이 중요한 경우 - 원하는 용량을 사용할 수 있도록 하려면 애플리케이션 및 애플리케이션 SLA를 실행하는 데 걸리는 시간을 기준으로 크기 조정 프로비저닝 시간 제한을 구성하는 것이 좋습니다. 예를 들어 애플리케이션 SLA가 60분이고 애플리케이션이 완료되는 데 30분이 걸리는 경우 크기 조정 프로비저닝 시간 제한을 30분 이하로 설정해야 합니다. Amazon EMR은 제한 시간이 만료될 때까지(30분 이하) 스팟 용량을 확보하기 위해 프로비저닝을 시도하고 사용자가 적절한 조치를 취할 수 있도록 CloudWatch 이벤트를 게시합니다.
- 워크로드가 시간에 유연하고 용량 가용성이 중요한 요소가 아닌 경우 - 워크로드가 시간에 유연하고 용량 가용성이 중요한 요소가 아닌 경우 원하는 스팟 용량을 얻을 가능성을 최대한 보장하기 위해 크기 조정 프로비저닝 시간 초과에 대해 더 높은 시간 초과 값을 구성할 수 있습니다.
인스턴스 그룹으로 시작된 EC2 클러스터의 Amazon EMR에 대해 최적화된 작업 노드 확장
인스턴스 그룹은 EC2 클러스터에서 EMR을 시작하기 위한 더 간단한 설정을 제공합니다. 인스턴스 그룹을 사용하여 시작된 각 클러스터에는 최대 50개의 인스턴스 그룹이 포함될 수 있습니다. 즉, 하나의 EC2 인스턴스가 포함된 기본 인스턴스 그룹 하나, 하나 이상의 EC2 인스턴스가 포함된 핵심 인스턴스 그룹, 최대 48개의 선택적 작업 인스턴스 그룹이 포함될 수 있습니다. EC2 인스턴스를 수동으로 추가 및 제거하여 각 인스턴스 그룹의 크기를 조정하거나 자동 크기 조정을 설정할 수 있습니다. 또한 Amazon EMR Managed Scaling 기능을 사용하여 워크로드 및 활용도에 따라 클러스터 크기를 자동으로 조정할 수도 있습니다.
Amazon EMR Managed Scaling을 사용하여 작업 노드를 확장할 때 EC2 클러스터의 EMR 인스턴스 그룹에 대한 고객 경험을 향상시키기 위해 관리형 확장 알고리즘을 향상하여 용량 확보 가능성이 가장 높은 작업 인스턴스 그룹을 선택했습니다. 또한 관리형 조정이 단일 작업 인스턴스 그룹으로 용량을 확보할 수 없는 경우 확장 지연을 줄이기 위해 Amazon EMR은 자동으로 다른 작업 그룹으로 전환하고 여러 작업 인스턴스 그룹을 사용하여 용량을 충족합니다. 결과적으로 인스턴스 유형에 대한 유연성이 높을수록 용량을 프로비저닝할 가능성이 높아집니다. 자세한 내용은 다음을 참조하세요. 인스턴스 및 가용 영역 유연성에 대한 모범 사례.
Spark 드라이버에 대한 향상된 보호로 작업 복원력 향상
In 2022, Amazon EMR Managed Scaling을 사용할 때 작업 복원력을 향상시키기 위해 Spark Shuffle 데이터를 인식하도록 관리형 확장을 향상시켰습니다. 이를 통해 Apache Spark용 중간 Shuffle 데이터를 저장하는 인스턴스의 축소를 방지할 수 있습니다. 이를 통해 작업 재시도 및 재계산을 방지하여 성능을 향상하고 비용을 절감할 수 있습니다.
Amazon EMR Managed Scaling을 사용할 때 작업 복원력을 더욱 향상시키기 위해 Spark Driver를 인식하도록 관리형 확장을 더욱 강화했습니다. 이를 통해 클러스터 축소 중에 Amazon EMR Managed Scaling은 노드가 없는 노드의 축소 우선 순위를 지정합니다. 활성 Spark 드라이버가 실행 중입니다. 이를 통해 작업 실패 및 작업 재시도를 최소화하여 성능을 더욱 향상시키고 비용을 절감하는 데 도움이 됩니다. 이 향상된 기능은 Amazon EMR 버전 5.34.0 이상 및 Amazon EMR 버전 6.4.0 이상을 사용하는 EMR 클러스터에 대해 기본적으로 활성화됩니다.
클러스터의 어느 노드가 Spark 드라이버를 실행하고 있는지 확인하려면 Spark 기록 서버를 방문하여 드라이버를 필터링할 수 있습니다. 집행자 Spark 애플리케이션 ID의 탭입니다.
결론
이 게시물에서는 EC2 클러스터의 EMR에 대한 용량 관리 및 Amazon EMR Managed Scaling에서 개선된 사항을 강조했습니다. 우리는 스팟 인스턴스를 프로비저닝할 때 작업 복원력을 개선하고 유연성과 투명성을 강화하고 EC2 클러스터의 Amazon EMR에서 인스턴스 그룹과 함께 관리형 확장을 사용할 때 확장 경험을 최적화하는 데 중점을 두었습니다. 2023년 현재까지 여러 기능을 출시했으며 혁신의 속도가 계속해서 가속화되고 있지만 아직은 첫날이며 이러한 기능이 조직을 위해 더 많은 가치를 창출하는 데 어떻게 도움이 되는지 여러분의 의견을 듣기를 기대합니다. 새로운 기능을 사용해 보시고 추가 의견이 있으면 AWS 계정 팀을 통해 문의해 주시기 바랍니다.
저자 소개
수샨트 마지티아 AWS의 EMR 수석 제품 관리자입니다.
안쿠르 고얄 Amazon EMR 빅 데이터 플랫폼 팀의 SDM입니다. 그는 대규모 분산 애플리케이션과 클러스터 최적화 알고리즘을 구축합니다. Ankur는 분석, 기계 학습 및 예측 주제에 관심이 있습니다.
매튜 림 AWS의 수석 솔루션 아키텍처 관리자입니다.
타룬 차나나 Amazon EMR 빅 데이터 플랫폼 팀의 SDM입니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 자동차 / EV, 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 차트프라임. ChartPrime으로 트레이딩 게임을 향상시키십시오. 여기에서 액세스하십시오.
- BlockOffsets. 환경 오프셋 소유권 현대화. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/
- :있다
- :이다
- :아니
- $UP
- 1
- 100
- 11
- 2023
- 30
- 50
- 60
- 7
- 9
- a
- 할 수 있는
- 소개
- 가속
- 에 따르면
- 계정
- 얻다
- 취득
- 동작
- 행위
- 활동적인
- 첨가
- 추가
- 연산
- 알고리즘
- 또한
- 이기는하지만
- 아마존
- Amazon EC2
- 아마존 EMR
- Amazon Web Services
- an
- 분석
- 및
- 다른
- 어떤
- 아파치
- 아파치 스파크
- 어플리케이션
- 어플리케이션
- 적당한
- 아키텍처
- 있군요
- AS
- At
- 시도
- 자동
- Automatic
- 자동적으로
- 유효성
- 가능
- 인식
- AWS
- 기반으로
- BE
- 된
- 전에
- 이하
- 더 나은
- 큰
- 빅 데이터
- 빌드
- by
- CAN
- 능력
- 생산 능력
- 승산
- 왼쪽 메뉴에서
- 클라우드
- 클라우드 빅 데이터
- 클러스터
- 댓글
- 비교
- 완전한
- 계산
- 구성
- 확인하기
- 따라서
- 고려
- 이 포함되어 있습니다
- 계속
- 핵심
- 비용
- 비용
- 만들
- 임계
- 고객
- 고객 경험
- 고객
- 데이터
- 데이터 플랫폼
- 데이터 처리
- 일
- 깊이
- 태만
- 지연
- 원하는
- 세부 묘사
- 다른
- 할인
- 토론
- 분산
- 잠수
- 말라
- 운전사
- ...동안
- 마다
- 중
- 사용 가능
- 강화
- 강화
- 상승
- 향상
- 확인
- 보장
- 에테르 (ETH)
- 이벤트
- 이벤트
- 예
- 초과
- 경험
- 만료
- 인자
- 멀리
- 특색
- 특징
- 필터링
- Find
- 유연성
- 융통성있는
- 집중
- 수행원
- 럭셔리
- 앞으로
- 프레임 워크
- 에
- 다하다
- 추가
- 게다가
- 얻을
- 점점
- 그룹
- 여러 떼
- 행복한
- 하드
- 있다
- he
- 듣기
- 도움
- 도움
- 도움이
- 도움이
- 더 높은
- 최고
- 강조
- history
- 방법
- HTML
- HTTP
- HTTPS
- ID
- if
- 개선
- 개량
- 개선
- in
- 포함
- 포함
- 혁신
- 예
- 대화형
- 관심있는
- 중간의
- 중단 된
- 초대
- IT
- 일
- 키
- 넓은
- 후에
- 시작
- 시작
- 오퍼
- 배우다
- 배우기
- 적게
- 있을 수 있는 일
- 보기
- 절감
- 기계
- 기계 학습
- 만든
- 관리
- 구축
- 매니저
- 수동으로
- 경기
- 소개
- 분
- ML
- 배우기
- 여러
- 필요
- 요구
- 신제품
- 새로운 기능
- 아니
- 노드
- 지금
- of
- 제공
- 제공
- 제공
- on
- 온디맨드
- ONE
- 만
- 오픈 소스
- 행정부
- 최적화
- 최적화
- or
- 조직
- 평화
- 무늬
- 성능
- 기간
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 부디
- 게시하다
- 사례
- 방지
- 가격
- 일차
- 교장
- 처리
- 프로덕트
- 제품 관리자
- 보호
- 제공
- 규정
- 게시
- 재조정
- 권하다
- 감소
- 감소
- 참조
- 유적
- 제거
- 신고
- 의뢰
- 필수
- 요구조건 니즈
- 길
- 규칙
- 달리기
- 달리는
- 같은
- 규모
- 확장
- 스케일링
- SDM
- 보내다
- 연장자
- 서비스
- 세트
- 설치
- 영상을
- 셔플
- 단일
- So
- 지금까지
- 해결책
- 일부
- 불꽃
- 지정
- Spot
- 중지
- 중지
- 저장
- 흐름
- 이러한
- 스위치
- 받아
- 소요
- 목표
- 태스크
- 팀
- 이야기
- 그
- XNUMXD덴탈의
- 그들의
- 그들
- 그때
- Bowman의
- 이
- 그
- 임계값
- 을 통하여
- 시간
- 에
- 이상의 주제
- 터치
- 투명도
- 트리거
- 시도
- 유형
- 잠금을 해제
- 까지
- us
- 사용
- 사용
- 가치
- 방문
- 였다
- we
- 웹
- 웹 서비스
- 잘
- 언제
- 어느
- 의지
- 과
- 작업
- 일
- 겠지
- 당신
- 너의
- 제퍼 넷