In 2022, te contamos sobre las nuevas mejoras que hicimos en Escalamiento administrado de Amazon EMR, lo que ayudó a mejorar la utilización del clúster y a reducir los costos del clúster. En 2023, nos complace informar que el equipo de Amazon EMR ha estado trabajando arduamente. Trabajamos en retrospectiva a partir de los requisitos del cliente y lanzamos múltiples características nuevas para mejorar su experiencia de escalado y administración de capacidad de Amazon EMR en clústeres EC2.
EMR de Amazon es la solución de big data en la nube para procesamiento de datos a escala de petabytes, análisis interactivos y aprendizaje automático (ML) utilizando marcos de código abierto como Apache Spark, Colmena Apachey presto. Los clientes nos solicitaron funciones que mejorarían aún más la gestión de capacidad y la experiencia de escalamiento de su EMR en clústeres EC2, incluidos sus clústeres grandes y de larga duración. Hemos trabajado duro para satisfacer esas necesidades. Las siguientes son algunas de las mejoras clave:
- Mayor transparencia y flexibilidad para el cliente con tiempo de espera de aprovisionamiento para instancias de spot
- Los nodos de tareas optimizados se amplían para Amazon EMR en clústeres EC2 lanzados con grupos de instancias
- Resiliencia laboral mejorada con protección mejorada para Spark Drivers
Profundicemos y analicemos en detalle las nuevas características de Amazon EMR en EC2.
Mayor transparencia y flexibilidad para el cliente con tiempo de espera de aprovisionamiento para instancias de spot
Muchos clientes de Amazon EMR utilizan Instancias de spot EC2 para su EMR en grupos EC2 para reducir costos. Las instancias puntuales están sobrantes Nube informática elástica de Amazon (Amazon EC2) capacidad informática ofrecida con descuentos de hasta el 90 % en comparación con los precios bajo demanda. Amazon EMR le ofrece la capacidad de escalar su clúster de forma manual o mediante Escalado automático. También puedes usar el Escalamiento administrado de Amazon EMR función para cambiar automáticamente el tamaño de su clúster según la carga de trabajo y la utilización.
Para mejorar la experiencia del cliente al ampliar el uso de instancias de spot, para EMR en clústeres EC2 lanzados mediante flotas de instancias, ahora puede especificar un tiempo de espera de aprovisionamiento para instancias de spot. Un tiempo de espera de aprovisionamiento le indicará a Amazon EMR que deje de aprovisionar capacidad de instancia de spot si el clúster supera un umbral de tiempo específico durante las operaciones de escalado del clúster. Puede configurar el tiempo de espera de aprovisionamiento de instancias de spot para clústeres que cambian de tamaño manualmente o mediante Amazon EMR Managed Scaling y Auto Scaling.
Además, para brindar una mayor transparencia, cuando expire el período de tiempo de espera, Amazon EMR también enviará eventos automáticamente a un Eventos de Amazon CloudWatch arroyo. Con estos eventos de CloudWatch, puede crear reglas que coincidan con los eventos según un patrón específico y luego enrutar los eventos a los objetivos para que tomen medidas. Para obtener más información, consulte Personalice un período de tiempo de espera de aprovisionamiento para cambiar el tamaño del clúster en Amazon EMR.
A continuación encontrará un resumen de la experiencia para diferentes escenarios cuando configura un período de tiempo de espera de aprovisionamiento durante el cambio de tamaño de su clúster de Amazon EMR en EC2.
Guión | Experiencia |
Amazon EMR puede aprovisionar la capacidad spot deseada antes de que expire el tiempo de espera de aprovisionamiento | Amazon EMR amplía automáticamente el clúster a la capacidad deseada y no es necesaria ninguna acción por parte del cliente. |
Amazon EMR no puede aprovisionar ninguna capacidad de spot o solo puede aprovisionar capacidad de spot parcial y el tiempo de espera de aprovisionamiento ha expirado | Si Amazon EMR no puede aprovisionar la capacidad de spot requerida y el tiempo de espera de aprovisionamiento ha expirado, Amazon EMR cancelará la solicitud de cambio de tamaño y detendrá sus intentos de aprovisionar capacidad de spot adicional. Amazon EMR también publicará eventos en una transmisión de Amazon CloudWatch Events. Los clientes pueden utilizar estos eventos para crear reglas y tomar las acciones adecuadas. |
Si las instancias Spot en su Amazon EMR en clústeres EC2 se interrumpen porque Amazon EC2 las necesita nuevamente | Amazon EMR activará automáticamente una nueva solicitud de cambio de tamaño para reequilibrar sus clústeres reemplazando instancias con cualquiera de los tipos disponibles en su clúster. Amazon EMR también utilizará el mismo tiempo de espera de cambio de tamaño de aprovisionamiento que se configuró en el clúster. No es necesaria ninguna acción por parte del cliente. |
Debe considerar la importancia de la disponibilidad de capacidad al especificar el valor del tiempo de espera de aprovisionamiento:
- Cuando la disponibilidad de la capacidad de su carga de trabajo es crítica – Para garantizar que la capacidad deseada esté disponible, recomendamos configurar el tiempo de espera de aprovisionamiento de cambio de tamaño en función del tiempo que lleva ejecutar la aplicación y los SLA de la aplicación. Por ejemplo, si el SLA de la aplicación es de 60 minutos y la aplicación tarda 30 minutos en completarse, debe establecer el tiempo de espera de aprovisionamiento de cambio de tamaño en 30 minutos o menos. Amazon EMR intentará aprovisionarse para obtener capacidad puntual hasta que expire el tiempo de espera (30 minutos o menos) y publicará un evento de CloudWatch para que pueda tomar las medidas adecuadas.
- Cuando su carga de trabajo es flexible en cuanto a tiempo y la disponibilidad de capacidad no es un factor – Si la carga de trabajo es flexible en términos de tiempo y la disponibilidad de capacidad no es un factor, para garantizar la mayor probabilidad de obtener la capacidad puntual deseada, puede configurar un valor de tiempo de espera más alto para el tiempo de espera de aprovisionamiento de cambio de tamaño.
Ampliación de nodos de tareas optimizados para Amazon EMR en clústeres EC2 lanzados con grupos de instancias
Los grupos de instancias ofrecen una configuración más sencilla para iniciar EMR en clústeres EC2. Cada clúster lanzado mediante grupos de instancias puede incluir hasta 50 grupos de instancias: un grupo de instancias principal que contiene una instancia EC2, un grupo de instancias principal que contiene una o más instancias EC2 y hasta 48 grupos de instancias de tareas opcionales. Puede escalar cada grupo de instancias agregando y eliminando instancias EC2 manualmente, o puede configurar el escalado automático. También puede utilizar la función de escalado administrado de Amazon EMR para cambiar automáticamente el tamaño de su clúster según la carga de trabajo y la utilización.
Para mejorar la experiencia del cliente, por ejemplo, grupos en EMR en clústeres EC2 al escalar nodos de tareas mediante el escalado administrado de Amazon EMR, hemos mejorado el algoritmo de escalado administrado para elegir los grupos de instancias de tareas que tienen la mayor probabilidad de adquirir capacidad. Además, cuando el escalado administrado no puede adquirir capacidad con un solo grupo de instancias de tareas, para reducir cualquier retraso en el escalado, Amazon EMR cambiará automáticamente a otro grupo de tareas y cumplirá con la capacidad mediante el uso de múltiples grupos de instancias de tareas. En consecuencia, cuanto más flexible sea con respecto a los tipos de instancias, mayores serán las posibilidades de aprovisionar capacidad. Para obtener más información, consulte Mejores prácticas, por ejemplo, y flexibilidad de la zona de disponibilidad.
Resiliencia laboral mejorada con protección mejorada para Spark Drivers
In 2022, para mejorar la resiliencia del trabajo al utilizar el escalado administrado de Amazon EMR, mejoramos el escalado administrado para que tenga en cuenta los datos aleatorios de Spark, lo que evita la reducción de instancias que almacenan datos aleatorios intermedios para Apache Spark. Esto ayuda a prevenir nuevos intentos de trabajo y recálculos, lo que conduce a un mejor rendimiento y un menor costo.
Para mejorar aún más la resiliencia del trabajo cuando se utiliza Amazon EMR Managed Scaling, hemos mejorado aún más el escalado administrado para que tenga en cuenta Spark Driver, lo que garantiza que durante la reducción del clúster, Amazon EMR Managed Scaling priorice la reducción de los nodos que no tienen una Spark Driver activo ejecutándose en ellos. Esto ayuda a minimizar los errores y los reintentos de los trabajos, lo que ayuda a mejorar aún más el rendimiento y reducir los costos. Esta mejora está habilitada de forma predeterminada para los clústeres de EMR que utilizan las versiones 5.34.0 y posteriores de Amazon EMR, y las versiones 6.4.0 y posteriores de Amazon EMR.
Para confirmar qué nodos de su clúster ejecutan Spark Driver, puede visitar Spark History Server y filtrar el controlador en el Ejecutores pestaña de su ID de aplicación Spark.
Conclusión
En esta publicación, destacamos las mejoras que realizamos en la administración de capacidad y el escalado administrado de Amazon EMR para EMR en clústeres EC2. Nos concentramos en mejorar la resiliencia laboral, mejorar la flexibilidad y la transparencia al aprovisionar instancias puntuales y optimizar la experiencia de ampliación al utilizar el escalado administrado con grupos de instancias en Amazon EMR en clústeres EC2. Aunque hemos lanzado varias funciones hasta ahora en 2023 y el ritmo de la innovación continúa acelerándose, sigue siendo el día 1 y esperamos saber de usted cómo estas funciones lo ayudan a desbloquear más valor para sus organizaciones. Lo invitamos a probar estas nuevas funciones y ponerse en contacto con nosotros a través de su equipo de cuenta de AWS si tiene más comentarios.
Sobre los autores
Sushant Majithia es gerente principal de productos para EMR en AWS.
Ankur Goyal es un SDM con el equipo de Amazon EMR Big Data Platform. Crea aplicaciones distribuidas a gran escala y algoritmos de optimización de clústeres. Ankur está interesado en temas de análisis, aprendizaje automático y previsión.
mateo liem es gerente sénior de arquitectura de soluciones en AWS.
Tarun Chanana es un SDM con el equipo de Amazon EMR Big Data Platform.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- ChartPrime. Eleve su juego comercial con ChartPrime. Accede Aquí.
- Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/big-data/capacity-management-and-amazon-emr-managed-scaling-improvements-for-amazon-emr-on-ec2-clusters/
- :posee
- :es
- :no
- $ UP
- 1
- 100
- 11
- 2023
- 30
- 50
- 60
- 7
- 9
- a
- Poder
- Nuestra Empresa
- acelerar
- Conforme
- Mi Cuenta
- adquirir
- adquisición
- la columna Acción
- acciones
- lector activo
- la adición de
- Adicionales
- algoritmo
- algoritmos
- también
- Aunque
- Amazon
- Amazon EC2
- EMR de Amazon
- Amazon Web Services
- an
- Analytics
- y
- Otra
- cualquier
- APACHE
- Apache Spark
- Aplicación
- aplicaciones
- adecuado
- arquitectura
- somos
- AS
- At
- Los intentos
- auto
- Automático
- automáticamente
- disponibilidad
- Hoy Disponibles
- conscientes
- AWS
- basado
- BE
- esto
- antes
- a continuación
- mejores
- Big
- Big Data
- construye
- by
- PUEDEN
- capacidad
- Capacidad
- posibilidades
- Elige
- Soluciones
- grandes datos en la nube
- Médico
- comentarios
- en comparación con
- completar
- Calcular
- configurado
- Confirmar
- En consecuencia
- Considerar
- contiene
- continúa
- Core
- Cost
- Precio
- Para crear
- criticidad
- cliente
- experiencia del cliente
- Clientes
- datos
- Plataforma de datos
- proceso de datos
- día
- más profundo
- Predeterminado
- retrasos
- deseado
- detalle
- una experiencia diferente
- descuentos
- discutir
- distribuidos
- inmersión
- No
- conductor
- durante
- cada una
- ya sea
- facilita
- mejorar
- mejorado
- Estrategias orientadas
- mejoras
- garantizar
- asegura
- Éter (ETH)
- Evento
- Eventos
- ejemplo
- excede
- experience
- caducidad
- factor
- muchos
- Feature
- Caracteristicas
- filtrar
- Encuentre
- Flexibilidad
- flexible
- centrado
- siguiendo
- adelante
- marcos
- Desde
- Cumplir
- promover
- Además
- obtener
- conseguir
- Grupo procesos
- Grupo
- Ahorrar
- Difícil
- Tienen
- he
- .
- ayuda
- ayudado
- ayudando
- ayuda
- más alto
- más alto
- Destacado
- historia
- Cómo
- HTML
- http
- HTTPS
- ID
- if
- mejorar
- mejoras
- la mejora de
- in
- incluir
- Incluye
- Innovation
- ejemplo
- interactivo
- interesado
- Intermedio
- interrumpido
- invitar
- IT
- Trabajos
- Clave
- large
- luego
- lanzamiento
- lanzado
- Prospectos
- APRENDE:
- aprendizaje
- menos
- probabilidad
- Mira
- inferior
- máquina
- máquina de aprendizaje
- hecho
- gestionado
- Management
- gerente
- a mano
- Match
- Conoce a
- minutos
- ML
- más,
- múltiples
- Nuevo
- Nuevas características
- no
- nodos
- ahora
- of
- LANZAMIENTO
- Ofrecido
- Ofertas
- on
- On-Demand
- ONE
- , solamente
- de código abierto
- Operaciones
- optimización
- optimizando
- or
- para las fiestas.
- Paz
- Patrón de Costura
- actuación
- período
- plataforma
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- Por favor
- Publicación
- prácticas
- evita
- cotización
- primario
- Director de la escuela
- tratamiento
- Producto
- gerente de producto
- Protección
- proporcionar
- provisión
- publicar
- reequilibrar
- recomiendan
- reducir
- Reducción
- remitir
- permanece
- la eliminación de
- reporte
- solicita
- Requisitos
- Requisitos
- Ruta
- reglas
- Ejecutar
- correr
- mismo
- Escala
- aumentar proporcionalmente
- la ampliación
- sdm
- envío
- mayor
- Servicios
- set
- Configure
- tienes
- barajar
- soltero
- So
- hasta aquí
- a medida
- algo
- Spark
- especificado
- Spot
- Detener
- Paradas
- tienda
- stream
- tal
- Switch
- ¡Prepárate!
- toma
- tiene como objetivo
- Tarea
- equipo
- les digas
- esa
- La
- su
- Les
- luego
- Estas
- así
- aquellos
- umbral
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- a
- Temas
- contacto
- Transparencia
- detonante
- try
- tipos
- desbloquear
- hasta
- us
- utilizan el
- usando
- propuesta de
- Visite
- fue
- we
- web
- servicios web
- WELL
- cuando
- que
- seguirá
- Actividades:
- trabajado
- se
- Usted
- tú
- zephyrnet