En el mundo actual, los clientes gestionan grandes cantidades de datos en sus Servicio de almacenamiento simple de Amazon (Amazon S3), que requieren canalizaciones de datos intrincadas para comprender continuamente los cambios en el diseño de datos y ponerlos a disposición de los sistemas de consumo. Pegamento AWS Los rastreadores brindan una forma sencilla de catalogar datos en AWS Glue Data Catalog que elimina el trabajo pesado cuando se trata de la administración de esquemas y la clasificación de datos. Los rastreadores de AWS Glue extraen el esquema de datos y las particiones de Amazon S3 para completar automáticamente el catálogo de datos, manteniendo los metadatos actualizados.
Pero con el crecimiento exponencial de los datos con el tiempo, la cantidad de particiones en una tabla dada puede crecer significativamente. Porque los servicios de análisis como Atenea amazónica consulta una tabla que contiene millones de particiones, el tiempo necesario para recuperar la partición aumenta y puede hacer que aumente el tiempo de ejecución de la consulta.
Hoy, la compatibilidad con el rastreador de AWS Glue se ha ampliado para agregar automáticamente índices de partición para las tablas recién descubiertas a fin de optimizar el procesamiento de consultas en el conjunto de datos particionado. Ahora, cuando el rastreador crea una nueva tabla de catálogo de datos durante una ejecución del rastreador, también crea un índice de partición de forma predeterminada, con la mayor permutación de todas las columnas de partición de tipo numérico y de cadena como claves. Luego, el catálogo de datos crea un índice de búsqueda basado en estas claves, lo que reduce el tiempo necesario para recuperar y filtrar metadatos de partición en tablas con millones de particiones. La creación de índices de partición beneficia las cargas de trabajo de análisis que se ejecutan en Athena, EMR de Amazon, Espectro de Redshift de Amazony pegamento AWS.
En esta publicación, describimos cómo crear índices de partición con un rastreador de AWS Glue y comparamos la mejora del rendimiento de las consultas al acceder a los datos rastreados con y sin un índice de partición de Athena.
Resumen de la solución
Usamos un Formación en la nube de AWS plantilla para crear nuestros recursos de solución. En los siguientes pasos, demostramos cómo configurar el rastreador de AWS Glue para crear un índice de partición utilizando la consola de AWS Glue o el Interfaz de línea de comandos de AWS (CLI de AWS). Luego comparamos las mejoras en el rendimiento de las consultas con Athena.
Requisitos previos
Para seguir esta publicación, debe tener acceso a un Gestión de identidades y accesos de AWS (IAM) función de administrador para crear recursos mediante AWS CloudFormation.
Configure los recursos de su solución
La plantilla de CloudFormation genera los siguientes recursos:
- Políticas y roles de IAM
- Una base de datos de AWS Glue para contener el esquema
- Un rastreador de AWS Glue que apunta a un conjunto de datos con muchas particiones
- Un grupo de trabajo y un depósito de Athena para almacenar los resultados de las consultas
Complete los siguientes pasos para configurar los recursos de la solución:
- Inicie sesión en el Consola de administración de AWS como administrador de IAM.
- Elige Pila de lanzamiento para implementar la plantilla de CloudFormation:
- DatabaseName, mantenga el valor predeterminado
blog_partition_index_crawlerdb
. - Elige Siguiente.
- Revise los detalles en la página final y seleccione Reconozco que AWS CloudFormation podría crear recursos de IAM.
- Elige Crear pila.
- Cuando la pila esté completa, en la consola de AWS CloudFormation, vaya a la Salidas pestaña de la pila.
- Anote los valores de
DatabaseName
yGlueCrawlerName
.
Algunos de los recursos que implementa esta pila incurren en costos cuando están en uso.
Edite y ejecute el rastreador de AWS Glue
Para configurar y ejecutar el rastreador de AWS Glue, complete los siguientes pasos:
- En la consola de AWS Glue, elija Rastreadores en el panel de navegación.
- Localice el
crawler blog-partition-index-crawler
y elige Editar. - En Establecer salida y programación sección, bajo Opciones avanzadas, seleccione Crear índices de partición automáticamente.
- Revise y actualice la configuración del rastreador.
Como alternativa, puede configurar su rastreador mediante la CLI de AWS (proporcione su función y región de IAM):
- Ahora ejecute el rastreador y verifique que la ejecución del rastreador esté completa.
Este es un conjunto de datos altamente particionado y tardará aproximadamente 90 minutos en completarse.
Verificar la tabla particionada
En la base de datos de AWS Glue blog_partition_index_crawlerdb
, verifique que la tabla highly_partitioned_table
es creado.
De forma predeterminada, el rastreador determina un índice basado en la mayor permutación de columnas de partición de tipos de columna válidos en el mismo orden de columnas de partición, que son numéricas o de cadena. Para la tabla creada por el rastreador (highly_partitioned_table
), tenemos columnas de partición year
(cuerda), month
(cuerda), day
(cadena), y hour
(cuerda).
Basándose en esta definición, el rastreador creó un índice sobre la permutación de año, mes, día y hora. El rastreador creó los índices con el prefijo crawler_
en cualquier índice de partición creado por defecto.
Verifique lo mismo navegando a la tabla highly_partitioned_table
en la consola de AWS Glue y eligiendo el Índices .
El rastreador pudo rastrear la fuente de datos S3 y completar correctamente los índices de partición de la tabla.
Compare las mejoras en el rendimiento de las consultas con Athena
Primero, consultamos la tabla en Athena sin usar el índice de partición. Para verificar las tablas usando Athena, complete los siguientes pasos:
- En la consola de Athena, elija
crawler-primary-workgroup
como el grupo de trabajo de Athena y elija Reconocer. - Ejecute la siguiente consulta:
La siguiente captura de pantalla muestra que la consulta tomó aproximadamente 32 segundos sin el filtrado habilitado usando el índice de partición.
- Ahora habilitamos el índice de partición en la consulta de Athena:
- Vuelva a ejecutar la siguiente consulta y observe el tiempo de ejecución:
La siguiente captura de pantalla muestra que la consulta tardó solo 700 milisegundos, que es mucho más rápido con el filtrado habilitado mediante el índice de partición.
Limpiar
Para evitar cargos no deseados en su cuenta de AWS, puede eliminar los recursos de AWS:
- Inicie sesión en la consola de CloudFormation como el administrador de IAM utilizado para crear la pila de CloudFormation.
- Elimine la pila de CloudFormation que creó.
Conclusión
En esta publicación, explicamos cómo configurar un rastreador de AWS para crear índices de partición y comparamos el rendimiento de las consultas al acceder a los datos con índices de Athena.
Si no hay índices de partición en la tabla, AWS Glue carga todas las particiones de la tabla y luego filtra las particiones cargadas, lo que da como resultado una recuperación ineficiente de los metadatos. Los servicios de análisis como Redshift Spectrum, Amazon EMR y AWS Glue ETL Spark DataFrames ahora pueden utilizar índices para obtener particiones, lo que resulta en un rendimiento de consulta significativo.
Para obtener más información sobre los índices de partición y el rendimiento de las consultas en varios motores analíticos, consulte Mejore el rendimiento de las consultas de Amazon Athena con los índices de partición de AWS Glue Data Catalog y Mejore el rendimiento de las consultas con los índices de partición de AWS Glue.
Un agradecimiento especial a todos los que contribuyeron con el lanzamiento de esta característica del rastreador: Yuhang Chen, Kyle Duong y Mita Gavade.
Sobre los autores
Srividya Parthasarathy es Arquitecto Senior de Big Data en el equipo de AWS Lake Formation. Le gusta crear soluciones de redes de datos y compartirlas con la comunidad.
Sandeep Adwankar es gerente sénior de productos técnicos en AWS. Con sede en el Área de la Bahía de California, trabaja con clientes de todo el mundo para traducir los requisitos comerciales y técnicos en productos que permitan a los clientes mejorar la forma en que administran, protegen y acceden a los datos.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- EVM Finanzas. Interfaz unificada para finanzas descentralizadas. Accede Aquí.
- Grupo de medios cuánticos. IR/PR amplificado. Accede Aquí.
- PlatoAiStream. Inteligencia de datos Web3. Conocimiento amplificado. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/big-data/efficiently-crawl-your-data-lake-and-improve-data-access-with-aws-glue-crawler-using-partition-indexes/
- :posee
- :es
- :dónde
- $ UP
- 1
- 100
- 11
- 27
- 32
- 8
- 9
- 90
- a
- Poder
- de la máquina
- el acceso
- Mi Cuenta
- reconocer
- a través de
- add
- Admin
- de nuevo
- Todos
- a lo largo de
- también
- Amazon
- Atenea amazónica
- EMR de Amazon
- Amazon Web Services
- cantidades
- an
- Pruebas analíticas
- Analytics
- y
- cualquier
- aproximadamente
- somos
- Reservada
- en torno a
- AS
- At
- automáticamente
- Hoy Disponibles
- evitar
- AWS
- Formación en la nube de AWS
- Pegamento AWS
- Formación del lago AWS
- basado
- Bay
- porque
- esto
- beneficios
- Big
- Big Data
- Construir la
- by
- California
- PUEDEN
- catalogar
- Causa
- Cambios
- cargos
- chen
- Elige
- la elección de
- clasificación
- Columna
- Columnas
- proviene
- vibrante e inclusiva
- comparar
- en comparación con
- completar
- Consola
- continuamente
- contribuido
- Precio
- rastreador
- Para crear
- creado
- crea
- Creamos
- creación
- Current
- Clientes
- datos
- acceso a los datos
- Lago de datos
- Base de datos
- día
- Predeterminado
- demostrar
- desplegar
- despliega
- describir
- detalles
- determina
- descubierto CRISPR
- DE INSCRIPCIÓN
- durante
- eficiente.
- ya sea
- habilitar
- facilita
- motores
- Éter (ETH)
- todos
- expandido
- explicado
- exponencialmente
- extraerlos
- extraer los datos
- más rápida
- Feature
- filtrar
- filtración
- filtros
- final
- seguir
- siguiendo
- formación
- Desde
- genera
- dado
- globo
- Crecer
- Creciendo
- Tienen
- he
- pesado
- levantar objetos pesados
- altamente
- mantener
- horas.
- Cómo
- Como Hacer
- HTML
- http
- HTTPS
- AMI
- Identidad
- mejorar
- es la mejora continua
- mejoras
- in
- aumente
- Los aumentos
- índice
- índices
- ineficiente
- información
- dentro
- IT
- jpg
- Guardar
- acuerdo
- claves
- lago
- mayor
- lanzamiento
- Disposición
- cirugía estética
- como
- línea
- cargas
- para lograr
- gestionan
- Management
- gerente
- malla
- metadatos
- podría
- millones
- minutos
- Mes
- más,
- mucho más
- debe
- Navegar
- navegando
- Navegación
- Nuevo
- recién
- no
- ahora
- número
- of
- on
- , solamente
- Optimización
- or
- solicite
- nuestros
- salida
- Más de
- página
- cristal
- camino
- actuación
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- Publicación
- presente
- tratamiento
- Producto
- gerente de producto
- Productos
- proporcionar
- la reducción de
- región
- Requisitos
- Requisitos
- requiere
- Recursos
- resultante
- Resultados
- Función
- También soy miembro del cuerpo docente de World Extreme Medicine (WEM) y embajadora europea de igualdad para The Transformational Travel Council (TTC). En mi tiempo libre, soy una incansable aventurera, escaladora, patrona de día, buceadora y defensora de la igualdad de género en el deporte y la aventura. En XNUMX, fundé Almas Libres, una ONG nacida para involucrar, educar y empoderar a mujeres y niñas a través del deporte urbano, la cultura y la tecnología.
- Ejecutar
- correr
- mismo
- segundos
- Sección
- seguro
- mayor
- Servicios
- set
- ajustes
- compartir
- ella
- Shows
- importante
- significativamente
- sencillos
- a medida
- Soluciones
- Fuente
- Spark
- Spectrum
- montón
- pasos
- STORAGE
- tienda
- sencillo
- Cordón
- Con éxito
- SOPORTE
- Todas las funciones a su disposición
- mesa
- ¡Prepárate!
- equipo
- Técnico
- plantilla
- gracias
- esa
- La
- su
- Les
- luego
- Estas
- ellos
- así
- equipo
- a
- de hoy
- se
- la traducción
- verdadero
- tipo
- tipos
- bajo
- entender
- no deseado
- Actualizar
- utilizan el
- usado
- usando
- utilizar
- propuesta de
- Valores
- diversos
- Vasto
- verificar
- versión
- fue
- Camino..
- we
- web
- servicios web
- cuando
- que
- QUIENES
- seguirá
- sin
- Forma de interés del Grupo de Trabajo
- funciona
- mundo
- yaml
- año
- Usted
- tú
- zephyrnet