Scansiona in modo efficiente il tuo data lake e migliora l'accesso ai dati con un crawler di AWS Glue utilizzando gli indici di partizione | Amazon Web Services

Ripubblicato da Platone

Seguaci: 0

Nel mondo di oggi, i clienti gestiscono grandi quantità di dati nei loro Servizio di archiviazione semplice Amazon (Amazon S3) data lake, che richiedono pipeline di dati complesse per comprendere continuamente i cambiamenti nel layout dei dati e renderli disponibili ai sistemi di consumo. Colla AWS I crawler forniscono un modo semplice per catalogare i dati nel catalogo dati di AWS Glue, eliminando il lavoro pesante quando si tratta di gestione dello schema e classificazione dei dati. I crawler di AWS Glue estraggono lo schema dei dati e le partizioni da Amazon S3 per popolare automaticamente il Catalogo dati, mantenendo aggiornati i metadati.

Tuttavia, con la crescita esponenziale dei dati nel tempo, il numero di partizioni in una determinata tabella può aumentare in modo significativo. Perché i servizi di analisi come Amazzone Atena eseguire una query su una tabella contenente milioni di partizioni, il tempo necessario per recuperare la partizione aumenta e può causare un aumento del tempo di esecuzione delle query.

Oggi, il supporto del crawler di AWS Glue è stato ampliato per aggiungere automaticamente indici di partizione per le nuove tabelle scoperte per ottimizzare l'elaborazione delle query sul set di dati partizionato. Ora, quando il crawler crea una nuova tabella Data Catalog durante un'esecuzione del crawler, crea anche un indice di partizione per impostazione predefinita, con la permutazione più grande di tutte le colonne di partizione di tipo numerico e stringa come chiavi. Il Data Catalog crea quindi un indice ricercabile basato su queste chiavi, riducendo il tempo necessario per recuperare e filtrare i metadati delle partizioni su tabelle con milioni di partizioni. La creazione di indici di partizione avvantaggia i carichi di lavoro di analisi in esecuzione su Athena, Amazon EMR, Spettro Amazon Redshifte AWS Glue.

In questo post, descriviamo come creare indici di partizione con un crawler AWS Glue e confrontiamo il miglioramento delle prestazioni delle query durante l'accesso ai dati sottoposti a scansione con e senza un indice di partizione da Athena.

Panoramica della soluzione

Usiamo un file AWS CloudFormazione modello per creare le nostre risorse di soluzione. Nelle fasi seguenti, dimostriamo come configurare il crawler AWS Glue per creare un indice di partizione utilizzando la console AWS Glue o il Interfaccia della riga di comando di AWS (interfaccia a riga di comando dell'AWS). Quindi confrontiamo i miglioramenti delle prestazioni delle query utilizzando Athena.

Prerequisiti

Per seguire questo post, devi avere accesso a un file Gestione dell'identità e dell'accesso di AWS Ruolo di amministratore (IAM) per creare risorse utilizzando AWS CloudFormation.

Imposta le risorse della tua soluzione

Il modello CloudFormation genera le seguenti risorse:

Ruoli e politiche IAM
Un database AWS Glue per contenere lo schema
Un crawler AWS Glue che punta a un set di dati altamente partizionato
Un gruppo di lavoro e un bucket Athena per archiviare i risultati delle query

Completare i passaggi seguenti per configurare le risorse della soluzione:

Accedere al Console di gestione AWS come amministratore IAM.
Scegli Avvia Stack per distribuire il modello CloudFormation:
Nel DatabaseName, mantieni il valore predefinito blog_partition_index_crawlerdb.
Scegli Avanti.
Rivedere i dettagli nella pagina finale e selezionare Riconosco che AWS CloudFormation potrebbe creare risorse IAM.
Scegli Crea stack.
Quando lo stack è completo, nella console AWS CloudFormation, vai al file Uscite scheda dello stack.
Annotare i valori di DatabaseName ed GlueCrawlerName.

Alcune delle risorse distribuite da questo stack comportano costi quando sono in uso.

Modifica ed esegui il crawler di AWS Glue

Per configurare ed eseguire il crawler di AWS Glue, completa i seguenti passaggi:

Nella console AWS Glue, scegli Crawlers nel pannello di navigazione.
individuare il crawler blog-partition-index-crawler e scegli Modifica.
Nel Imposta output e pianificazione sezione, sotto Opzioni avanzate, selezionare Crea automaticamente gli indici delle partizioni.
Esamina e aggiorna le impostazioni del crawler.

In alternativa, puoi configurare il tuo crawler utilizzando l'AWS CLI (fornisci il tuo ruolo IAM e la tua regione):

aws glue create-crawler --name blog-partition-index-crawler --targets '{ "S3Targets": [{ "Path": "s3://awsglue-datasets/examples/highly-partitioned-table/"}] }' --database-name "blog_partition_index_crawlerdb" --role <Crawler_IAM_role> --configuration "{"Version":1.0,"CreatePartitionIndex":true}" --region <region_name>

Ora esegui il crawler e verifica che l'esecuzione del crawler sia completa.

Si tratta di un set di dati altamente partizionato e il completamento richiederà circa 90 minuti.

Verificare la tabella partizionata

Nel database AWS Glue blog_partition_index_crawlerdb, verificare che la tabella highly_partitioned_table è creato.

Per impostazione predefinita, il crawler determina un indice basato sulla più grande permutazione di colonne di partizione di tipi di colonna validi nello stesso ordine di colonne di partizione, che sono numeriche o stringhe. Per la tabella creata dal crawler (highly_partitioned_table), abbiamo colonne di partizione year (corda), month (corda), day (stringa), e hour (corda).

In base a questa definizione, il crawler ha creato un indice sulla permutazione di anno, mese, giorno e ora. Il crawler ha creato gli indici con il prefisso crawler_ su qualsiasi indice di partizione creato per impostazione predefinita.

Verifica lo stesso navigando nella tabella highly_partitioned_table sulla console AWS Glue e scegliendo il file Indici scheda.

Il crawler è stato in grado di eseguire la scansione dell'origine dati S3 e di popolare correttamente gli indici di partizione per la tabella.

Confronta i miglioramenti delle prestazioni delle query utilizzando Athena

Innanzitutto, interroghiamo la tabella in Athena senza utilizzare l'indice di partizione. Per verificare le tabelle utilizzando Athena, completare i seguenti passaggi:

Sulla console Athena, scegli crawler-primary-workgroup come gruppo di lavoro Athena e scegliere Riconoscere.

Esegui la seguente query:

select count(*), sum(value) from blog_partition_index_crawlerdb.highly_partitioned_table where year='1980' and month='01' and day ='01'

Lo screenshot seguente mostra che la query ha impiegato circa 32 secondi senza che il filtro fosse abilitato usando l'indice di partizione.

Ora abilitiamo l'indice di partizione sulla query Athena:

ALTER TABLE blog_partition_index_crawlerdb.highly_partitioned_table
SET TBLPROPERTIES ('partition_filtering.enabled' = 'true')

Esegui di nuovo la seguente query e prendi nota del runtime:

select count(*), sum(value) from blog_partition_index_crawlerdb.highly_partitioned_table where year=‘1980’ and month=‘01’ and day =‘01’

Lo screenshot seguente mostra che la query ha impiegato solo 700 millisecondi, che è molto più veloce con il filtro abilitato usando l'indice di partizione.

ripulire

Per evitare addebiti indesiderati sul tuo account AWS, puoi eliminare le risorse AWS:

Accedi alla console CloudFormation come amministratore IAM utilizzato per creare lo stack CloudFormation.
Elimina lo stack CloudFormation che hai creato.

Conclusione

In questo post, abbiamo spiegato come configurare un crawler AWS per creare indici di partizione e abbiamo confrontato le prestazioni delle query durante l'accesso ai dati con gli indici di Athena.

Se sulla tabella non sono presenti indici di partizione, AWS Glue carica tutte le partizioni della tabella, quindi filtra le partizioni caricate, con conseguente recupero inefficiente dei metadati. I servizi di analisi come Redshift Spectrum, Amazon EMR e AWS Glue ETL Spark DataFrames ora possono utilizzare gli indici per il recupero delle partizioni, con conseguenti prestazioni di query significative.

Per ulteriori informazioni sugli indici delle partizioni e sulle prestazioni delle query nei vari motori analitici, fare riferimento a Migliora le prestazioni delle query di Amazon Athena utilizzando gli indici di partizione del catalogo dati di AWS Glue ed Migliora le prestazioni delle query utilizzando gli indici di partizione di AWS Glue.

Un ringraziamento speciale a tutti coloro che hanno contribuito al lancio di questa funzione crawler: Yuhang Chen, Kyle Duong e Mita Gavade.

Circa gli autori

Srividya Parthasarathy è Senior Big Data Architect nel team AWS Lake Formation. Le piace creare soluzioni di data mesh e condividerle con la community.

Sandep Adwankar è Senior Technical Product Manager presso AWS. Con sede nella California Bay Area, lavora con clienti in tutto il mondo per tradurre i requisiti tecnici e aziendali in prodotti che consentono ai clienti di migliorare il modo in cui gestiscono, proteggono e accedono ai dati.