Formazione AWS Lake e la Colla AWS Data Catalog costituisce parte integrante di una soluzione di governance dei dati per data Lake integrata Servizio di archiviazione semplice Amazon (Amazon S3) con più servizi di analisi AWS integrati con essi. In 2022, abbiamo parlato dei miglioramenti apportati a questi servizi. Continuiamo ad ascoltare le storie dei clienti e lavoriamo a ritroso per incorporare i loro pensieri nei nostri prodotti. In questo post, siamo felici di riassumere i risultati del nostro duro lavoro nel 2023 per migliorare e semplificare la governance dei dati per i clienti.
Abbiamo annunciato le nostre nuove funzionalità e capacità durante AWS re:Invent 2023, come è nostra consuetudine ogni anno. Di seguito sono riportati gli interventi di re:Invent 2023 che mostrano le funzionalità di Lake Formation e Data Catalog:
Raggruppiamo le nuove funzionalità in quattro categorie:
- Scopri e proteggi
- Connettiti con la condivisione dei dati
- Scala e ottimizza
- Controllare e monitorare
Andiamo più a fondo e discutiamo delle nuove funzionalità introdotte nel 2023.
Scopri e proteggi
Utilizzando Lake Formation e Data Catalog come elementi fondamentali, noi lanciato Amazon DataZone nell'ottobre 2023. DataZone è un servizio di gestione dei dati che semplifica e velocizza la catalogazione, il rilevamento, la condivisione e la gestione dei dati archiviati su AWS, in locale e su fonti di terze parti. I flussi di lavoro di pubblicazione e sottoscrizione di DataZone migliorano la collaborazione tra i vari ruoli della tua organizzazione e accelerano i tempi necessari per ricavare informazioni aziendali dai tuoi dati. Puoi migliorare i metadati tecnici del Catalogo dati utilizzando gli assistenti basati sull'intelligenza artificiale nei metadati aziendali di DataZone, rendendoli più facilmente rilevabili. DataZone gestisce automaticamente i permessi dei tuoi dati condivisi nei progetti DataZone. Per ulteriori informazioni su DataZone, fare riferimento a Guida per l'utente. Benvenuto in DataZone!
Crawler di AWS Glue classificare i dati per determinare il formato, lo schema e le proprietà associate dei dati grezzi, raggruppare i dati in tabelle o partizioni e scrivere metadati nel Catalogo dati. Nel 2023 abbiamo rilasciato diversi aggiornamenti ai crawler di AWS Glue. Abbiamo aggiunto la possibilità di portare il tuo versioni personalizzate dei driver JDBC nei crawler per estrarre schemi di dati dalle origini dati e popolare il Data Catalog. Per ottimizzare il recupero delle partizioni e migliorare le prestazioni delle query, abbiamo aggiunto la funzionalità per i crawler aggiungere automaticamente gli indici delle partizioni per le tabelle appena scoperte. Anche noi crawler integrati con Lake Formation, che supporta autorizzazioni centralizzate per la scansione in-account e su più account dei data Lake S3. Questi sono alcuni miglioramenti molto ricercati che semplificano il rilevamento dei metadati utilizzando i crawler. Crawler, saluti!
Abbiamo anche assistito a un enorme aumento nell'utilizzo di formati di tabelle aperte (OTF) come Linux Foundation Delta Lake, Apache Iceberge Apache Hudi. Per supportare questi OTF popolari, abbiamo aggiunto il supporto per eseguire la scansione nativa di questi tre formati di tabella nel Data Catalog. Inoltre, abbiamo lavorato con altri servizi di analisi AWS, come Amazon EMR, per abilitare le autorizzazioni granulari di Lake Formation su tutti e tre i formati di tabella aperti. Ti invitiamo a esplorare quali funzionalità di Lake Formation sono supportate per le tabelle OTF. Ben integro!
Man mano che le origini e i tipi di dati aumentano nel tempo, prima o poi avrai sicuramente tipi di dati nidificati nel tuo data Lake. Per portare la governance dei dati in questi set di dati senza appiattirli, Lake Formation ha aggiunto il supporto per controlli di accesso capillari su tipi di dati e colonne nidificati. Abbiamo anche aggiunto il supporto per i controlli di accesso capillari di Lake Formation durante l'esecuzione Lavori Apache Hive su Amazon EMR su EC2 e Amazon EMR Studio. Con Amazon EMR senza server, il controllo degli accessi a grana fine con Lake Formation è ora disponibile in anteprima. Collega i punti!
In AWS lavoriamo a stretto contatto con i nostri clienti per comprendere la loro esperienza. Siamo arrivati a capire che l'onboarding a Lake Formation da Gestione dell'identità e dell'accesso di AWS (IAM) per Amazon S3 e il catalogo dati di AWS Glue potrebbero essere semplificati. Ci siamo resi conto che i tuoi casi d'uso necessitano di maggiore flessibilità nella governance dei dati. Con il modalità di accesso ibrido in Lake Formation abbiamo introdotto l'aggiunta selettiva delle autorizzazioni Lake Formation per alcuni utenti e database, senza interrompere altri utenti e carichi di lavoro. Puoi definire una tabella di catalogo in modalità ibrida e concedere l'accesso a nuovi utenti come analisti di dati e scienziati di dati utilizzando Lake Formation mentre le pipeline di produzione di estrazione, trasformazione e caricamento (ETL) continuano a utilizzare le autorizzazioni esistenti basate su IAM. Doppia vittoria!
Parliamo di gestione delle identità. Puoi utilizzare entità IAM, Amazon QuickSight utenti e gruppi, account esterni ed entità IAM in account esterni per concedere l'accesso alle risorse di Data Catalog in Lake Formation. E la vostra identità aziendale? Hai bisogno di creare e mantenere più ruoli IAM e associarli a varie identità aziendali? Potresti vedere il ruolo IAM che ha effettuato l'accesso alla tabella, ma come puoi scoprire quale utente ha effettuato l'accesso? Per rispondere a queste domande, Lake Formation integrato con AWS IAM Identity Center e ha aggiunto la funzionalità per la propagazione dell'identità attendibile. In questo modo puoi concedere autorizzazioni di accesso capillari alle identità dal provider di identità esistente della tua organizzazione. Altro Servizi di analisi AWS supportano anche la propagazione dell'identità dell'utente. I tuoi revisori ora possono vedere che user giovanni@anycompany.com, ad esempio, aveva effettuato l'accesso alla tabella gestita da Lake Formation utilizzando le autorizzazioni Amazzone Atena, Amazon EMR e Spettro Amazon Redshift. Integrazione facile!
Ora non devi preoccuparti di spostare i dati o copiare il catalogo dati in un'altra regione AWS per utilizzare i servizi AWS per la governance dei dati. Abbiamo ampliato e realizzato Formazione lacustre disponibile in tutte le regioni in 2023. Et voilà!
Connettiti con la condivisione dei dati
Lake Formation fornisce un modo semplice per condividere oggetti di Data Catalog come database e tabelle con utenti interni ed esterni. Questo meccanismo offre alle organizzazioni un accesso rapido e sicuro ai dati e accelera il processo decisionale aziendale. Esaminiamo le nuove funzionalità e i miglioramenti apportati nel 2023 su questo tema.
Il catalogo dati di AWS Glue è il componente centrale e fondamentale della governance dei dati sia per Lake Formation che per DataZone. Nel 2023 abbiamo esteso il Catalogo dati tramite la federazione a integrarsi con metastore Apache Hive esterni ed Condivisioni di dati Redshift. Abbiamo anche messo a disposizione il codice del connettore, che puoi personalizzare per connettere Data Catalog con metastore aggiuntivi compatibili con Apache Hive. Queste integrazioni aprono la strada per inserire più metadati nel Catalogo dati e consentono controlli di accesso dettagliati e la condivisione di queste risorse tra gli account AWS senza sforzo con le autorizzazioni di Lake Formation. Abbiamo anche aggiunto il supporto per accedere alla tabella del catalogo dati di una regione da altre regioni utilizzando collegamenti a risorse tra regioni. Questo miglioramento semplifica molti casi d'uso per evitare la duplicazione dei metadati.
Grazie alla Federazione dei laghi AWS CloudTrail funzionalità, puoi scoprire, analizzare, unire e condividere i dati CloudTrail Lake con altre origini dati in Data Catalog. Per CloudTrail Lake, tramite Athena sono disponibili controlli di accesso granulari e funzionalità di query e visualizzazione.
Abbiamo ulteriormente esteso le funzionalità di Data Catalog per supportare uniform visualizzazioni nel tuo data Lake. Puoi creare visualizzazioni utilizzando diversi dialetti SQL ed eseguire query da Athena, Redshift Spectrum e Amazon EMR. Ciò consente di mantenere le autorizzazioni a livello di vista e di non condividere le singole tabelle. La funzionalità delle visualizzazioni del Catalogo dati è disponibile in anteprima, annunciato al re:Invent 2023.
Scala e ottimizza
Man mano che le query SQL diventano più complesse con le modifiche dei dati nel tempo o presentano più join, un ottimizzatore basato sui costi (CBO) può guidare ottimizzazioni nel piano di query e portare a prestazioni più veloci, in base alle statistiche dei dati nelle tabelle. Nel 2023 abbiamo aggiunto il supporto per statistiche a livello di colonna per le tabelle nel Catalogo dati. I clienti stanno già riscontrando miglioramenti nelle prestazioni delle query in Athena e Redshift Spectrum, con le statistiche delle colonne delle tabelle attivate. Suivez les chiffres!
Il controllo degli accessi basato su tag elimina la necessità di aggiornare le policy ogni volta che una nuova risorsa viene aggiunta al data Lake. Gli amministratori di Data Lake creano invece tag Lake Formation (tag LF) per taggare oggetti Data Catalog e concedono l'accesso in base a questi tag LF a utenti e gruppi. Nel 2023 abbiamo aggiunto il supporto per Delega del tag LF, in cui gli amministratori di Data Lake possono concedere autorizzazioni ai data steward e ad altri utenti per gestire i tag LF senza la necessità di privilegi di amministratore. Democratizzazione del tag LF!
Il formato Apache Iceberg utilizza i metadati per tenere traccia dei file di dati che compongono la tabella. Le modifiche alle tabelle, come inserimenti o aggiornamenti, comportano la creazione di nuovi file di dati. Man mano che il numero di file di dati per una tabella aumenta, le query che utilizzano quella tabella possono diventare meno efficienti. Per migliorare le prestazioni delle query sulla tabella Iceberg, è necessario ridurre il numero di file di dati compattando i file Change Capture più piccoli in file più grandi. Gli utenti in genere creano ed eseguono script per eseguire l'ottimizzazione di questi file di tabelle Iceberg nei propri server o tramite AWS Glue ETL. Per alleviare questa complessa manutenzione dei tavoli Iceberg, i clienti si sono rivolti a noi per trovare una soluzione migliore. Abbiamo introdotto la funzionalità per compattazione automatica delle tabelle Apache Iceberg nel Catalogo dati. Dopo aver attivato la compattazione automatica, Data Catalog gestisce automaticamente i metadati della tabella e fornisce un layout Amazon S3 sempre ottimizzato per le tue tabelle Iceberg. Per saperne di più, dai un'occhiata Ottimizzazione delle tabelle Iceberg. Automatico!
Controllare e monitorare
Sapere chi ha accesso a quali dati è una componente fondamentale della governance dei dati. I revisori devono verificare che in Lake Formation e nel Data Catalog siano impostati i metadati e le autorizzazioni per i dati corretti. Gli amministratori di Data Lake hanno accesso completo alle autorizzazioni e ai metadati e possono concedere l'accesso ai dati stessi. Per fornire ai revisori la possibilità di cercare ed esaminare le autorizzazioni per i metadati senza concedere loro l'accesso per apportare modifiche alle autorizzazioni, abbiamo introdotto la funzionalità ruolo di amministratore di sola lettura nella formazione del lago. Questo ruolo ti consente di controllare i metadati del catalogo, le autorizzazioni di Lake Formation e i tag LF, impedendogli di apportare modifiche.
Conclusione
Abbiamo trascorso un 2023 straordinario, sviluppando miglioramenti dei prodotti per aiutarti a semplificare e migliorare la governance dei dati utilizzando Lake Formation e Data Catalog. Ti invitiamo a provare queste nuove funzionalità. Di seguito è riportato un elenco dei nostri post di lancio come riferimento:
- Funzionalità del catalogo dati e del crawler:
- Caratteristiche della formazione del lago:
Continueremo a innovare per conto dei nostri clienti nel 2024. Condividi i tuoi pensieri, casi d'uso e feedback per i miglioramenti dei nostri prodotti nella sezione commenti o tramite i team del tuo account AWS. Vi auguriamo un felice e prospero 2024. Bonne année!
Circa gli autori
Aarthi Srinivasan è Senior Big Data Architect presso AWS Lake Formation. Le piace creare soluzioni di data lake per clienti e partner AWS. Quando non è alla tastiera, esplora le ultime tendenze della scienza e della tecnologia e trascorre del tempo con la sua famiglia.
Leon Stigter è un Senior Technical Product Manager presso AWS Lake Formation. L'obiettivo di Leon è aiutare gli sviluppatori a creare data lake più velocemente, con una connettività continua agli strumenti analitici, per trasformare i dati in informazioni rivoluzionarie. Leon è interessato ai dati e alle tecnologie serverless e gli piace esplorare diverse città nella sua missione di assaggiare la cheesecake ovunque vada.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :ha
- :È
- :non
- :Dove
- $ SU
- 100
- 125
- 2023
- 2024
- a
- capacità
- WRI
- accesso
- Accesso ai dati
- accessibile
- Il mio account
- conti
- operanti in
- aggiungere
- aggiunto
- aggiunta
- aggiuntivo
- amministratori
- Dopo shavasana, sedersi in silenzio; saluti;
- AI-alimentato
- Tutti
- alleviare
- consentire
- consente
- già
- anche
- stupefacente
- Amazon
- Amazon EMR
- Amazon Web Services
- an
- Gli analisti
- Analitico
- analitica
- analizzare
- ed
- ha annunciato
- Un altro
- rispondere
- in qualsiasi
- Apache
- SONO
- AS
- assistenti
- associato
- At
- revisione
- revisori dei conti
- Automatico
- automaticamente
- disponibile
- evitare
- AWS
- Colla AWS
- Formazione AWS Lake
- AWS re: Invent
- basato
- BE
- diventare
- per conto
- essendo
- Meglio
- fra
- Big
- Big Data
- maggiore
- Blocchi
- entrambi
- legato
- portare
- costruire
- Costruzione
- costruito
- affari
- ma
- by
- è venuto
- Materiale
- funzionalità
- catturare
- casi
- catalogo
- categoria
- centrale
- centralizzata
- il cambiamento
- Modifiche
- dai un'occhiata
- Città
- classificare
- strettamente
- collaborazione
- Colonna
- COM
- Commenti
- complesso
- componente
- Connettiti
- Connettività
- continua
- di controllo
- controlli
- copiatura
- Aziende
- potuto
- crawler
- creare
- creato
- critico
- costume
- cliente
- Clienti
- personalizzare
- dati
- Lago di dati
- gestione dei dati
- banche dati
- dataset
- Decision Making
- più profondo
- definire
- Delta
- derivare
- Determinare
- sviluppatori
- in via di sviluppo
- diverso
- scopri
- scoperto
- scoperta
- discutere
- immersione
- do
- fatto
- Dont
- guidare
- driver
- durante
- facilmente
- efficiente
- senza sforzo
- Potenzia
- enable
- incoraggiare
- accrescere
- aumento
- miglioramenti
- Etere (ETH)
- Ogni
- ovunque
- esempio
- esistente
- ampliato
- esperienza
- esplora
- esplora
- Esplorare
- esterno
- estratto
- famiglia
- più veloce
- caratteristica
- Caratteristiche
- Federazione
- feedback
- File
- Trovate
- Flessibilità
- Focus
- i seguenti
- Nel
- modulo
- formato
- formazione
- Fondazione
- Fondamentale
- quattro
- da
- pieno
- ulteriormente
- Inoltre
- ottenere
- Dare
- dà
- va
- governare
- la governance
- concedere
- rilascio
- Gruppo
- Gruppo
- cresce
- ha avuto
- contento
- Hard
- fatica
- Avere
- he
- Aiuto
- aiutare
- suo
- il suo
- Alveare
- Come
- HTML
- HTTPS
- IBRIDO
- IAM
- identità
- Identità
- gestione dell'identità
- competenze
- miglioramenti
- in
- incorporare
- Aumento
- individuale
- innovare
- Inserti
- intuizioni
- invece
- integrale
- integrato
- Integrazione
- integrazioni
- interessato
- interno
- ai miglioramenti
- introdotto
- invitare
- IT
- stessa
- Offerte di lavoro
- join
- Entra a far parte
- mantenere
- lago
- laghi
- dopo
- con i più recenti
- lanciare
- disposizione
- portare
- IMPARARE
- meno
- Livello
- piace
- piace
- linux
- fondazione linux
- Lista
- caricare
- fatto
- mantenere
- manutenzione
- make
- FA
- Fare
- gestire
- gestito
- gestione
- direttore
- gestisce
- molti
- carta geografica
- meccanismo
- Metadati
- Missione
- Moda
- Scopri di più
- in movimento
- molti
- multiplo
- Bisogno
- New
- Nuove funzionalità
- nuovi utenti
- recentemente
- adesso
- numero
- oggetti
- ottobre
- of
- on
- Procedura di Onboarding
- ONE
- aprire
- ottimizzazione
- OTTIMIZZA
- Opzione
- or
- organizzazione
- organizzazioni
- Altro
- nostro
- su
- ancora
- proprio
- parte
- partner
- pavimentare
- eseguire
- performance
- permessi
- piano
- Platone
- Platone Data Intelligence
- PlatoneDati
- per favore
- Termini e Condizioni
- Popolare
- Post
- Post
- presidi
- privilegi
- Prodotto
- product manager
- Produzione
- Prodotti
- progetti
- propagazione
- proprietà
- prospero
- fornire
- fornitore
- fornisce
- editoriale
- query
- Domande
- Presto
- Crudo
- dati grezzi
- RE
- realizzato
- ridurre
- riferimento
- riferimento
- regione
- regioni
- rilasciato
- rimuove
- risorsa
- Risorse
- limitando
- colpevole
- Risultati
- richiamo
- recensioni
- destra
- Aumento
- Ruolo
- ruoli
- Correre
- running
- Scienze
- Scienza e Tecnologia
- scienziati
- script
- senza soluzione di continuità
- Cerca
- Sezione
- sicuro
- vedere
- vedendo
- visto
- selettivo
- anziano
- serverless
- server
- servizio
- Servizi
- set
- alcuni
- Condividi
- condiviso
- compartecipazione
- lei
- vetrina
- Un'espansione
- semplifica
- semplificare
- inferiore
- soluzione
- Soluzioni
- alcuni
- fonti
- Spettro
- velocità
- velocità
- SQL
- statistica
- conservazione
- memorizzati
- Storie
- lineare
- aerodinamico
- sottoscrizione
- tale
- riassumere
- supporto
- supportato
- Supporto
- tavolo
- TAG
- Parlare
- trattativa
- chiavi
- le squadre
- Consulenza
- Tecnologie
- Tecnologia
- che
- Il
- loro
- Li
- tema
- Strumenti Bowman per analizzare le seguenti finiture:
- di parti terze standard
- questo
- tre
- Attraverso
- tempo
- a
- strumenti
- pista
- Trasformare
- enorme
- tendenze
- di fiducia
- prova
- TURNO
- Turned
- Tipi di
- tipicamente
- per
- capire
- Aggiornanento
- Aggiornamenti
- us
- Impiego
- uso
- Utente
- utenti
- usa
- utilizzando
- CONVALIDARE
- vario
- molto
- Visualizza
- visualizzazioni
- Modo..
- we
- sito web
- servizi web
- Che
- quando
- quale
- while
- OMS
- volere
- con
- senza
- Lavora
- lavorato
- flussi di lavoro
- preoccuparsi
- scrivere
- anno
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro