Formația lacului AWS si AWS Adeziv Catalogul de date face parte integrantă a unei soluții de guvernanță a datelor pentru lacurile de date construite Serviciul Amazon de stocare simplă (Amazon S3) cu mai multe servicii de analiză AWS care se integrează cu acestea. În 2022, am vorbit despre îmbunătățirile pe care le-am adus acestor servicii. Continuăm să ascultăm poveștile clienților și să lucrăm înapoi pentru a le incorpora gândurile în produsele noastre. În această postare, suntem bucuroși să rezumam rezultatele muncii noastre asidue din 2023 pentru a îmbunătăți și simplifica guvernanța datelor pentru clienți.
Am anunțat noile noastre funcții și capabilități în timpul AWS re:Invent 2023, așa cum este obiceiul nostru în fiecare an. Următoarele sunt discuții re:Invent 2023 care prezintă capacitățile privind formarea lacului și catalogul de date:
Grupăm noile capabilități în patru categorii:
- Descoperiți și asigurați-vă
- Conectați-vă cu partajarea datelor
- Scalați și optimizați
- Audit și monitorizare
Să ne aprofundăm și să discutăm despre noile capabilități introduse în 2023.
Descoperiți și asigurați-vă
Folosind Lake Formation și Data Catalogul ca elemente de bază, noi a lansat Amazon DataZone în octombrie 2023. DataZone este un serviciu de gestionare a datelor care vă face mai rapidă și mai simplă să catalogați, să descoperiți, să partajați și să guvernați datele stocate în AWS, la sediu și surse terțe. Fluxurile de lucru de publicare și abonare ale DataZone îmbunătățesc colaborarea între diferitele roluri din organizația dvs. și accelerează timpul pentru a obține informații despre afaceri din datele dvs. Puteți îmbunătăți metadatele tehnice ale Catalogului de date folosind asistenți bazați pe inteligență artificială în metadatele de afaceri ale DataZone, făcându-l mai ușor de descoperit. DataZone gestionează automat permisiunile datelor dvs. partajate în proiectele DataZone. Pentru a afla mai multe despre DataZone, consultați Manual de utilizare. Bienvenue în DataZone!
Crawlerele AWS Glue clasificați datele pentru a determina formatul, schema și proprietățile asociate ale datelor brute, grupați datele în tabele sau partiții și scrieți metadate în Catalogul de date. În 2023, am lansat mai multe actualizări ale crawlerelor AWS Glue. Am adăugat posibilitatea de a vă aduce versiuni personalizate ale driverelor JDBC în crawlere pentru a extrage scheme de date din sursele dvs. de date și pentru a popula Catalogul de date. Pentru a optimiza recuperarea partițiilor și a îmbunătăți performanța interogărilor, am adăugat caracteristica pentru crawler-uri adăugați automat indici de partiții pentru tabele nou descoperite. Noi Deasemenea crawler integrate cu Lake Formation, care acceptă permisiuni centralizate pentru accesarea cu crawlere în cont și între conturi a lacurilor de date S3. Acestea sunt câteva îmbunătățiri mult căutate care vă simplifică descoperirea metadatelor folosind crawlerele. Crawlers, salut!
Am văzut, de asemenea, o creștere extraordinară a utilizării formatelor de tabele deschise (OTF) precum Linux Foundation Delta Lake, Apache Iceberg, și Apache Hudi. Pentru a sprijini aceste OTF-uri populare, am adăugat suport pentru accesarea cu crawlere nativă a acestor trei formate de tabel în Catalogul de date. În plus, am lucrat cu alte servicii de analiză AWS, cum ar fi Amazon EMR, pentru a activa permisiunile detaliate pentru Lake Formation toate cele trei formate de tabel deschise. Vă încurajăm să explorați care caracteristici ale Lake Formation sunt acceptate pentru tabelele OTF. Bine integrat!
Pe măsură ce sursele și tipurile de date cresc în timp, este neapărat să aveți tipuri de date imbricate în lacul dvs. de date, mai devreme sau mai târziu. Pentru a aduce guvernanța datelor acestor seturi de date fără a le aplatiza, Lake Formation a adăugat suport pentru controale de acces detaliate pe tipuri de date și coloane imbricate. Am adăugat, de asemenea, suport pentru controalele detaliate de acces Lake Formation în timpul rulării Locuri de muncă Apache Hive pe Amazon EMR pe EC2 și pe Amazon EMR Studio. Cu Amazon EMR fără server, controlul de acces fin cu Lake Formation este acum disponibil în previzualizare. Conectați-vă punctele!
La AWS, lucrăm îndeaproape cu clienții noștri pentru a le înțelege experiența. Am ajuns să înțelegem că îmbarcarea în Lake Formation din Gestionarea identității și accesului AWS Permisiunile bazate pe Amazon S3 și AWS Glue Data Catalog ar putea fi optimizate. Ne-am dat seama că cazurile dvs. de utilizare au nevoie de mai multă flexibilitate în guvernarea datelor. Cu modul de acces hibrid în Lake Formation, am introdus adăugarea selectivă a permisiunilor Lake Formation pentru unii utilizatori și baze de date, fără a întrerupe alți utilizatori și încărcături de lucru. Puteți defini un tabel de catalog în modul hibrid și puteți acorda acces noilor utilizatori, cum ar fi analiștii de date și oamenii de știință de date, care utilizează Lake Formation, în timp ce conductele dvs. de extragere, transformare și încărcare (ETL) de producție continuă să-și folosească permisiunile existente bazate pe IAM. Dublă victorie!
Să vorbim despre managementul identității. Puteți utiliza principii IAM, Amazon Quicksight utilizatorii și grupurile și conturile externe și directorii IAM în conturile externe pentru a acorda acces la resursele Data Catalog din Lake Formation. Dar identitățile tale corporative? Trebuie să creați și să mențineți mai multe roluri IAM și să le mapați la diverse identități corporative? Ați putea vedea rolul IAM care a accesat tabelul, dar cum ați putea afla ce utilizator l-a accesat? Pentru a răspunde la aceste întrebări, Lake Formation integrat cu AWS IAM Identity Center și a adăugat caracteristica pentru propagarea identității de încredere. Cu aceasta, puteți acorda permisiuni de acces detaliate identităților de la furnizorul de identitate existent al organizației dvs. Alte Servicii de analiză AWS acceptă, de asemenea, identitatea utilizatorului care urmează să fie propagată. Auditorii dvs. pot vedea acum că utilizatorul john@anycompany.com, de exemplu, a accesat tabelul gestionat de permisiunile Lake Formation folosind Amazon Atena, Amazon EMR și Amazon Redshift Spectrum. Integrare usoara!
Acum nu trebuie să vă faceți griji cu privire la mutarea datelor sau la copierea catalogului de date într-o altă regiune AWS pentru a utiliza serviciile AWS pentru guvernarea datelor. Ne-am extins și am făcut Formarea lacului disponibilă în toate regiunile în 2023. Și gata!
Conectați-vă cu partajarea datelor
Lake Formation oferă o modalitate simplă de a partaja obiecte Catalog de date, cum ar fi baze de date și tabele, cu utilizatori interni și externi. Acest mecanism oferă organizațiilor acces rapid și sigur la date și accelerează luarea deciziilor de afaceri. Să analizăm noile funcții și îmbunătățiri aduse în 2023 sub această temă.
Catalogul de date AWS Glue este componenta centrală și de bază a guvernării datelor atât pentru Lake Formation, cât și pentru DataZone. În 2023, am extins Catalogul de date prin federație la se integrează cu metamagazine externe Apache Hive și Redshift partajări de date. Am pus și noi la dispoziție codul conectorului, pe care îl puteți personaliza pentru a conecta Catalogul de date cu metamagazine suplimentare compatibile cu Apache Hive. Aceste integrări deschid calea pentru a obține mai multe metadate în Catalogul de date și permit controale detaliate ale accesului și partajarea acestor resurse între conturile AWS fără efort, cu permisiunile Lake Formation. De asemenea, am adăugat suport pentru a accesa tabelul Catalog de date al unei regiuni din alte regiuni folosind link-uri de resurse între regiuni. Această îmbunătățire simplifică multe cazuri de utilizare pentru a evita duplicarea metadatelor.
Cu Federația AWS CloudTrail Lake funcția, puteți descoperi, analiza, alătura și partaja datele CloudTrail Lake cu alte surse de date în Data Catalog. Pentru CloudTrail Lake, controalele detaliate ale accesului și capabilitățile de interogare și vizualizare sunt disponibile prin Athena.
Am extins în continuare capabilitățile Data Catalog pentru a sprijini uniforma vizualizari peste lacul dvs. de date. Puteți crea vizualizări folosind diferite dialecte SQL și interogări de la Athena, Redshift Spectrum și Amazon EMR. Acest lucru vă permite să mențineți permisiunile la nivel de vizualizare și să nu partajați tabelele individuale. Caracteristica de vizualizare a catalogului de date este disponibil în previzualizare, anunțat la re:Invent 2023.
Scalați și optimizați
Pe măsură ce interogările SQL devin mai complexe odată cu modificările datelor de-a lungul timpului sau au mai multe îmbinări, un optimizator bazat pe costuri (CBO) poate genera optimizări în planul de interogare și poate duce la o performanță mai rapidă, pe baza statisticilor datelor din tabele. În 2023, am adăugat suport pentru statistici la nivel de coloană pentru tabelele din Catalogul de date. Clienții văd deja îmbunătățiri ale performanței interogărilor în Athena și Redshift Spectrum, cu statisticile coloanelor din tabel activate. Suivez les chiffres!
Controlul accesului bazat pe etichete elimină nevoia de a vă actualiza politicile de fiecare dată când o nouă resursă este adăugată la lacul de date. În schimb, administratorii lacurilor de date creează etichete de formare a lacului (LF-Tags) pentru a eticheta obiectele Data Catalog și pentru a acorda acces pe baza acestor LF-Tags utilizatorilor și grupurilor. În 2023, am adăugat suport pentru Delegarea LF-Tag, unde administratorii lacului de date pot acorda permisiuni administratorilor de date și altor utilizatori pentru a gestiona LF-Tags fără a fi nevoie de privilegii de administrator. LF-Tag democratizare!
Formatul Apache Iceberg folosește metadate pentru a ține evidența fișierelor de date care alcătuiesc tabelul. Modificările aduse tabelelor, cum ar fi inserările sau actualizările, au ca rezultat crearea de noi fișiere de date. Pe măsură ce numărul de fișiere de date pentru un tabel crește, interogările care utilizează acel tabel pot deveni mai puțin eficiente. Pentru a îmbunătăți performanța interogărilor pe tabelul Iceberg, trebuie să reduceți numărul de fișiere de date prin compactarea fișierelor mai mici de captare a modificărilor în fișiere mai mari. De obicei, utilizatorii creează și rulează scripturi pentru a realiza optimizarea acestor fișiere de tabel Iceberg pe propriile servere sau prin AWS Glue ETL. Pentru a ușura această întreținere complexă a meselor Iceberg, clienții ne-au abordat pentru o soluție mai bună. Am introdus caracteristica pentru compactarea automată a meselor Apache Iceberg în Catalogul de date. După ce activați compactarea automată, Catalogul de date gestionează automat metadatele tabelului și vă oferă un aspect Amazon S3 mereu optimizat pentru tabelele dvs. Iceberg. Pentru a afla mai multe, verificați Optimizarea meselor Iceberg. Automat!
Audit și monitorizare
A ști cine are acces la ce date este o componentă critică a guvernării datelor. Auditorii trebuie să valideze că metadatele și permisiunile potrivite pentru date sunt setate în Lake Formation și Catalogul de date. Administratorii lacului de date au acces deplin la permisiuni și metadate și pot acorda acces la datele în sine. Pentru a oferi auditorilor o opțiune de a căuta și revizui permisiunile pentru metadate fără a le acorda acces pentru a face modificări la permisiuni, am introdus rol de administrator numai în citire în Formarea Lacului. Acest rol vă permite să auditați metadatele de catalog și permisiunile Lake Formation și LF-Tags, restricționând în același timp să le modifice.
Concluzie
Am avut un 2023 uimitor, dezvoltăm îmbunătățiri ale produselor pentru a vă ajuta să simplificați și să vă îmbunătățiți guvernarea datelor folosind Lake Formation și Data Catalog. Vă invităm să încercați aceste noi funcții. Următoarea este o listă a postărilor noastre de lansare pentru referință:
- Catalog de date și funcții crawler:
- Caracteristicile formării lacului:
Vom continua să inovăm în numele clienților noștri în 2024. Vă rugăm să vă împărtășiți gândurile, cazurile de utilizare și feedback-ul pentru îmbunătățirile produselor noastre în secțiunea de comentarii sau prin echipele dvs. de cont AWS. Vă dorim un 2024 fericit și prosper. An Nou Fericit!
Despre autori
Aarthi Srinivasan este arhitect senior Big Data cu AWS Lake Formation. Îi place să construiască soluții de lac de date pentru clienții și partenerii AWS. Când nu este pe tastatură, ea explorează cele mai recente tendințe din știință și tehnologie și își petrece timpul cu familia.
Leon Stigter este Senior Technical Product Manager la AWS Lake Formation. Se concentrează pe Leon să ajute dezvoltatorii să construiască mai repede lacurile de date, cu conectivitate perfectă la instrumente analitice, pentru a transforma datele în perspective care schimbă jocul. Leon este interesat de tehnologiile de date și serverless și îi place să exploreze diferite orașe în misiunea sa de a gusta cheesecake oriunde merge.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :are
- :este
- :nu
- :Unde
- $UP
- 100
- 125
- 2023
- 2024
- a
- capacitate
- Despre Noi
- acces
- Acces la date
- accesate
- Cont
- Conturi
- peste
- adăuga
- adăugat
- plus
- Suplimentar
- administratori
- După
- AI-alimentat
- TOATE
- atenua
- permite
- permite
- deja
- de asemenea
- uimitor
- Amazon
- Amazon EMR
- Amazon Web Services
- an
- analiști
- Analitic
- Google Analytics
- analiza
- și
- a anunțat
- O alta
- răspunde
- Orice
- Apache
- SUNT
- AS
- asistenți
- asociate
- At
- de audit
- auditori
- Automat
- în mod automat
- disponibil
- evita
- AWS
- AWS Adeziv
- Formația lacului AWS
- AWS re: Inventează
- bazat
- BE
- deveni
- folosul
- fiind
- Mai bine
- între
- Mare
- Datele mari
- mai mare
- Blocuri
- atât
- legat
- aduce
- construi
- Clădire
- construit
- afaceri
- dar
- by
- a venit
- CAN
- capacități
- captura
- cazuri
- catalog
- categorii
- central
- centralizat
- Schimbare
- Modificări
- verifica
- Oraşe
- Clasifica
- îndeaproape
- colaborare
- Coloană
- COM
- comentarii
- complex
- component
- Conectați
- Suport conectare
- continua
- Control
- controale
- copiere
- Istoria
- ar putea
- tractor pe şenile
- crea
- a creat
- critic
- personalizat
- client
- clienţii care
- personaliza
- de date
- Lacul de date
- management de date
- baze de date
- seturi de date
- Luarea deciziilor
- Mai adânc
- defini
- Deltă
- deriva
- Determina
- Dezvoltatorii
- în curs de dezvoltare
- diferit
- descoperi
- a descoperit
- descoperire
- discuta
- scufunda
- do
- făcut
- Dont
- conduce
- drivere
- în timpul
- cu ușurință
- eficient
- efort
- imputerniceste
- permite
- încuraja
- spori
- sporire
- îmbunătățiri
- Eter (ETH)
- Fiecare
- pretutindeni
- exemplu
- existent
- extins
- experienţă
- explora
- Explorează
- Explorarea
- extins
- extern
- extrage
- familie
- mai repede
- Caracteristică
- DESCRIERE
- Federaţie
- feedback-ul
- Fişiere
- Găsi
- Flexibilitate
- Concentra
- următor
- Pentru
- formă
- format
- formare
- Fundație
- foundational
- patru
- din
- Complet
- mai mult
- În plus
- obține
- Da
- oferă
- Merge
- guverna
- guvernare
- acordarea
- acordarea
- grup
- Grupului
- creste
- HAD
- fericit
- Greu
- greu de lucru
- Avea
- he
- ajutor
- ajutor
- ei
- lui
- Stup
- Cum
- HTML
- HTTPS
- Hibrid
- IAM
- identitățile
- Identitate
- gestionarea identității
- îmbunătăţi
- îmbunătățiri
- in
- incorpora
- Crește
- individ
- inova
- inserții
- perspective
- in schimb
- integrală
- integrate
- integrarea
- integrările
- interesat
- intern
- în
- introdus
- invita
- IT
- în sine
- Locuri de munca
- alătura
- Se alătură
- A pastra
- lac
- lacuri
- mai tarziu
- Ultimele
- lansa
- Aspect
- conduce
- AFLAȚI
- mai puțin
- Nivel
- ca
- îi place
- linux
- fundația linux
- Listă
- încărca
- făcut
- menține
- întreținere
- face
- FACE
- Efectuarea
- administra
- gestionate
- administrare
- manager
- gestionează
- multe
- Hartă
- mecanism
- Metadata
- Misiune
- mod
- mai mult
- în mişcare
- mult
- multiplu
- Nevoie
- Nou
- Funcții noi
- noi utilizatori
- recent
- acum
- număr
- obiecte
- octombrie
- of
- on
- La imbarcare
- ONE
- deschide
- optimizare
- Optimizați
- Opțiune
- or
- organizație
- organizații
- Altele
- al nostru
- afară
- peste
- propriu
- parte
- parteneri
- Pave
- efectua
- performanță
- permisiuni
- plan
- Plato
- Informații despre date Platon
- PlatoData
- "vă rog"
- Politicile
- Popular
- Post
- postări
- directori
- privilegii
- Produs
- manager de produs
- producere
- Produse
- Proiecte
- propagare
- proprietăţi
- prosper
- furniza
- furnizorul
- furnizează
- Editare
- interogări
- Întrebări
- Rapid
- Crud
- date neprelucrate
- RE
- realizat
- reduce
- trimite
- referință
- regiune
- regiuni
- eliberat
- Îndepărtează
- resursă
- Resurse
- restricționarea
- rezultat
- REZULTATE
- regăsire
- revizuiască
- dreapta
- Ridica
- Rol
- rolurile
- Alerga
- funcţionare
- Ştiinţă
- Ştiinţă şi Tehnologie
- oamenii de stiinta
- script-uri
- fără sudură
- Caută
- Secțiune
- sigur
- vedea
- vedere
- văzut
- selectiv
- senior
- serverless
- servere
- serviciu
- Servicii
- set
- câteva
- Distribuie
- comun
- partajarea
- ea
- simbolizeazã
- simplu
- Simplifică
- simplifica
- mai mici
- soluţie
- soluţii
- unele
- Surse
- Spectru
- viteză
- viteze
- SQL
- statistică
- depozitare
- stocate
- Istorii
- simplu
- raționalizate
- abonament
- astfel de
- rezuma
- a sustine
- Suportat
- De sprijin
- tabel
- TAG
- Vorbi
- Tratative
- gust
- echipe
- Tehnic
- Tehnologii
- Tehnologia
- acea
- lor
- Lor
- temă
- Acestea
- terț
- acest
- trei
- Prin
- timp
- la
- Unelte
- urmări
- Transforma
- extraordinar
- Tendinţe
- de încredere
- încerca
- ÎNTORCĂ
- transformat
- Tipuri
- tipic
- în
- înţelege
- Actualizează
- actualizări
- us
- Folosire
- utilizare
- Utilizator
- utilizatorii
- utilizări
- folosind
- VALIDA
- diverse
- foarte
- Vizualizare
- vizualizari
- Cale..
- we
- web
- servicii web
- Ce
- cand
- care
- în timp ce
- OMS
- voi
- cu
- fără
- Apartamente
- a lucrat
- fluxuri de lucru
- face griji
- scrie
- an
- tu
- Ta
- zephyrnet