AWS Lake-Formation und für AWS-Kleber Der Datenkatalog ist ein integraler Bestandteil einer Data-Governance-Lösung für darauf aufbauende Data Lakes Amazon Simple Storage-Service (Amazon S3) mit mehreren darin integrierten AWS-Analysediensten. In 2022sprachen wir über die Verbesserungen, die wir an diesen Diensten vorgenommen hatten. Wir hören weiterhin auf die Geschichten unserer Kunden und arbeiten rückwärts, um ihre Gedanken in unsere Produkte zu integrieren. In diesem Beitrag fassen wir gerne die Ergebnisse unserer harten Arbeit im Jahr 2023 zusammen, um die Datenverwaltung für Kunden zu verbessern und zu vereinfachen.
Wie jedes Jahr haben wir unsere neuen Funktionen und Fähigkeiten während der AWS re:Invent 2023 angekündigt. Im Folgenden finden Sie Vorträge zu re:Invent 2023, in denen die Möglichkeiten von Lake Formation und Data Catalog vorgestellt werden:
Wir gruppieren die neuen Funktionen in vier Kategorien:
- Entdecken und sichern
- Verbinden Sie sich mit Datenaustausch
- Skalieren und optimieren
- Auditieren und überwachen
Lassen Sie uns tiefer eintauchen und die neuen Funktionen besprechen, die im Jahr 2023 eingeführt werden.
Entdecken und sichern
Mit Lake Formation und dem Datenkatalog als Grundbausteinen haben wir ins Leben gerufen Amazon DataZone im Oktober 2023. DataZone ist ein Datenverwaltungsdienst, der es Ihnen schneller und einfacher macht, Daten zu katalogisieren, zu entdecken, zu teilen und zu verwalten, die in AWS, vor Ort und aus Drittquellen gespeichert sind. Die Veröffentlichungs- und Abonnement-Workflows von DataZone verbessern die Zusammenarbeit zwischen verschiedenen Rollen in Ihrem Unternehmen und verkürzen die Zeit, um aus Ihren Daten geschäftliche Erkenntnisse abzuleiten. Sie können die technischen Metadaten des Datenkatalogs mithilfe von KI-gestützten Assistenten in Geschäftsmetadaten von DataZone umwandeln und sie so leichter auffindbar machen. DataZone verwaltet automatisch die Berechtigungen Ihrer freigegebenen Daten in den DataZone-Projekten. Weitere Informationen zu DataZone finden Sie im User Guide. Bienvenue in DataZone!
AWS Glue Crawler Klassifizieren Sie Daten, um das Format, das Schema und die zugehörigen Eigenschaften der Rohdaten zu bestimmen, gruppieren Sie Daten in Tabellen oder Partitionen und schreiben Sie Metadaten in den Datenkatalog. Im Jahr 2023 haben wir mehrere Updates für AWS Glue-Crawler veröffentlicht. Wir haben die Möglichkeit hinzugefügt, Ihre mitzubringen benutzerdefinierte Versionen von JDBC-Treibern in Crawlern um Datenschemata aus Ihren Datenquellen zu extrahieren und den Datenkatalog zu füllen. Um den Partitionsabruf zu optimieren und die Abfrageleistung zu verbessern, haben wir die Funktion für Crawler hinzugefügt Partitionsindizes automatisch hinzufügen für neu entdeckte Tabellen. wir auch integrierte Crawler mit Lake Formation, unterstützt zentralisierte Berechtigungen für das kontointerne und kontoübergreifende Crawling von S3 Data Lakes. Dies sind einige sehr gefragte Verbesserungen, die Ihre Metadatenerkennung mithilfe von Crawlern vereinfachen. Crawler, salut!
Wir haben auch einen enormen Anstieg bei der Verwendung von Open-Table-Formaten (OTFs) wie Linux Foundation Delta Lake, Apache Eisberg und Apache Hudi. Um diese beliebten OTFs zu unterstützen, haben wir Unterstützung für das native Crawlen dieser drei Tabellenformate in den Datenkatalog hinzugefügt. Darüber hinaus haben wir mit anderen AWS-Analysediensten zusammengearbeitet, wie z Amazon EMR, um differenzierte Berechtigungen für Lake Formation zu aktivieren alle drei offenen Tabellenformate. Wir ermutigen Sie, die Gegend zu erkunden welche Features von Lake Formation für OTF-Tabellen unterstützt werden. Bien integré!
Da die Datenquellen und -typen im Laufe der Zeit zunehmen, werden Sie früher oder später zwangsläufig verschachtelte Datentypen in Ihrem Data Lake haben. Um die Datenverwaltung für diese Datensätze zu verbessern, ohne sie zu verflachen, hat Lake Formation Unterstützung für fein abgestimmte Zugriffskontrollen hinzugefügt verschachtelte Datentypen und Spalten. Wir haben außerdem Unterstützung für die differenzierte Zugriffskontrolle von Lake Formation während der Ausführung hinzugefügt Apache Hive-Jobs auf Amazon EMR auf EC2 und Amazon EMR-Studio. Mit Amazon EMR ohne Server, feinkörnige Zugangskontrolle mit Lake Formation ist jetzt in der Vorschau verfügbar. Verbinde die Punkte!
Bei AWS arbeiten wir sehr eng mit unseren Kunden zusammen, um ihre Erfahrungen zu verstehen. Wir haben das Onboarding nach Lake Formation verstanden AWS Identity and Access Management and (IAM)-basierte Berechtigungen für Amazon S3 und den AWS Glue Data Catalog könnten optimiert werden. Wir haben erkannt, dass Ihre Anwendungsfälle mehr Flexibilität bei der Datenverwaltung benötigen. Mit dem Hybrider Zugriffsmodus In Lake Formation haben wir das selektive Hinzufügen von Lake Formation-Berechtigungen für einige Benutzer und Datenbanken eingeführt, ohne andere Benutzer und Arbeitslasten zu unterbrechen. Sie können eine Katalogtabelle im Hybridmodus definieren und neuen Benutzern wie Datenanalysten und Datenwissenschaftlern mithilfe von Lake Formation Zugriff gewähren, während Ihre Produktionspipelines zum Extrahieren, Transformieren und Laden (ETL) weiterhin ihre vorhandenen IAM-basierten Berechtigungen verwenden. Doppelter Sieg!
Lassen Sie uns über Identitätsmanagement sprechen. Sie können IAM-Prinzipale verwenden, Amazon Quicksight Benutzer und Gruppen sowie externe Konten und IAM-Prinzipale in externen Konten, um Zugriff auf Data Catalog-Ressourcen in Lake Formation zu gewähren. Wie sieht es mit Ihren Corporate Identities aus? Müssen Sie mehrere IAM-Rollen erstellen und verwalten und diese verschiedenen Unternehmensidentitäten zuordnen? Sie konnten die IAM-Rolle sehen, die auf die Tabelle zugegriffen hat, aber wie können Sie herausfinden, welcher Benutzer darauf zugegriffen hat? Um diese Fragen zu beantworten, Lake Formation integriert mit AWS IAM Identity Center und die Funktion zur Weitergabe vertrauenswürdiger Identitäten hinzugefügt. Damit können Sie den Identitäten des bestehenden Identitätsanbieters Ihrer Organisation fein abgestufte Zugriffsberechtigungen erteilen. Andere AWS-Analysedienste unterstützen auch die weiterzugebende Benutzeridentität. Ihre Prüfer können den Benutzer nun sehen john@anycompany.comBeispielsweise hatte er über Berechtigungen auf die von Lake Formation verwaltete Tabelle zugegriffen Amazonas Athena, Amazon EMR und Amazon Redshift-Spektrum. Einfache Integration!
Jetzt müssen Sie sich keine Gedanken mehr über das Verschieben der Daten oder das Kopieren des Datenkatalogs in eine andere AWS-Region machen, um die AWS-Services für die Datenverwaltung zu nutzen. Wir haben erweitert und gemacht Seeformation in allen Regionen verfügbar . Et voila!
Verbinden Sie sich mit Datenaustausch
Lake Formation bietet eine unkomplizierte Möglichkeit, Datenkatalogobjekte wie Datenbanken und Tabellen für interne und externe Benutzer freizugeben. Dieser Mechanismus ermöglicht Unternehmen einen schnellen und sicheren Zugriff auf Daten und beschleunigt ihre Geschäftsentscheidungen. Sehen wir uns die neuen Funktionen und Verbesserungen an, die im Jahr 2023 unter diesem Thema vorgenommen wurden.
Der AWS Glue-Datenkatalog ist die zentrale und grundlegende Komponente der Datenverwaltung für Lake Formation und DataZone. Im Jahr 2023 haben wir den Datenkatalog durch eine Föderation erweitert Integration mit externen Apache Hive-Metastores und Redshift-Datenfreigaben. Wir haben auch zur Verfügung gestellt den Steckercode, das Sie anpassen können, um den Datenkatalog mit zusätzlichen Apache Hive-kompatiblen Metastores zu verbinden. Diese Integrationen ebnen den Weg für die Aufnahme weiterer Metadaten in den Datenkatalog und ermöglichen fein abgestimmte Zugriffskontrollen und die mühelose gemeinsame Nutzung dieser Ressourcen über AWS-Konten hinweg mit Lake Formation-Berechtigungen. Wir haben außerdem Unterstützung für den Zugriff auf die Datenkatalogtabelle einer Region aus anderen Regionen hinzugefügt Regionsübergreifende Ressourcenlinks. Diese Verbesserung vereinfacht viele Anwendungsfälle, um die Duplizierung von Metadaten zu vermeiden.
Mit der AWS CloudTrail Lake-Verbund Mit dieser Funktion können Sie CloudTrail Lake-Daten mit anderen Datenquellen in Data Catalog entdecken, analysieren, verknüpfen und teilen. Für CloudTrail Lake stehen über Athena fein abgestimmte Zugriffskontrollen sowie Abfrage- und Visualisierungsfunktionen zur Verfügung.
Wir haben die Funktionen des Datenkatalogs weiter erweitert, um Uniform zu unterstützen Ansichten in Ihrem Datensee. Sie können Ansichten mit verschiedenen SQL-Dialekten und Abfragen von Athena, Redshift Spectrum und Amazon EMR erstellen. Dadurch können Sie Berechtigungen auf Ansichtsebene beibehalten und nicht die einzelnen Tabellen freigeben. Die Funktion „Datenkatalogansichten“ ist in der Vorschau verfügbar, angekündigt auf der re:Invent 2023.
Skalieren und optimieren
Da SQL-Abfragen komplexer werden, da sich die Daten im Laufe der Zeit ändern oder mehrere Verknüpfungen aufweisen, kann ein kostenbasierter Optimierer (CBO) Optimierungen im Abfrageplan vorantreiben und basierend auf Statistiken der Daten in den Tabellen zu einer schnelleren Leistung führen. Im Jahr 2023 haben wir Unterstützung für hinzugefügt Statistiken auf Spaltenebene für Tabellen im Datenkatalog. Kunden sehen bereits Verbesserungen der Abfrageleistung in Athena und Redshift Spectrum, wenn die Tabellenspaltenstatistik aktiviert ist. Suivez les chiffres!
Dank der Tag-basierten Zugriffskontrolle müssen Sie Ihre Richtlinien nicht jedes Mal aktualisieren, wenn dem Data Lake eine neue Ressource hinzugefügt wird. Stattdessen erstellen Data Lake-Administratoren Lake Formation Tags (LF-Tags), um Data Catalog-Objekte zu kennzeichnen und Benutzern und Gruppen Zugriff auf diese LF-Tags zu gewähren. Im Jahr 2023 haben wir Unterstützung für hinzugefügt LF-Tag-DelegationHier können Data-Lake-Administratoren Datenverwaltern und anderen Benutzern Berechtigungen zur Verwaltung von LF-Tags erteilen, ohne dass Administratorrechte erforderlich sind. LF-Tag-Demokratisierung!
Das Apache Iceberg-Format verwendet Metadaten, um den Überblick über die Datendateien zu behalten, aus denen die Tabelle besteht. Änderungen an Tabellen, wie etwa Einfügungen oder Aktualisierungen, führen zur Erstellung neuer Datendateien. Wenn die Anzahl der Datendateien für eine Tabelle zunimmt, können die Abfragen, die diese Tabelle verwenden, weniger effizient werden. Um die Abfrageleistung für die Iceberg-Tabelle zu verbessern, müssen Sie die Anzahl der Datendateien reduzieren, indem Sie die kleineren Änderungserfassungsdateien in größere Dateien komprimieren. Benutzer erstellen und führen normalerweise Skripts aus, um die Optimierung dieser Iceberg-Tabellendateien auf ihren eigenen Servern oder über AWS Glue ETL durchzuführen. Um diese komplexe Wartung der Iceberg-Tische zu vereinfachen, wandten sich Kunden mit der Bitte um eine bessere Lösung an uns. Wir haben die Funktion für eingeführt automatische Komprimierung von Apache Iceberg-Tabellen im Datenkatalog. Nachdem Sie die automatische Komprimierung aktiviert haben, verwaltet der Datenkatalog automatisch die Metadaten der Tabelle und bietet Ihnen ein stets optimiertes Amazon S3-Layout für Ihre Iceberg-Tabellen. Weitere Informationen finden Sie unter Optimierung von Iceberg-Tischen. Automatisch!
Auditieren und überwachen
Zu wissen, wer Zugriff auf welche Daten hat, ist ein entscheidender Bestandteil der Datenverwaltung. Prüfer müssen überprüfen, ob in Lake Formation und im Datenkatalog die richtigen Metadaten und Datenberechtigungen festgelegt sind. Data-Lake-Administratoren haben vollen Zugriff auf Berechtigungen und Metadaten und können Zugriff auf die Daten selbst gewähren. Um Prüfern die Möglichkeit zu geben, Metadatenberechtigungen zu durchsuchen und zu überprüfen, ohne ihnen Zugriff zum Vornehmen von Änderungen an Berechtigungen zu gewähren, haben wir Folgendes eingeführt: schreibgeschützte Administratorrolle in der Seeformation. Mit dieser Rolle können Sie die Katalogmetadaten sowie die Lake Formation-Berechtigungen und LF-Tags prüfen und gleichzeitig verhindern, dass daran Änderungen vorgenommen werden.
Zusammenfassung
Wir hatten ein fantastisches Jahr 2023 und haben Produktverbesserungen entwickelt, die Ihnen dabei helfen, Ihre Datenverwaltung mithilfe von Lake Formation und Data Catalog zu vereinfachen und zu verbessern. Wir laden Sie ein, diese neuen Funktionen auszuprobieren. Im Folgenden finden Sie eine Liste unserer Einführungsbeiträge als Referenz:
- Datenkatalog- und Crawler-Funktionen:
- Merkmale der Seeformation:
Wir werden auch im Jahr 2024 im Namen unserer Kunden Innovationen vorantreiben. Bitte teilen Sie uns Ihre Gedanken, Anwendungsfälle und Ihr Feedback zu unseren Produktverbesserungen im Kommentarbereich oder über Ihre AWS-Kontoteams mit. Wir wünschen Ihnen ein glückliches und erfolgreiches Jahr 2024. Guten Rutsch ins Neue Jahr!
Über die Autoren
Aarthi Srinivasan ist Senior Big Data Architect bei AWS Lake Formation. Sie entwickelt gerne Data-Lake-Lösungen für AWS-Kunden und -Partner. Wenn sie nicht an der Tastatur sitzt, erforscht sie die neuesten Wissenschafts- und Technologietrends und verbringt Zeit mit ihrer Familie.
Leon Stigter ist Senior Technical Product Manager bei AWS Lake Formation. Leons Fokus liegt darauf, Entwicklern dabei zu helfen, Data Lakes schneller aufzubauen, mit nahtloser Konnektivität zu Analysetools, um Daten in bahnbrechende Erkenntnisse umzuwandeln. Leon interessiert sich für Daten und serverlose Technologien und erkundet gerne verschiedene Städte auf seiner Mission, überall Käsekuchen zu probieren.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :hast
- :Ist
- :nicht
- :Wo
- $UP
- 100
- 125
- 2023
- 2024
- a
- Fähigkeit
- Über Uns
- Zugang
- Zugriff auf Daten
- Zugriff
- Konto
- Trading Konten
- über
- hinzufügen
- hinzugefügt
- Zusatz
- Zusätzliche
- Administratoren
- Nach der
- AI-powered
- Alle
- lindern
- erlauben
- erlaubt
- bereits
- ebenfalls
- erstaunlich
- Amazon
- Amazon EMR
- Amazon Web Services
- an
- Business Analysten
- Analytische
- Analytik
- analysieren
- und
- angekündigt
- Ein anderer
- beantworten
- jedem
- Apache
- SIND
- AS
- Assistenten
- damit verbundenen
- At
- Prüfung
- Abschlussprüfer
- automatische
- Im Prinzip so, wie Sie es von Google Maps kennen.
- verfügbar
- vermeiden
- AWS
- AWS-Kleber
- AWS Lake-Formation
- AWS re: Invent
- basierend
- BE
- werden
- Namen
- Sein
- Besser
- zwischen
- Big
- Big Data
- größer
- Blockiert
- beide
- gebunden
- bringen
- bauen
- Building
- erbaut
- Geschäft
- aber
- by
- kam
- CAN
- Fähigkeiten
- Erfassung
- Fälle
- Katalog
- Kategorien
- Hauptgeschäftsstelle
- zentralisierte
- Übernehmen
- Änderungen
- aus der Ferne überprüfen
- Orte
- klassifizieren
- eng
- Zusammenarbeit
- Kolonne
- COM
- Bemerkungen
- Komplex
- Komponente
- Vernetz Dich
- Konnektivität
- fortsetzen
- Smartgeräte App
- Steuerung
- Kopieren
- Unternehmen
- könnte
- Crawler
- erstellen
- erstellt
- kritischem
- Original
- Kunde
- Kunden
- anpassen
- technische Daten
- Datensee
- Datenmanagement
- Datenbanken
- Datensätze
- Decision Making
- tiefer
- definieren
- Delta
- ableiten
- Bestimmen
- Entwickler
- Entwicklung
- anders
- entdeckt,
- entdeckt
- Entdeckung
- diskutieren
- tauchen
- do
- erledigt
- Nicht
- Antrieb
- Treiber
- im
- leicht
- effizient
- mühelos
- befähigt
- ermöglichen
- ermutigen
- zu steigern,
- Erweiterung
- Verbesserungen
- Äther (ETH)
- Jedes
- überall
- Beispiel
- vorhandenen
- ergänzt
- ERFAHRUNGEN
- ERKUNDEN
- erforscht
- Möglichkeiten sondieren
- verlängert
- extern
- Extrakt
- Familie
- beschleunigt
- Merkmal
- Eigenschaften
- Föderation
- Feedback
- Mappen
- Finden Sie
- Flexibilität
- Setzen Sie mit Achtsamkeit
- Folgende
- Aussichten für
- unten stehende Formular
- Format
- Ausbildung
- Foundation
- Grundlegender
- vier
- für
- voller
- weiter
- Außerdem
- bekommen
- ABSICHT
- gibt
- Goes
- regieren
- Governance
- gewähren
- Gewährung
- Gruppe an
- Gruppen
- Wächst
- hätten
- glücklich
- hart
- harte Arbeit
- Haben
- he
- Hilfe
- Unternehmen
- hier (auf dänisch)
- seine
- Bienenstock
- Ultraschall
- HTML
- HTTPS
- Hybrid
- IAM
- Identitäten
- Identitätsschutz
- Identity Management
- zu unterstützen,
- Verbesserungen
- in
- integrieren
- Erhöhung
- Krankengymnastik
- wir innovieren
- Einsätze
- Einblicke
- beantragen müssen
- Integral
- integriert
- Integration
- Integrationen
- interessiert
- intern
- in
- eingeführt
- einladen
- IT
- selbst
- Jobs
- join
- Joins
- Behalten
- See
- Seen
- später
- neueste
- starten
- Layout
- führen
- LERNEN
- weniger
- Niveau
- Gefällt mir
- Gleichen
- linux
- Linux-Stiftung
- Liste
- Belastung
- gemacht
- halten
- Wartung
- um
- MACHT
- Making
- verwalten
- verwaltet
- Management
- Manager
- Managed
- viele
- Karte
- Mechanismus
- Metadaten
- Ziel
- Model
- mehr
- ziehen um
- viel
- mehrere
- Need
- Neu
- Neue Funktionen
- neue Nutzer
- neu
- jetzt an
- Anzahl
- Objekte
- Oktober
- of
- on
- Einsteigen
- EINEM
- XNUMXh geöffnet
- Optimierung
- Optimieren
- Option
- or
- Organisation
- Organisationen
- Andere
- UNSERE
- übrig
- besitzen
- Teil
- pflastern
- ausführen
- Leistung
- Berechtigungen
- Plan
- Plato
- Datenintelligenz von Plato
- PlatoData
- Bitte
- Politik durchzulesen
- Beliebt
- Post
- BLOG-POSTS
- Auftraggeber
- Privilegien
- Produkt
- Produkt-Manager
- Produktion
- Produkte
- Projekte
- Fortpflanzung
- immobilien
- wohlhabend
- die
- Versorger
- bietet
- Publishing
- Abfragen
- Fragen
- Direkt
- Roh
- Rohdaten
- RE
- realisiert
- Veteran
- siehe
- Referenz
- Region
- Regionen
- freigegeben
- entfernt
- Ressourcen
- Downloads
- einschränkend
- Folge
- Die Ergebnisse
- Abruf
- Überprüfen
- Recht
- Rise
- Rollen
- Rollen
- Führen Sie
- Laufen
- Wissenschaft
- Wissenschaft und Technologie
- Wissenschaftler
- Skripte
- nahtlos
- Suche
- Abschnitt
- Verbindung
- sehen
- Sehen
- gesehen
- selektiv
- Senior
- Serverlos
- Server
- Lösungen
- kompensieren
- mehrere
- Teilen
- von Locals geführtes
- ,,teilen"
- sie
- präsentiert
- Einfacher
- Vereinfacht
- vereinfachen
- kleinere
- Lösung
- Lösungen
- einige
- Quellen
- Spektrum
- Geschwindigkeit
- Geschwindigkeiten
- SQL
- Statistiken
- Lagerung
- gelagert
- Geschichten
- einfach
- gestrafft
- Abonnement
- so
- zusammenfassen
- Support
- Unterstützte
- Unterstützung
- Tabelle
- TAG
- Reden
- Gespräche
- Geschmack
- Teams
- Technische
- Technologies
- Technologie
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- Sie
- Thema
- Diese
- basierte Online-to-Offline-Werbezuordnungen von anderen gab.
- fehlen uns die Worte.
- nach drei
- Durch
- Zeit
- zu
- Werkzeuge
- verfolgen sind
- Transformieren
- enorm
- Trends
- vertraut
- versuchen
- WENDE
- Turned
- Typen
- typisch
- für
- verstehen
- Aktualisierung
- Updates
- us
- Anwendungsbereich
- -
- Mitglied
- Nutzer
- verwendet
- Verwendung von
- BESTÄTIGEN
- verschiedene
- sehr
- Anzeigen
- Ansichten
- Weg..
- we
- Netz
- Web-Services
- Was
- wann
- welche
- während
- WHO
- werden wir
- mit
- ohne
- Arbeiten
- gearbeitet
- Workflows
- Sorgen
- schreiben
- Jahr
- U
- Ihr
- Zephyrnet