Erzwingen Sie eine fein abgestimmte Zugriffskontrolle für offene Tabellenformate über Amazon EMR, integriert mit AWS Lake Formation | Amazon Web Services

Neuauflage von Plato

Verfolger: 0

Mit der Amazon EMR 6.15, wir haben gestartet AWS Lake-Formation basierend auf feinkörnigen Zugriffskontrollen (FGAC) auf Open Table Formats (OTFs), einschließlich Apache Hudi, Apache Iceberg und Delta Lake. Dadurch können Sie Sicherheit und Governance vereinfachen Transaktionsdatenseen indem Sie für Ihre Apache Spark-Jobs Zugriffskontrollen auf Tabellen-, Spalten- und Zeilenebene bereitstellen. Viele große Unternehmen möchten ihren Transaktionsdatensee nutzen, um Erkenntnisse zu gewinnen und die Entscheidungsfindung zu verbessern. Sie können eine Lake-House-Architektur mithilfe von Amazon EMR erstellen, das in Lake Formation für FGAC integriert ist. Mit dieser Kombination von Diensten können Sie Datenanalysen für Ihren Transaktionsdatensee durchführen und gleichzeitig einen sicheren und kontrollierten Zugriff gewährleisten.

Die Amazon EMR-Datensatzserverkomponente unterstützt Datenfilterungsfunktionen auf Tabellen-, Spalten-, Zeilen-, Zellen- und verschachtelter Attributebene. Es erweitert die Unterstützung auf die Formate Hive, Apache Hudi, Apache Iceberg und Delta Lake sowohl für Lese- (einschließlich Zeitreisen und inkrementelle Abfragen) als auch für Schreibvorgänge (auf DML-Anweisungen wie INSERT). Darüber hinaus führt Amazon EMR mit Version 6.15 einen Zugriffskontrollschutz für seine Anwendungs-Webschnittstelle ein, z. B. den Spark History Server auf dem Cluster, den Yarn Timeline Server und die Yarn Resource Manager-Benutzeroberfläche.

In diesem Beitrag zeigen wir, wie man FGAC implementiert Apache Hudi Tabellen mithilfe von Amazon EMR, integriert mit Lake Formation.

Anwendungsfall für den Transaktionsdatensee

Amazon EMR-Kunden nutzen häufig Open Table Formats, um ihre ACID-Transaktions- und Zeitreiseanforderungen in einem Data Lake zu unterstützen. Durch die Beibehaltung historischer Versionen bietet Data Lake Time Travel Vorteile wie Auditing und Compliance, Datenwiederherstellung und Rollback, reproduzierbare Analyse und Datenexploration zu verschiedenen Zeitpunkten.

Ein weiterer beliebter Anwendungsfall für den Transaktionsdatensee ist die inkrementelle Abfrage. Inkrementelle Abfrage bezieht sich auf eine Abfragestrategie, die sich darauf konzentriert, nur die neuen oder aktualisierten Daten in einem Datensee seit der letzten Abfrage zu verarbeiten und zu analysieren. Der Kerngedanke inkrementeller Abfragen besteht darin, mithilfe von Metadaten oder Änderungsverfolgungsmechanismen die neuen oder geänderten Daten seit der letzten Abfrage zu identifizieren. Durch die Identifizierung dieser Änderungen kann die Abfrage-Engine die Abfrage so optimieren, dass nur die relevanten Daten verarbeitet werden, wodurch die Verarbeitungszeit und der Ressourcenbedarf erheblich reduziert werden.

Lösungsüberblick

In diesem Beitrag zeigen wir, wie man FGAC auf Apache Hudi-Tabellen mit Amazon EMR implementiert Amazon Elastic Compute-Cloud (Amazon EC2) integriert mit Lake Formation. Apache Hudi ist ein Open-Source-Transaktions-Data-Lake-Framework, das die inkrementelle Datenverarbeitung und die Entwicklung von Datenpipelines erheblich vereinfacht. Diese neue FGAC-Funktion unterstützt alle OTF. Neben der Demonstration mit Hudi hier werden wir weitere OTF-Tabellen in anderen Blogs veröffentlichen. Wir gebrauchen Laptops in Amazon SageMaker-Studio um Hudi-Daten über verschiedene Benutzerzugriffsberechtigungen über einen EMR-Cluster zu lesen und zu schreiben. Dies spiegelt reale Datenzugriffsszenarien wider – wenn beispielsweise ein technischer Benutzer vollständigen Datenzugriff zur Fehlerbehebung auf einer Datenplattform benötigt, während Datenanalysten möglicherweise nur auf eine Teilmenge dieser Daten zugreifen müssen, die keine personenbezogenen Daten (PII) enthalten ). Integration mit Lake Formation über die Amazon EMR-Laufzeitrolle Darüber hinaus können Sie Ihre Datensicherheit verbessern und die Datenkontrollverwaltung für Amazon EMR-Workloads vereinfachen. Diese Lösung gewährleistet eine sichere und kontrollierte Umgebung für den Datenzugriff und erfüllt die unterschiedlichen Bedürfnisse und Sicherheitsanforderungen verschiedener Benutzer und Rollen in einer Organisation.

Das folgende Diagramm zeigt die Lösungsarchitektur.

Lösungsarchitektur

Wir führen einen Datenaufnahmeprozess durch, um einen Hudi-Datensatz in einen hochzuladen (zu aktualisieren und einzufügen). Amazon Simple Storage-Service (Amazon S3)-Bucket und behalten Sie das Tabellenschema im bei oder aktualisieren Sie es AWS-Kleber Datenkatalog. Ohne Datenbewegung können wir die von Lake Formation verwaltete Hudi-Tabelle über verschiedene AWS-Dienste abfragen, z Amazonas Athena, Amazon EMR und Amazon Sage Maker.

Wenn Benutzer einen Spark-Job über einen beliebigen EMR-Cluster-Endpunkt (EMR Steps, Livy, EMR Studio und SageMaker) übermitteln, validiert Lake Formation ihre Berechtigungen und weist den EMR-Cluster an, vertrauliche Daten wie PII-Daten herauszufiltern.

Diese Lösung verfügt über drei verschiedene Benutzertypen mit unterschiedlichen Berechtigungsstufen für den Zugriff auf die Hudi-Daten:

hudi-db-creator-role – Dies wird vom Data Lake-Administrator verwendet, der über Berechtigungen zum Ausführen von DDL-Vorgängen wie dem Erstellen, Ändern und Löschen von Datenbankobjekten verfügt. Sie können Datenfilterregeln für Lake Formation für die Datenzugriffskontrolle auf Zeilen- und Spaltenebene definieren. Diese FGAC-Regeln stellen sicher, dass der Data Lake gesichert ist und die erforderlichen Datenschutzbestimmungen erfüllt.
hudi-table-pii-role – Dies wird von technischen Benutzern verwendet. Die technischen Benutzer sind in der Lage, Zeitreisen und inkrementelle Abfragen sowohl für Copy-on-Write (CoW) als auch für Merge-on-Read (MoR) durchzuführen. Sie haben außerdem das Recht, auf PII-Daten basierend auf beliebigen Zeitstempeln zuzugreifen.
hudi-table-non-pii-role – Dies wird von Datenanalysten verwendet. Die Datenzugriffsrechte von Datenanalysten werden durch von der FGAC autorisierte Regeln geregelt, die von Data-Lake-Administratoren kontrolliert werden. Spalten mit PII-Daten wie Namen und Adressen sind nicht sichtbar. Darüber hinaus können sie nicht auf Datenzeilen zugreifen, die bestimmte Bedingungen nicht erfüllen. Beispielsweise können die Benutzer nur auf Datenzeilen zugreifen, die zu ihrem Land gehören.

Voraussetzungen:

Sie können die drei in diesem Beitrag verwendeten Notizbücher unter herunterladen GitHub Repo.

Stellen Sie vor der Bereitstellung der Lösung sicher, dass Sie über Folgendes verfügen:

Führen Sie die folgenden Schritte aus, um Ihre Berechtigungen einzurichten:

Melden Sie sich mit Ihrem IAM-Administratorbenutzer bei Ihrem AWS-Konto an.

Stellen Sie sicher, dass Sie in derus-east-1Region.

Erstellen Sie einen S3-Bucket im us-east-1 Region (z. B.emr-fgac-hudi-us-east-1-<ACCOUNT ID>).

Als nächstes aktivieren wir die Lake-Formation Ändern des Standardberechtigungsmodells.

Melden Sie sich als Administratorbenutzer bei der Lake Formation-Konsole an.
Auswählen Datenkatalogeinstellungen für Verwaltung im Navigationsbereich.
Der Standardberechtigungen für neu erstellte Datenbanken und Tabellen, Abwählen Verwenden Sie für neue Datenbanken nur die IAM-Zugriffssteuerung und Verwenden Sie nur die IAM-Zugriffssteuerung für neue Tabellen in neuen Datenbanken.
Auswählen Speichern.

Datenkatalogeinstellungen

Alternativ müssen Sie IAMAllowedPrincipals für Ressourcen (Datenbanken und Tabellen) widerrufen, die erstellt wurden, wenn Sie Lake Formation mit der Standardoption gestartet haben.

Abschließend erstellen wir ein Schlüsselpaar für Amazon EMR.

Wählen Sie auf der Amazon EC2-Konsole Schlüsselpaare im Navigationsbereich.
Auswählen Schlüsselpaar erstellen.
Aussichten für Name und Vorname, geben Sie einen Namen ein (z. Bemr-fgac-hudi-keypair).
Auswählen Schlüsselpaar erstellen.

Schlüsselpaar erstellen

Das generierte Schlüsselpaar (für diesen Beitrag emr-fgac-hudi-keypair.pem) wird auf Ihrem lokalen Computer gespeichert.

Als nächstes erstellen wir ein AWS Cloud9 interaktive Entwicklungsumgebung (IDE).

Wählen Sie in der AWS Cloud9-Konsole aus Environments im Navigationsbereich.
Auswählen Umgebung erstellen.
Aussichten für Name und Vorname¸ Geben Sie einen Namen ein (z. B.emr-fgac-hudi-env).
Behalten Sie die anderen Einstellungen als Standard bei.

Cloud9-Umgebung

Auswählen Erstellen.
Wenn die IDE bereit ist, wählen Sie Offen um es zu öffnen.

cloud9-Umgebung

In der AWS Cloud9-IDE auf der Reichen Sie das Menü, wählen Sie Laden Sie lokale Dateien hoch.

Lokale Datei hochladen

Laden Sie die Schlüsselpaardatei hoch (emr-fgac-hudi-keypair.pem).
Wählen Sie das Pluszeichen und wählen Sie aus Neues Terminal.

neues Terminal

Geben Sie im Terminal die folgenden Befehlszeilen ein:

#Create encryption certificates for EMR in transit encryption
openssl req -x509 
-newkey rsa:1024 
-keyout privateKey.pem 
-out certificateChain.pem 
-days 365 
-nodes 
-subj '/C=US/ST=Washington/L=Seattle/O=MyOrg/OU=MyDept/CN=*.compute.internal'

cp certificateChain.pem trustedCertificates.pem

# Zip certificates
zip -r -X my-certs.zip certificateChain.pem privateKey.pem trustedCertificates.pem

# Upload the certificates zip file to S3 bucket
# Replace <ACCOUNT ID> with your AWS account ID
aws s3 cp ./my-certs.zip s3://emr-fgac-hudi-us-east-1-<ACCOUNT ID>/my-certs.zip

Beachten Sie, dass der Beispielcode nur ein Proof of Concept zu Demonstrationszwecken ist. Verwenden Sie für Produktionssysteme eine vertrauenswürdige Zertifizierungsstelle (CA), um Zertifikate auszustellen. Beziehen auf Bereitstellung von Zertifikaten zur Verschlüsselung von Daten während der Übertragung mit Amazon EMR-Verschlüsselung für weitere Einzelheiten.

Stellen Sie die Lösung über AWS CloudFormation bereit

Wir bieten eine AWS CloudFormation Vorlage, die die folgenden Dienste und Komponenten automatisch einrichtet:

Ein S3-Bucket für den Data Lake. Es enthält den TPC-DS-Beispieldatensatz.
Ein EMR-Cluster mit aktivierter Sicherheitskonfiguration und öffentlichem DNS.
EMR-Laufzeit-IAM-Rollen mit differenzierten Lake Formation-Berechtigungen:
- -hudi-db-creator-role – Diese Rolle wird zum Erstellen von Apache Hudi-Datenbanken und -Tabellen verwendet.
- -hudi-table-pii-role – Diese Rolle bietet die Berechtigung zum Abfragen aller Spalten von Hudi-Tabellen, einschließlich Spalten mit PII.
- -hudi-table-non-pii-role – Diese Rolle bietet die Berechtigung zum Abfragen von Hudi-Tabellen, die PII-Spalten von Lake Formation herausgefiltert haben.
SageMaker Studio-Ausführungsrollen, die es den Benutzern ermöglichen, ihre entsprechenden EMR-Laufzeitrollen zu übernehmen.
Netzwerkressourcen wie VPC, Subnetze und Sicherheitsgruppen.

Führen Sie die folgenden Schritte aus, um die Ressourcen bereitzustellen:

Auswählen Schneller Stapel erstellen um den CloudFormation-Stack zu starten.
Aussichten für Stapelname, geben Sie einen Stack-Namen ein (z. B.rsv2-emr-hudi-blog).
Aussichten für Ec2KeyPairGeben Sie den Namen Ihres Schlüsselpaars ein.
Aussichten für IdleTimeoutGeben Sie ein Leerlauf-Timeout für den EMR-Cluster ein, um zu vermeiden, dass der Cluster bezahlt wird, wenn er nicht verwendet wird.
Aussichten für InitS3BucketGeben Sie den S3-Bucket-Namen ein, den Sie erstellt haben, um die ZIP-Datei des Amazon EMR-Verschlüsselungszertifikats zu speichern.
Aussichten für S3CertsZipGeben Sie den S3-URI der ZIP-Datei des Amazon EMR-Verschlüsselungszertifikats ein.

CloudFormation-Vorlage

Auswählen Ich erkenne an, dass AWS CloudFormation möglicherweise IAM-Ressourcen mit benutzerdefinierten Namen erstellt.
Auswählen Stapel erstellen.

Die Bereitstellung des CloudFormation-Stacks dauert etwa 10 Minuten.

Richten Sie Lake Formation für die Amazon EMR-Integration ein

Führen Sie die folgenden Schritte aus, um Lake Formation einzurichten:

Wählen Sie in der Lake Formation-Konsole aus Einstellungen zur Anwendungsintegration für Verwaltung im Navigationsbereich.
Auswählen Erlauben Sie externen Engines, Daten an Amazon S3-Standorten zu filtern, die bei Lake Formation registriert sind.
Auswählen Amazon EMR für Sitzungs-Tag-Werte.
Geben Sie Ihre AWS-Konto-ID ein AWS-Konto-IDs.
Auswählen Speichern.

LF – Einstellungen für die Anwendungsintegration

Auswählen Datenbanken für Datenkatalog im Navigationsbereich.
Auswählen Datenbank erstellen.
Aussichten für Name und Vorname, geben Sie den Standardwert ein.
Auswählen Datenbank erstellen.

LF - Datenbank erstellen

Auswählen Data Lake-Berechtigungen für Berechtigungen im Navigationsbereich.
Auswählen Gewähren.
Auswählen IAM-Benutzer und -Rollen.
Wählen Sie Ihre IAM-Rollen.
Aussichten für Datenbanken, wählen Sie Standard.
Aussichten für DatenbankberechtigungenWählen Beschreiben.
Auswählen Gewähren.

LF – Datenberechtigungen erteilen

Kopieren Sie die Hudi-JAR-Datei in Amazon EMR HDFS

Zu Verwenden Sie Hudi mit Jupyter-Notebooksmüssen Sie die folgenden Schritte für den EMR-Cluster ausführen, einschließlich des Kopierens einer Hudi-JAR-Datei aus dem lokalen Amazon EMR-Verzeichnis in den HDFS-Speicher, damit Sie eine Spark-Sitzung für die Verwendung von Hudi konfigurieren können:

Autorisieren Sie eingehenden SSH-Verkehr (Port 22).
Kopieren Sie den Wert für Öffentliches DNS des Primärknotens (z. B. ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) aus dem EMR-Cluster Zusammenfassung .

Zusammenfassung des EMR-Clusters

Kehren Sie zum vorherigen AWS Cloud9-Terminal zurück, das Sie zum Erstellen des EC2-Schlüsselpaars verwendet haben.
Führen Sie den folgenden Befehl aus, um eine SSH-Verbindung zum EMR-Primärknoten herzustellen. Ersetzen Sie den Platzhalter durch Ihren EMR-DNS-Hostnamen:

chmod 400 emr-fgac-hudi-keypair.pem
ssh -i emr-fgac-hudi-keypair.pem hadoop@ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com

Führen Sie den folgenden Befehl aus, um die Hudi-JAR-Datei nach HDFS zu kopieren:

hdfs dfs -mkdir -p /apps/hudi/lib
hdfs dfs -copyFromLocal /usr/lib/hudi/hudi-spark-bundle.jar /apps/hudi/lib/hudi-spark-bundle.jar

Erstellen Sie die Hudi-Datenbank und -Tabellen in Lake Formation

Jetzt können wir die Hudi-Datenbank und -Tabellen mit FGAC erstellen, das durch die EMR-Laufzeitrolle aktiviert wird. Der EMR-Laufzeitrolle ist eine IAM-Rolle, die Sie angeben können, wenn Sie einen Job oder eine Abfrage an einen EMR-Cluster senden.

Erteilen Sie die Berechtigung zum Erstellen einer Datenbank

Erteilen wir zunächst dem Ersteller der Lake Formation-Datenbank die Erlaubnis dazu<STACK-NAME>-hudi-db-creator-role:

Melden Sie sich als Administrator bei Ihrem AWS-Konto an.
Wählen Sie in der Lake Formation-Konsole aus Administrative Rollen und Aufgaben für Verwaltung im Navigationsbereich.
Bestätigen Sie, dass Ihr AWS-Anmeldebenutzer als Data Lake-Administrator hinzugefügt wurde.
Im Datenbankersteller Wählen Sie im Abschnitt Gewähren.
Aussichten für IAM-Benutzer und -Rollen, wählen<STACK-NAME>-hudi-db-creator-role.
Aussichten für KatalogberechtigungenWählen Datenbank erstellen.
Auswählen Gewähren.

Registrieren Sie den Data Lake-Standort

Als nächstes registrieren wir den S3-Data-Lake-Standort in Lake Formation:

Wählen Sie in der Lake Formation-Konsole aus Datenseestandorte für Verwaltung im Navigationsbereich.
Auswählen Ort registrieren.
Aussichten für Amazon S3-PfadWählen Sie Entdecken und wählen Sie den Data Lake S3-Bucket aus. (<STACK_NAME>s3bucket-XXXXXXX), erstellt aus dem CloudFormation-Stack.
Aussichten für IAM-Rolle, wählen<STACK-NAME>-hudi-db-creator-role.
Aussichten für BerechtigungsmodusWählen Seebildung.
Auswählen Ort registrieren.

LF – Standort registrieren

Erteilen Sie die Berechtigung zum Datenspeichern

Als nächstes müssen wir gewähren<STACK-NAME>-hudi-db-creator-roledie Datenspeicherungsberechtigung:

Wählen Sie in der Lake Formation-Konsole aus Datenstandorte für Berechtigungen im Navigationsbereich.
Auswählen Gewähren.
Aussichten für IAM-Benutzer und -Rollen, wählen<STACK-NAME>-hudi-db-creator-role.
Aussichten für Speicherorte, geben Sie den S3-Bucket ein (<STACK_NAME>-s3bucket-XXXXXXX).
Auswählen Gewähren.

LF – Berechtigungen erteilen

Stellen Sie eine Verbindung zum EMR-Cluster her

Lassen Sie uns nun ein Jupyter-Notebook in SageMaker Studio verwenden, um eine Verbindung zum EMR-Cluster mit der EMR-Laufzeitrolle des Datenbankerstellers herzustellen:

Wählen Sie in der SageMaker-Konsole Domains im Navigationsbereich.
Wählen Sie die Domäne<STACK-NAME>-Studio-EMR-LF-Hudi.
Auf dem Einführung Menü neben dem Benutzerprofil<STACK-NAME>-hudi-db-creator, wählen Studio.

SM – Domänendetails

Laden Sie das Notizbuch herunter rsv2-hudi-db-creator-notebook.
Wählen Sie das Upload-Symbol.

SM Studio – Hochladen

Wählen Sie das heruntergeladene Jupyter-Notizbuch aus und wählen Sie Offen.
Öffnen Sie das hochgeladene Notizbuch.
Aussichten für Bild, wählen FunkenMagie.
Aussichten für Kernel, wählen PySpark.
Belassen Sie die anderen Konfigurationen als Standard und wählen Sie Auswählen.

SM Studio – Umgebung ändern

Auswählen Cluster um eine Verbindung zum EMR-Cluster herzustellen.

SM Studio – EMR-Cluster verbinden

Wählen Sie den EMR-on-EC2-Cluster (<STACK-NAME>-EMR-Cluster), erstellt mit dem CloudFormation-Stack.
Auswählen Vernetz Dich.
Aussichten für EMR-Ausführungsrolle, wählen<STACK-NAME>-hudi-db-creator-role.
Auswählen Vernetz Dich.

Erstellen Sie Datenbanken und Tabellen

Jetzt können Sie den Schritten im Notebook folgen, um die Hudi-Datenbank und -Tabellen zu erstellen. Die wichtigsten Schritte sind wie folgt:

Wenn Sie das Notebook starten, konfigurieren Sie es“spark.sql.catalog.spark_catalog.lf.managed":"true"um Spark darüber zu informieren, dass spark_catalog durch Lake Formation geschützt ist.
Erstellen Sie Hudi-Tabellen mit dem folgenden Spark SQL.

%%sql 
CREATE TABLE IF NOT EXISTS ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}(
    c_customer_id string,
    c_birth_country string,
    c_customer_sk integer,
    c_email_address string,
    c_first_name string,
    c_last_name string,
    ts bigint
) USING hudi
LOCATION '${cow_table_location_sql}'
OPTIONS (
  type = 'cow',
  primaryKey = '${hudi_primary_key}',
  preCombineField = '${hudi_pre_combined_field}'
 ) 
PARTITIONED BY (${hudi_partitioin_field});

Fügen Sie Daten aus der Quelltabelle in die Hudi-Tabellen ein.

%%sql
INSERT OVERWRITE ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
SELECT 
    c_customer_id ,  
    c_customer_sk,
    c_email_address,
    c_first_name,
    c_last_name,
    unix_timestamp(current_timestamp()) AS ts,
    c_birth_country
FROM ${src_df_view}
WHERE c_birth_country = 'HONG KONG' OR c_birth_country = 'CHINA' 
LIMIT 1000

Fügen Sie die Daten erneut in die Hudi-Tabellen ein.

%%sql
INSERT INTO ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
SELECT 
    c_customer_id ,  
    c_customer_sk,
    c_email_address,
    c_first_name,
    c_last_name,
    unix_timestamp(current_timestamp()) AS ts,
    c_birth_country
FROM ${insert_into_view}

Fragen Sie die Hudi-Tabellen über Lake Formation mit FGAC ab

Nachdem Sie die Hudi-Datenbank und -Tabellen erstellt haben, können Sie die Tabellen mithilfe einer fein abgestimmten Zugriffskontrolle mit Lake Formation abfragen. Wir haben zwei Arten von Hudi-Tabellen erstellt: Copy-On-Write (COW) und Merge-On-Read (MOR). Die COW-Tabelle speichert Daten in einem Spaltenformat (Parquet) und jede Aktualisierung erstellt während eines Schreibvorgangs eine neue Version der Dateien. Das bedeutet, dass Hudi bei jedem Update die gesamte Datei neu schreibt, was ressourcenintensiver sein kann, aber eine schnellere Leseleistung bietet. MOR hingegen wird für Fälle eingeführt, in denen COW möglicherweise nicht optimal ist, insbesondere für schreib- oder änderungsintensive Arbeitslasten. In einer MOR-Tabelle schreibt Hudi bei jeder Aktualisierung nur die Zeile für den geänderten Datensatz, was die Kosten senkt und Schreibvorgänge mit geringer Latenz ermöglicht. Allerdings ist die Leseleistung im Vergleich zu COW-Tabellen möglicherweise langsamer.

Erteilen Sie die Zugriffsberechtigung für die Tabelle

Wir nutzen die IAM-Rolle<STACK-NAME>-hudi-table-pii-roleum Hudi COW und MOR abzufragen, die PII-Spalten enthalten. Wir erteilen zunächst die Tabellenzugriffsberechtigung über Lake Formation:

Wählen Sie in der Lake Formation-Konsole aus Data Lake-Berechtigungen für Berechtigungen im Navigationsbereich.
Auswählen Gewähren.
Auswählen <STACK-NAME>-hudi-table-pii-rolefür IAM-Benutzer und -Rollen.
Wähle die rsv2_blog_hudi_db_1Datenbank für Datenbanken.
Aussichten für Tische, wählen Sie die vier Hudi-Tabellen aus, die Sie im Jupyter-Notizbuch erstellt haben.

LF – Datenberechtigungen erteilen

Aussichten für TabellenberechtigungenWählen Auswählen.
Auswählen Gewähren.

LF – Tabellenberechtigungen

PII-Spalten abfragen

Jetzt können Sie das Notebook ausführen, um die Hudi-Tabellen abzufragen. Führen wir ähnliche Schritte wie im vorherigen Abschnitt aus, um das Notebook in SageMaker Studio auszuführen:

Navigieren Sie in der SageMaker-Konsole zu der<STACK-NAME>-Studio-EMR-LF-HudiDomäne.
Auf dem Einführung Menü neben dem<STACK-NAME>-hudi-table-readerBenutzerprofil, wählen Sie Studio.
Laden Sie das heruntergeladene Notizbuch hoch rsv2-hudi-table-pii-reader-notebook.
Öffnen Sie das hochgeladene Notizbuch.
Wiederholen Sie die Schritte zum Einrichten des Notebooks und stellen Sie eine Verbindung zum gleichen EMR-Cluster her, verwenden Sie jedoch die Rolle<STACK-NAME>-hudi-table-pii-role.

In der aktuellen Phase muss der FGAC-fähige EMR-Cluster die Commit-Zeitspalte von Hudi abfragen, um inkrementelle Abfragen und Zeitreisen durchzuführen. Die Spark-Syntax „Zeitstempel ab“ wird nicht unterstützt Spark.read(). Wir arbeiten aktiv daran, die Unterstützung für beide Aktionen in zukünftige Amazon EMR-Versionen mit aktiviertem FGAC zu integrieren.

Sie können nun den Schritten im Notizbuch folgen. Im Folgenden sind einige hervorgehobene Schritte aufgeführt:

Führen Sie eine Snapshot-Abfrage aus.

%%sql 
SELECT c_birth_country, count(*) FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql} GROUP BY c_birth_country;

Führen Sie eine inkrementelle Abfrage aus.

incremental_df = spark.sql(f"""
SELECT * FROM {HUDI_CATALOG}.{HUDI_DATABASE}.{COW_TABLE_NAME_SQL} WHERE _hoodie_commit_time >= {commit_ts[-1]}
""")

incremental_df.createOrReplaceTempView("incremental_view")

%%sql
SELECT 
    c_birth_country, 
    count(*) 
FROM incremental_view
GROUP BY c_birth_country;

Führen Sie eine Zeitreiseabfrage aus.

%%sql
SELECT
    c_birth_country, COUNT(*) as count
FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
WHERE _hoodie_commit_time IN
(
    SELECT DISTINCT _hoodie_commit_time FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql} ORDER BY _hoodie_commit_time LIMIT 1 
)
GROUP BY c_birth_country

Führen Sie MOR-leseoptimierte Tabellenabfragen in Echtzeit aus.

%%sql
SELECT
    a.email_label,
    count(*)
FROM (
    SELECT
        CASE
            WHEN c_email_address = 'UNKNOWN' THEN 'UNKNOWN'
            ELSE 'NOT_UNKNOWN'
        END AS email_label
    FROM ${hudi_catalog}.${hudi_db}.${mor_table_name_sql}_ro
    WHERE c_birth_country = 'HONG KONG'
) a
GROUP BY a.email_label;

%%sql
SELECT *  
FROM ${hudi_catalog}.${hudi_db}.${mor_table_name_sql}_ro
WHERE 
    c_birth_country = 'INDIA' OR c_first_name = 'MASKED'

Fragen Sie die Hudi-Tabellen mit Datenfiltern auf Spalten- und Zeilenebene ab

Wir nutzen die IAM-Rolle<STACK-NAME>-hudi-table-non-pii-roleum Hudi-Tabellen abzufragen. Diese Rolle darf keine Spalten abfragen, die personenbezogene Daten enthalten. Wir verwenden die Lake Formation-Datenfilter auf Spalten- und Zeilenebene, um eine differenzierte Zugriffskontrolle zu implementieren:

Wählen Sie in der Lake Formation-Konsole aus Datenfilter für Datenkatalog im Navigationsbereich.
Auswählen Neuen Filter erstellen.
Aussichten für Name des Datenfilters, eingebencustomer-pii-filter.
Auswählen rsv2_blog_hudi_db_1für Zieldatenbank.
Auswählen rsv2_blog_hudi_mor_sql_dl_customer_1für Zieltabelle.
Auswählen Spalten ausschließen und wähle dasc_customer_id,c_email_address undc_last_nameSäulen.
Enterc_birth_country != 'HONG KONG'für Zeilenfilterausdruck.
Auswählen Filter erstellen.

LF – Datenfilter erstellen

Auswählen Data Lake-Berechtigungen für Berechtigungen im Navigationsbereich.
Auswählen Gewähren.
Auswählen <STACK-NAME>-hudi-table-non-pii-rolefür IAM-Benutzer und -Rollen.
Auswählen rsv2_blog_hudi_db_1für Datenbanken.
Auswählen rsv2_blog_hudi_mor_sql_dl_tpc_customer_1für Tische.
Auswählen customer-pii-filterfür Datenfilter.
Aussichten für Berechtigungen für DatenfilterWählen Auswählen.
Auswählen Gewähren.

LF – Datenberechtigungen erteilen

Führen wir ähnliche Schritte aus, um das Notebook in SageMaker Studio auszuführen:

Navigieren Sie in der SageMaker-Konsole zur DomäneStudio-EMR-LF-Hudi.
Auf dem Einführung Menü für diehudi-table-readerBenutzerprofil, wählen Sie Studio.
Laden Sie das heruntergeladene Notizbuch hoch rsv2-hudi-table-non-pii-reader-notebook und wählen Sie Offen.
Wiederholen Sie die Schritte zum Einrichten des Notebooks und stellen Sie eine Verbindung zum gleichen EMR-Cluster her, wählen Sie jedoch die Rolle aus<STACK-NAME>-hudi-table-non-pii-role.

Sie können nun den Schritten im Notizbuch folgen. Anhand der Abfrageergebnisse können Sie erkennen, dass FGAC über den Datenfilter „Lake Formation“ angewendet wurde. Die Rolle kann die PII-Spalten nicht sehenc_customer_id,c_last_name undc_email_address. Auch die Zeilen vonHONG KONGwurden gefiltert.

gefiltertes Abfrageergebnis

Aufräumen

Nachdem Sie mit dem Experimentieren mit der Lösung fertig sind, empfehlen wir, die Ressourcen mit den folgenden Schritten zu bereinigen, um unerwartete Kosten zu vermeiden:

Beenden Sie die SageMaker Studio-Apps für die Benutzerprofile.

Der EMR-Cluster wird nach Ablauf des Leerlaufzeitlimits automatisch gelöscht.

Löschen Sie die Amazon Elastic File System (Amazon EFS)-Volume, das für die Domäne erstellt wurde.
Leeren Sie die S3-Eimer erstellt vom CloudFormation-Stack.
Löschen Sie den Stack auf der AWS CloudFormation-Konsole.

Zusammenfassung

In diesem Beitrag haben wir Apachi Hudi, einen Typ von OTF-Tabellen, verwendet, um diese neue Funktion zur Durchsetzung einer differenzierten Zugriffskontrolle auf Amazon EMR zu demonstrieren. Sie können in Lake Formation granulare Berechtigungen für OTF-Tabellen definieren und diese über Spark SQL-Abfragen auf EMR-Cluster anwenden. Sie können auch transaktionale Data Lake-Funktionen wie das Ausführen von Snapshot-Abfragen, inkrementellen Abfragen, Zeitreisen und DML-Abfragen verwenden. Bitte beachten Sie, dass diese neue Funktion alle OTF-Tabellen abdeckt.

Diese Funktion wird insgesamt ab Amazon EMR-Version 6.15 eingeführt Regionen wo Amazon EMR verfügbar ist. Mit der Amazon EMR-Integration mit Lake Formation können Sie große Datenmengen sicher verwalten und verarbeiten, Erkenntnisse gewinnen und fundierte Entscheidungen erleichtern und gleichzeitig Datensicherheit und Governance wahren.

Weitere Informationen finden Sie unter Aktivieren Sie Lake Formation mit Amazon EMR und wenden Sie sich gerne an Ihre AWS-Lösungsarchitekten, die Ihnen bei Ihrer Datenreise behilflich sein können.

Über den Autor

Raymond Lai ist ein Senior Solutions Architect, der sich auf die Bedürfnisse großer Unternehmenskunden spezialisiert hat. Seine Expertise liegt in der Unterstützung von Kunden bei der Migration komplexer Unternehmenssysteme und Datenbanken zu AWS sowie beim Aufbau von Enterprise Data Warehousing- und Data Lake-Plattformen. Raymond zeichnet sich durch die Identifizierung und Gestaltung von Lösungen für KI/ML-Anwendungsfälle aus und legt einen besonderen Schwerpunkt auf serverlose AWS-Lösungen und ereignisgesteuertes Architekturdesign.

Bin Wang, PhD, ist Senior Analytic Specialist Solutions Architect bei AWS und verfügt über mehr als 12 Jahre Erfahrung in der ML-Branche mit besonderem Schwerpunkt auf Werbung. Er verfügt über Fachkenntnisse in der Verarbeitung natürlicher Sprache (NLP), Empfehlungssystemen, verschiedenen ML-Algorithmen und ML-Operationen. Er hat eine große Leidenschaft für die Anwendung von ML/DL und Big-Data-Techniken zur Lösung realer Probleme.

Aditya Schah ist Softwareentwicklungsingenieur bei AWS. Er interessiert sich für Datenbanken und Data-Warehouse-Engines und hat an Leistungsoptimierungen, Sicherheits-Compliance und ACID-Compliance für Engines wie Apache Hive und Apache Spark gearbeitet.

Melodie Yang ist Senior Big Data Solution Architect für Amazon EMR bei AWS. Sie ist eine erfahrene Analyseleiterin, die mit AWS-Kunden zusammenarbeitet, um Best-Practice-Anleitung und technische Beratung bereitzustellen, um deren Erfolg bei der Datentransformation zu unterstützen. Ihre Interessensgebiete sind Open Source Frameworks und Automatisierung, Data Engineering und DataOps.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/

Zeitstempel: 17. Januar 2024

Zeitstempel: 30. März 2023

Neuauflage von Plato

Behandeln Sie UPSERT-Datenoperationen mit Open-Source-Delta Lake und AWS Glue

Verwenden Sie Apache Iceberg in einem Data Lake, um die inkrementelle Datenverarbeitung zu unterstützen

Beschleunigen Sie das Data Science Feature Engineering für transaktionale Data Lakes mithilfe von Amazon Athena mit Apache Iceberg | Amazon Web Services

Verbessern Sie betriebliche Einblicke für Amazon MSK mit Amazon Managed Service for Prometheus und Amazon Managed Grafana

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto