Håndhev finmasket tilgangskontroll på åpne tabellformater via Amazon EMR integrert med AWS Lake Formation | Amazon Web Services

Publisert av Platon

Følgere: 0

Med Amazon EMR 6.15, lanserte vi AWS Lake formasjon baserte finkornede tilgangskontroller (FGAC) på åpne tabellformater (OTF), inkludert Apache Hudi, Apache Iceberg og Delta lake. Dette lar deg forenkle sikkerhet og styring over transaksjonelle datainnsjøer ved å gi tilgangskontroller på tabell-, kolonne- og radnivå-tillatelser med Apache Spark-jobbene dine. Mange store bedrifter søker å bruke transaksjonsdatainnsjøen sin for å få innsikt og forbedre beslutningstaking. Du kan bygge en innsjøhusarkitektur ved å bruke Amazon EMR integrert med Lake Formation for FGAC. Denne kombinasjonen av tjenester lar deg utføre dataanalyse på transaksjonsdatasjøen din samtidig som du sikrer sikker og kontrollert tilgang.

Amazon EMR-postserverkomponenten støtter tabell-, kolonne-, rad-, celle- og nestet attributt-nivå datafiltreringsfunksjonalitet. Den utvider støtte til formatene Hive, Apache Hudi, Apache Iceberg og Delta lake for både lesing (inkludert tidsreiser og inkrementelle spørringer) og skriveoperasjoner (på DML-setninger som INSERT). I tillegg, med versjon 6.15, introduserer Amazon EMR tilgangskontrollbeskyttelse for sitt applikasjonsnettgrensesnitt, slik som Spark History Server på klyngen, Yarn Timeline Server og Yarn Resource Manager UI.

I dette innlegget viser vi hvordan du implementerer FGAC på Apache Hudi tabeller som bruker Amazon EMR integrert med Lake Formation.

Brukscase for transaksjonsdata

Amazon EMR-kunder bruker ofte åpne tabellformater for å støtte deres behov for ACID-transaksjoner og tidsreiser i en datainnsjø. Ved å ta vare på historiske versjoner, gir datainnsjø-tidsreiser fordeler som revisjon og samsvar, datagjenoppretting og tilbakeføring, reproduserbar analyse og datautforskning på forskjellige tidspunkter.

En annen populær transaksjonsdatainnsjø er inkrementell spørring. Inkrementell spørring refererer til en spørringsstrategi som fokuserer på å behandle og analysere bare de nye eller oppdaterte dataene i en datainnsjø siden siste spørring. Nøkkelideen bak inkrementelle spørringer er å bruke metadata eller endre sporingsmekanismer for å identifisere nye eller modifiserte data siden siste spørring. Ved å identifisere disse endringene kan spørringsmotoren optimalisere spørringen til kun å behandle de relevante dataene, noe som reduserer behandlingstiden og ressurskravene betydelig.

Løsningsoversikt

I dette innlegget viser vi hvordan du implementerer FGAC på Apache Hudi-tabeller ved å bruke Amazon EMR på Amazon Elastic Compute Cloud (Amazon EC2) integrert med Lake Formation. Apache Hudi er en åpen kildekode for transaksjonelle datainnsjøer som i stor grad forenkler inkrementell databehandling og utvikling av datapipelines. Denne nye FGAC-funksjonen støtter alle OTF. Foruten å demonstrere med Hudi her, vil vi følge opp med andre OTF-tabeller med andre blogger. Vi bruker notatbøker in Amazon SageMaker Studio å lese og skrive Hudi-data via forskjellige brukertilgangstillatelser gjennom en EMR-klynge. Dette gjenspeiler virkelige datatilgangsscenarier – for eksempel hvis en ingeniørbruker trenger full datatilgang for å feilsøke på en dataplattform, mens dataanalytikere kanskje bare trenger å få tilgang til et undersett av disse dataene som ikke inneholder personlig identifiserbar informasjon (PII ). Integrering med Lake Formation via Amazon EMR runtime rolle gir deg ytterligere mulighet til å forbedre din datasikkerhetsstilling og forenkler datakontrolladministrasjonen for Amazon EMR-arbeidsbelastninger. Denne løsningen sikrer et sikkert og kontrollert miljø for datatilgang, som møter de ulike behovene og sikkerhetskravene til ulike brukere og roller i en organisasjon.

Følgende diagram illustrerer løsningsarkitekturen.

Løsningsarkitektur

Vi gjennomfører en datainntaksprosess for å oppdatere (oppdatere og sette inn) et Hudi-datasett til en Amazon enkel lagringstjeneste (Amazon S3) bøtte, og vedvarer eller oppdater tabellskjemaet i AWS Lim Datakatalog. Med null databevegelse kan vi spørre Hudi-tabellen styrt av Lake Formation via ulike AWS-tjenester, som f.eks. Amazonas Athena, Amazon EMR og Amazon SageMaker.

Når brukere sender inn en Spark-jobb gjennom EMR-klynge-endepunkter (EMR Steps, Livy, EMR Studio og SageMaker), validerer Lake Formation privilegiene deres og instruerer EMR-klyngen om å filtrere ut sensitive data som PII-data.

Denne løsningen har tre forskjellige typer brukere med ulike nivåer av tillatelser for å få tilgang til Hudi-dataene:

hudi-db-skaper-rolle – Dette brukes av datainnsjø-administratoren som har rettigheter til å utføre DDL-operasjoner som å lage, endre og slette databaseobjekter. De kan definere datafiltreringsregler på Lake Formation for datatilgangskontroll på radnivå og kolonnenivå. Disse FGAC-reglene sikrer at datainnsjø er sikret og oppfyller personvernforskriftene som kreves.
hudi-table-pii-rolle – Dette brukes av ingeniørbrukere. Tekniske brukere er i stand til å utføre tidsreiser og inkrementelle spørringer på både Copy-on-Write (CoW) og Merge-on-Read (MoR). De har også privilegium til å få tilgang til PII-data basert på eventuelle tidsstempler.
hudi-bord-ikke-pii-rolle – Dette brukes av dataanalytikere. Dataanalytikeres datatilgangsrettigheter styres av FGAC-autoriserte regler kontrollert av datainnsjøadministratorer. De har ikke synlighet på kolonner som inneholder PII-data som navn og adresser. I tillegg kan de ikke få tilgang til rader med data som ikke oppfyller visse betingelser. For eksempel kan brukerne bare få tilgang til datarader som tilhører deres land.

Forutsetninger

Du kan laste ned de tre notatbøkene som brukes i dette innlegget fra GitHub repo.

Før du distribuerer løsningen, sørg for at du har følgende:

Fullfør følgende trinn for å konfigurere tillatelsene dine:

Logg på AWS-kontoen din med din admin IAM-bruker.

Sørg for at du er ius-east-1Region.

Lag en S3-bøtte i us-east-1 Region (f.eks.emr-fgac-hudi-us-east-1-<ACCOUNT ID>).

Deretter aktiverer vi Lake Formation ved endre standard tillatelsesmodell.

Logg på Lake Formation-konsollen som administratorbruker.
Velg Datakataloginnstillinger etter Administrasjon i navigasjonsruten.
Under Standardtillatelser for nyopprettede databaser og tabeller, fjern merket Bruk kun IAM-tilgangskontroll for nye databaser og Bruk bare IAM-tilgangskontroll for nye tabeller i nye databaser.
Velg Spar.

Datakataloginnstillinger

Alternativt må du tilbakekalle IAMAllowedPrincipals på ressurser (databaser og tabeller) opprettet hvis du startet Lake Formation med standardalternativet.

Til slutt lager vi et nøkkelpar for Amazon EMR.

På Amazon EC2-konsollen velger du Nøkkelpar i navigasjonsruten.
Velg Lag nøkkelpar.
Til Navn, skriv inn et navn (for eksempelemr-fgac-hudi-keypair).
Velg Lag nøkkelpar.

Lag nøkkelpar

Det genererte nøkkelparet (for dette innlegget, emr-fgac-hudi-keypair.pem) vil lagre på din lokale datamaskin.

Deretter lager vi en AWS Cloud9 interaktivt utviklingsmiljø (IDE).

På AWS Cloud9-konsollen velger du Miljøer i navigasjonsruten.
Velg Skap miljø.
Til Navn¸ skriv inn et navn (f.eks.emr-fgac-hudi-env).
Behold de andre innstillingene som standard.

Cloud9 miljø

Velg Opprett.
Når IDE er klar, velg Åpen å åpne den.

cloud9 miljø

I AWS Cloud9 IDE, på filet meny, velg Last opp lokale filer.

Last opp lokal fil

Last opp nøkkelpar-filen (emr-fgac-hudi-keypair.pem).
Velg plusstegnet og velg Ny terminal.

ny terminal

Skriv inn følgende kommandolinjer i terminalen:

#Create encryption certificates for EMR in transit encryption
openssl req -x509 
-newkey rsa:1024 
-keyout privateKey.pem 
-out certificateChain.pem 
-days 365 
-nodes 
-subj '/C=US/ST=Washington/L=Seattle/O=MyOrg/OU=MyDept/CN=*.compute.internal'

cp certificateChain.pem trustedCertificates.pem

# Zip certificates
zip -r -X my-certs.zip certificateChain.pem privateKey.pem trustedCertificates.pem

# Upload the certificates zip file to S3 bucket
# Replace <ACCOUNT ID> with your AWS account ID
aws s3 cp ./my-certs.zip s3://emr-fgac-hudi-us-east-1-<ACCOUNT ID>/my-certs.zip

Merk at eksempelkoden kun er et proof of concept for demonstrasjonsformål. For produksjonssystemer, bruk en betrodd sertifiseringsinstans (CA) for å utstede sertifikater. Referere til Tilbyr sertifikater for kryptering av data under overføring med Amazon EMR-kryptering for mer informasjon.

Distribuer løsningen via AWS CloudFormation

Vi tilbyr en AWS skyformasjon mal som automatisk setter opp følgende tjenester og komponenter:

En S3 bøtte for datasjøen. Den inneholder eksempelet TPC-DS-datasettet.
En EMR-klynge med sikkerhetskonfigurasjon og offentlig DNS aktivert.
EMR runtime IAM-roller med Lake Formation finmaskede tillatelser:
- -hudi-db-skaperrolle – Denne rollen brukes til å lage Apache Hudi-database og tabeller.
- -hudi-table-pii-rolle – Denne rollen gir tillatelse til å spørre alle kolonner i Hudi-tabeller, inkludert kolonner med PII.
- -hudi-tabell-ikke-pii-rolle – Denne rollen gir tillatelse til å spørre etter Hudi-tabeller som har filtrert ut PII-kolonner etter Lake Formation.
SageMaker Studio-utførelsesroller som lar brukerne påta seg sine tilsvarende EMR-kjøretidsroller.
Nettverksressurser som VPC, undernett og sikkerhetsgrupper.

Fullfør følgende trinn for å distribuere ressursene:

Velg Rask opprett bunke for å starte CloudFormation-stakken.
Til Stabelnavn, skriv inn et stabelnavn (f.eks.rsv2-emr-hudi-blog).
Til Ec2KeyPair, skriv inn navnet på nøkkelparet ditt.
Til IdleTimeout, angi en inaktiv tidsavbrudd for EMR-klyngen for å unngå å betale for klyngen når den ikke brukes.
Til InitS3Bucket, skriv inn S3-bøttenavnet du opprettet for å lagre .zip-filen for Amazon EMR-krypteringssertifikatet.
Til S3CertsZip, skriv inn S3-URI-en til Amazon EMR-krypteringssertifikatet .zip-fil.

CloudFormation-mal

Plukke ut Jeg erkjenner at AWS CloudFormation kan lage IAM-ressurser med tilpassede navn.
Velg Lag stabel.

CloudFormation-stabeldistribusjonen tar rundt 10 minutter.

Sett opp Lake Formation for Amazon EMR-integrasjon

Fullfør følgende trinn for å sette opp Lake Formation:

Velg på Lake Formation-konsollen Innstillinger for applikasjonsintegrasjon etter Administrasjon i navigasjonsruten.
Plukke ut Tillat eksterne motorer å filtrere data i Amazon S3-lokasjoner registrert hos Lake Formation.
Velg Amazon EMR forum Verdier for økttagger.
Skriv inn din AWS-konto-ID for AWS-konto-IDer.
Velg Spar.

LF - Innstillinger for applikasjonsintegrasjon

Velg databaser etter Datakatalog i navigasjonsruten.
Velg Lag database.
Til Navn, skriv inn standard.
Velg Lag database.

LF - opprett database

Velg Datainnsjø-tillatelser etter Tillatelser i navigasjonsruten.
Velg Grant.
Plukke ut IAM-brukere og roller.
Velg dine IAM-roller.
Til databaser, velg standard.
Til Database tillatelser, plukke ut Beskriv.
Velg Grant.

LF – Gi datatillatelser

Kopier Hudi JAR-filen til Amazon EMR HDFS

Til bruk Hudi med Jupyter-notatbøker, må du fullføre følgende trinn for EMR-klyngen, som inkluderer kopiering av en Hudi JAR-fil fra Amazon EMR-lokalkatalogen til HDFS-lagringen, slik at du kan konfigurere en Spark-økt til å bruke Hudi:

Autoriser innkommende SSH-trafikk (port 22).
Kopier verdien for Primær node offentlig DNS (for eksempel ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) fra EMR-klyngen Oppsummering seksjon.

EMR-klyngesammendrag

Gå tilbake til forrige AWS Cloud9-terminal du brukte til å opprette EC2-nøkkelparet.
Kjør følgende kommando til SSH inn i EMR-primærnoden. Bytt ut plassholderen med ditt EMR DNS-vertsnavn:

chmod 400 emr-fgac-hudi-keypair.pem
ssh -i emr-fgac-hudi-keypair.pem hadoop@ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com

Kjør følgende kommando for å kopiere Hudi JAR-filen til HDFS:

hdfs dfs -mkdir -p /apps/hudi/lib
hdfs dfs -copyFromLocal /usr/lib/hudi/hudi-spark-bundle.jar /apps/hudi/lib/hudi-spark-bundle.jar

Lag Hudi-databasen og tabellene i Lake Formation

Nå er vi klare til å lage Hudi-databasen og tabellene med FGAC aktivert av EMR-runtime-rollen. De EMR kjøretidsrolle er en IAM-rolle som du kan spesifisere når du sender en jobb eller spørring til en EMR-klynge.

Gi tillatelse til å opprette database

Først, la oss gi Lake Formation-databasen tillatelse til<STACK-NAME>-hudi-db-creator-role:

Logg på AWS-kontoen din som administrator.
Velg på Lake Formation-konsollen Administrative roller og oppgaver etter Administrasjon i navigasjonsruten.
Bekreft at AWS-påloggingsbrukeren din er lagt til som datainnsjø-administrator.
på Database skaper delen velger Grant.
Til IAM-brukere og roller, velg<STACK-NAME>-hudi-db-creator-role.
Til Katalogtillatelser, plukke ut Lag database.
Velg Grant.

Registrer datainnsjøens plassering

La oss deretter registrere S3-datainnsjøplasseringen i Lake Formation:

Velg på Lake Formation-konsollen Data lake steder etter Administrasjon i navigasjonsruten.
Velg Registrer sted.
Til Amazon S3-bane, Velg Søk og velg data lake S3-bøtten. (<STACK_NAME>s3bucket-XXXXXXX) opprettet fra CloudFormation-stabelen.
Til IAM-rolle, velg<STACK-NAME>-hudi-db-creator-role.
Til Tillatelsesmodus, plukke ut Innsjøformasjon.
Velg Registrer sted.

LF - Registrer plassering

Gi tillatelse til dataplassering

Deretter må vi gi<STACK-NAME>-hudi-db-creator-roledataplasseringstillatelsen:

Velg på Lake Formation-konsollen Datasteder etter Tillatelser i navigasjonsruten.
Velg Grant.
Til IAM-brukere og roller, velg<STACK-NAME>-hudi-db-creator-role.
Til Oppbevaringssteder, skriv inn S3-bøtten (<STACK_NAME>-s3bucket-XXXXXXX).
Velg Grant.

LF – Gi tillatelser

Koble til EMR-klyngen

La oss nå bruke en Jupyter-notisbok i SageMaker Studio for å koble til EMR-klyngen med databaseskaperen EMR-runtime-rollen:

Velg på SageMaker-konsollen Domener i navigasjonsruten.
Velg domenet<STACK-NAME>-Studio-EMR-LF-Hudi.
På Start menyen ved siden av brukerprofilen<STACK-NAME>-hudi-db-creator, velg studie.

SM - Domenedetaljer

Last ned notatboken rsv2-hudi-db-creator-notebook.
Velg opplastingsikonet.

SM Studio - Last opp

Velg den nedlastede Jupyter-notisboken og velg Åpen.
Åpne den opplastede notatboken.
Til Bilde, velg SparkMagic.
Til Kernel, velg PySpark.
La de andre konfigurasjonene være standard og velg Plukke ut.

SM Studio - Bytt miljø

Velg Cluster for å koble til EMR-klyngen.

SM Studio - koble til EMR-klynge

Velg EMR på EC2-klyngen (<STACK-NAME>-EMR-Cluster) opprettet med CloudFormation-stakken.
Velg Koble.
Til EMR-utførelsesrolle, velg<STACK-NAME>-hudi-db-creator-role.
Velg Koble.

Lag database og tabeller

Nå kan du følge trinnene i notatboken for å lage Hudi-databasen og tabellene. De viktigste trinnene er som følger:

Når du starter den bærbare datamaskinen, konfigurer“spark.sql.catalog.spark_catalog.lf.managed":"true"å informere Spark om at spark_catalog er beskyttet av Lake Formation.
Lag Hudi-tabeller ved å bruke følgende Spark SQL.

%%sql 
CREATE TABLE IF NOT EXISTS ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}(
    c_customer_id string,
    c_birth_country string,
    c_customer_sk integer,
    c_email_address string,
    c_first_name string,
    c_last_name string,
    ts bigint
) USING hudi
LOCATION '${cow_table_location_sql}'
OPTIONS (
  type = 'cow',
  primaryKey = '${hudi_primary_key}',
  preCombineField = '${hudi_pre_combined_field}'
 ) 
PARTITIONED BY (${hudi_partitioin_field});

Sett inn data fra kildetabellen til Hudi-tabellene.

%%sql
INSERT OVERWRITE ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
SELECT 
    c_customer_id ,  
    c_customer_sk,
    c_email_address,
    c_first_name,
    c_last_name,
    unix_timestamp(current_timestamp()) AS ts,
    c_birth_country
FROM ${src_df_view}
WHERE c_birth_country = 'HONG KONG' OR c_birth_country = 'CHINA' 
LIMIT 1000

Sett inn data igjen i Hudi-tabellene.

%%sql
INSERT INTO ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
SELECT 
    c_customer_id ,  
    c_customer_sk,
    c_email_address,
    c_first_name,
    c_last_name,
    unix_timestamp(current_timestamp()) AS ts,
    c_birth_country
FROM ${insert_into_view}

Spør Hudi-tabellene via Lake Formation med FGAC

Etter at du har opprettet Hudi-databasen og tabellene, er du klar til å spørre tabellene ved hjelp av finmasket tilgangskontroll med Lake Formation. Vi har laget to typer Hudi-tabeller: Copy-On-Write (COW) og Merge-On-Read (MOR). COW-tabellen lagrer data i et kolonneformat (Parquet), og hver oppdatering lager en ny versjon av filer under en skriving. Dette betyr at for hver oppdatering omskriver Hudi hele filen, som kan være mer ressurskrevende, men gir raskere leseytelse. MOR, på den annen side, introduseres for tilfeller der COW kanskje ikke er optimal, spesielt for skrive- eller endringstunge arbeidsbelastninger. I en MOR-tabell, hver gang det er en oppdatering, skriver Hudi bare raden for den endrede posten, noe som reduserer kostnadene og muliggjør skriving med lav latens. Imidlertid kan leseytelsen være tregere sammenlignet med COW-tabeller.

Gi tabelltilgangstillatelse

Vi bruker IAM-rollen<STACK-NAME>-hudi-table-pii-rolefor å spørre Hudi COW og MOR som inneholder PII-kolonner. Vi gir først bordets tilgangstillatelse via Lake Formation:

Velg på Lake Formation-konsollen Datainnsjø-tillatelser etter Tillatelser i navigasjonsruten.
Velg Grant.
Velg<STACK-NAME>-hudi-table-pii-roleforum IAM-brukere og roller.
Velgrsv2_blog_hudi_db_1database for databaser.
Til tabeller, velg de fire Hudi-tabellene du opprettet i Jupyter-notisboken.

LF – Gi datatillatelser

Til Tabelltillatelser, plukke ut Plukke ut.
Velg Grant.

LF - tabelltillatelser

Spør PII-kolonner

Nå er du klar til å kjøre notatboken for å spørre Hudi-tabellene. La oss følge lignende trinn som i forrige seksjon for å kjøre notatboken i SageMaker Studio:

På SageMaker-konsollen, naviger til<STACK-NAME>-Studio-EMR-LF-Hudidomene.
På Start menyen ved siden av<STACK-NAME>-hudi-table-readerbrukerprofil, velg studie.
Last opp den nedlastede notatboken rsv2-hudi-table-pii-leser-notatbok.
Åpne den opplastede notatboken.
Gjenta trinnene for oppsett av bærbar PC og koble til samme EMR-klynge, men bruk rollen<STACK-NAME>-hudi-table-pii-role.

I det nåværende stadiet må FGAC-aktivert EMR-klynge spørre Hudis forpliktelsestidskolonne for å utføre inkrementelle spørringer og tidsreiser. Den støtter ikke Sparks "tidsstempel fra" syntaks og Spark.read(). Vi jobber aktivt med å innlemme støtte for begge handlingene i fremtidige Amazon EMR-utgivelser med FGAC aktivert.

Du kan nå følge trinnene i notatboken. Følgende er noen fremhevede trinn:

Kjør et øyeblikksbildespørring.

%%sql 
SELECT c_birth_country, count(*) FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql} GROUP BY c_birth_country;

Kjør en inkrementell spørring.

incremental_df = spark.sql(f"""
SELECT * FROM {HUDI_CATALOG}.{HUDI_DATABASE}.{COW_TABLE_NAME_SQL} WHERE _hoodie_commit_time >= {commit_ts[-1]}
""")

incremental_df.createOrReplaceTempView("incremental_view")

%%sql
SELECT 
    c_birth_country, 
    count(*) 
FROM incremental_view
GROUP BY c_birth_country;

Kjør en tidsreisespørring.

%%sql
SELECT
    c_birth_country, COUNT(*) as count
FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
WHERE _hoodie_commit_time IN
(
    SELECT DISTINCT _hoodie_commit_time FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql} ORDER BY _hoodie_commit_time LIMIT 1 
)
GROUP BY c_birth_country

Kjør MOR leseoptimaliserte og sanntidstabellspørringer.

%%sql
SELECT
    a.email_label,
    count(*)
FROM (
    SELECT
        CASE
            WHEN c_email_address = 'UNKNOWN' THEN 'UNKNOWN'
            ELSE 'NOT_UNKNOWN'
        END AS email_label
    FROM ${hudi_catalog}.${hudi_db}.${mor_table_name_sql}_ro
    WHERE c_birth_country = 'HONG KONG'
) a
GROUP BY a.email_label;

%%sql
SELECT *  
FROM ${hudi_catalog}.${hudi_db}.${mor_table_name_sql}_ro
WHERE 
    c_birth_country = 'INDIA' OR c_first_name = 'MASKED'

Spør Hudi-tabellene med datafiltre på kolonnenivå og radnivå

Vi bruker IAM-rollen<STACK-NAME>-hudi-table-non-pii-rolefor å spørre etter Hudi-tabeller. Denne rollen har ikke lov til å spørre etter kolonner som inneholder PII. Vi bruker Lake Formation-datafiltrene på kolonne- og radnivå for å implementere finmasket tilgangskontroll:

Velg på Lake Formation-konsollen Datafiltre etter Datakatalog i navigasjonsruten.
Velg Lag et nytt filter.
Til Datafilternavn, Tast inncustomer-pii-filter.
Velgrsv2_blog_hudi_db_1forum Måldatabase.
Velgrsv2_blog_hudi_mor_sql_dl_customer_1forum Måltabell.
Plukke ut Ekskluder kolonner og velgc_customer_id,c_email_addressogc_last_namekolonner.
Enterc_birth_country != 'HONG KONG'forum Radfilteruttrykk.
Velg Opprett filter.

LF - opprett datafilter

Velg Datainnsjø-tillatelser etter Tillatelser i navigasjonsruten.
Velg Grant.
Velg<STACK-NAME>-hudi-table-non-pii-roleforum IAM-brukere og roller.
Velgrsv2_blog_hudi_db_1forum databaser.
Velgrsv2_blog_hudi_mor_sql_dl_tpc_customer_1forum tabeller.
Velgcustomer-pii-filterforum Datafiltre.
Til Tillatelser for datafilter, plukke ut Plukke ut.
Velg Grant.

LF – Gi datatillatelser

La oss følge lignende trinn for å kjøre notatboken i SageMaker Studio:

Naviger til domenet på SageMaker-konsollenStudio-EMR-LF-Hudi.
På Start meny forhudi-table-readerbrukerprofil, velg studie.
Last opp den nedlastede notatboken rsv2-hudi-tabell-ikke-pii-leser-notatbok Og velg Åpen.
Gjenta oppsettstrinnene for den bærbare datamaskinen og koble til samme EMR-klynge, men velg rollen<STACK-NAME>-hudi-table-non-pii-role.

Du kan nå følge trinnene i notatboken. Fra søkeresultatene kan du se at FGAC via Lake Formation-datafilteret er brukt. Rollen kan ikke se PII-kolonnenec_customer_id,c_last_nameogc_email_address. Også radene fraHONG KONGhar blitt filtrert.

filtrert søkeresultat

Rydd opp

Etter at du er ferdig med å eksperimentere med løsningen, anbefaler vi å rydde opp i ressurser med følgende trinn for å unngå uventede kostnader:

Slå av SageMaker Studio-appene for brukerprofilene.

EMR-klyngen vil automatisk bli slettet etter verdien for inaktiv timeout.

Slett Amazon elastisk filsystem (Amazon EFS) volum opprettet for domenet.
Tøm S3-bøttene opprettet av CloudFormation-stakken.
Slett stabelen på AWS CloudFormation-konsollen.

konklusjonen

I dette innlegget brukte vi Apachi Hudi, en type OTF-tabeller, for å demonstrere denne nye funksjonen for å håndheve finmasket tilgangskontroll på Amazon EMR. Du kan definere granulære tillatelser i Lake Formation for OTF-tabeller og bruke dem via Spark SQL-spørringer på EMR-klynger. Du kan også bruke transaksjonelle datainnsjøfunksjoner som å kjøre øyeblikksbildespørringer, inkrementelle spørringer, tidsreiser og DML-spørringer. Vær oppmerksom på at denne nye funksjonen dekker alle OTF-bord.

Denne funksjonen lanseres fra og med Amazon EMR utgivelse 6.15 i alt regioner hvor Amazon EMR er tilgjengelig. Med Amazon EMR-integrasjonen med Lake Formation kan du trygt administrere og behandle big data, låse opp innsikt og legge til rette for informert beslutningstaking samtidig som du opprettholder datasikkerhet og styring.

For å lære mer, se Aktiver Lake Formation med Amazon EMR og ta gjerne kontakt med AWS Solutions Architects, som kan være behjelpelige med datareisen din.

om forfatteren

Raymond Lai er en senior løsningsarkitekt som spesialiserer seg på å imøtekomme behovene til store bedriftskunder. Hans ekspertise ligger i å hjelpe kunder med å migrere intrikate bedriftssystemer og databaser til AWS, konstruere bedriftsdatavarehus og datainnsjøplattformer. Raymond utmerker seg i å identifisere og designe løsninger for AI/ML-brukstilfeller, og han har et spesielt fokus på AWS Serverless-løsninger og Event Driven Architecture-design.

Bin Wang, PhD, er en senior analytisk spesialistløsningsarkitekt ved AWS, med over 12 års erfaring i ML-bransjen, med spesielt fokus på reklame. Han har ekspertise innen naturlig språkbehandling (NLP), anbefalingssystemer, forskjellige ML-algoritmer og ML-operasjoner. Han er dypt lidenskapelig opptatt av å bruke ML/DL og big data-teknikker for å løse problemer i den virkelige verden.

Aditya Shah er programvareutviklingsingeniør hos AWS. Han er interessert i databaser og datavarehusmotorer og har jobbet med ytelsesoptimaliseringer, sikkerhetsoverholdelse og ACID-samsvar for motorer som Apache Hive og Apache Spark.

Melodi Yang er senior Big Data Solution Architect for Amazon EMR hos AWS. Hun er en erfaren analyseleder som jobber med AWS-kunder for å gi veiledning og tekniske råd for beste praksis for å hjelpe deres suksess med datatransformasjon. Hennes interesseområder er rammeverk med åpen kildekode og automatisering, datateknikk og DataOps.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/

Tidstempel: Januar 17, 2024

Tidstempel: Juli 11, 2023

Publisert av Platon

Skaler AWS Glue for Apache Spark-jobber med nye større arbeidertyper G.4X og G.8X | Amazon Web Services

Vi introduserer feltbasert fargeopplevelse for Amazon QuickSight | Amazon Web Services

Vi introduserer støtte for Apache Airflow versjon 2.6.3 på Amazon MWAA | Amazon Web Services

Få tilgang til Amazon OpenSearch Serverless-samlinger ved hjelp av et VPC-endepunkt | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn