Kanssa Amazonin EMR 6.15, aloitimme AWS-järvien muodostuminen perustuvat hienorakeiset pääsynhallintalaitteet (FGAC) avoimiin taulukkomuotoihin (OTF), mukaan lukien Apache Hudi, Apache Iceberg ja Delta Lake. Tämän avulla voit yksinkertaistaa turvallisuutta ja hallintaa tapahtumatietojärvet tarjoamalla Apache Spark -töiden käyttöoikeuksien hallintaa taulukko-, sarake- ja rivitason käyttöoikeuksilla. Monet suuret yritysyritykset pyrkivät käyttämään transaktiotietojärviään saadakseen näkemyksiä ja parantaakseen päätöksentekoa. Voit rakentaa järvitaloarkkitehtuurin käyttämällä Amazon EMR:ää, joka on integroitu Lake Formation for FGAC:lle. Tämän palveluyhdistelmän avulla voit suorittaa data-analyysin tapahtumatietojärvelläsi varmistaen samalla turvallisen ja valvotun pääsyn.
Amazon EMR -tietuepalvelinkomponentti tukee taulukko-, sarake-, rivi-, solu- ja sisäkkäisiä attribuuttitason tietojen suodatustoimintoja. Se laajentaa tuen Hive-, Apache Hudi-, Apache Iceberg- ja Delta Lake -muotoihin sekä luku- (mukaan lukien aikamatka ja lisäkysely) että kirjoitustoimintojen (DML-käskyjen, kuten INSERT) osalta. Lisäksi versiossa 6.15 Amazon EMR ottaa käyttöön kulunvalvontasuojauksen sovellusten verkkokäyttöliittymälle, kuten klusterin Spark History Serverille, Yarn Timeline Serverille ja Yarn Resource Manager -käyttöliittymälle.
Tässä viestissä näytämme, kuinka FGAC otetaan käyttöön Apache Hudi taulukoita käyttämällä Amazon EMR:ää integroituna Lake Formationiin.
Tapahtumatietojärven käyttötapaus
Amazon EMR -asiakkaat käyttävät usein Open Table Formats -muotoja tukeakseen ACID-tapahtumia ja aikamatkustustarpeita datajärvessä. Säilyttämällä historialliset versiot Data Laken aikamatka tarjoaa etuja, kuten auditoinnin ja vaatimustenmukaisuuden, tietojen palautuksen ja palautuksen, toistettavan analyysin ja tietojen tutkimisen eri aikoina.
Toinen suosittu tapahtumatietojärven käyttötapaus on inkrementaalinen kysely. Inkrementaalinen kysely viittaa kyselystrategiaan, joka keskittyy vain datajärven uusien tai päivitettyjen tietojen käsittelyyn ja analysointiin viimeisen kyselyn jälkeen. Inkrementaalisten kyselyjen perusideana on käyttää metatietoja tai muutosseurantamekanismeja tunnistaakseen uudet tai muokatut tiedot edellisen kyselyn jälkeen. Tunnistamalla nämä muutokset kyselykone voi optimoida kyselyn käsittelemään vain olennaiset tiedot, mikä vähentää merkittävästi käsittelyaikaa ja resurssivaatimuksia.
Ratkaisun yleiskatsaus
Tässä viestissä näytämme, kuinka FGAC otetaan käyttöön Apache Hudi -pöydissä käyttämällä Amazon EMR -toimintoa Amazonin elastinen laskentapilvi (Amazon EC2) integroitu Lake Formationiin. Apache Hudi on avoimen lähdekoodin transaktiotietojärvikehys, joka yksinkertaistaa huomattavasti inkrementaalista tiedonkäsittelyä ja tietoputkien kehittämistä. Tämä uusi FGAC-ominaisuus tukee kaikkia OTF:itä. Sen lisäksi, että esittelemme Hudin kanssa täällä, seuraamme muita OTF-taulukoita muiden blogien kanssa. Käytämme kannettavat tietokoneet in Amazon SageMaker Studio lukea ja kirjoittaa Hudi-tietoja eri käyttöoikeuksilla EMR-klusterin kautta. Tämä kuvastaa todellisia datan käyttöskenaarioita – esimerkiksi jos tekninen käyttäjä tarvitsee täyden pääsyn tietoihin tehdäkseen vianetsintää tietoympäristössä, kun taas data-analyytikot saattavat tarvita vain osajoukkoa tiedoista, jotka eivät sisällä henkilökohtaisia tunnistetietoja (PII). ). Integrointi Lake Formationin kanssa Amazon EMR -ajonaikainen rooli Lisäksi voit parantaa tietoturva-asentoasi ja yksinkertaistaa Amazon EMR -työkuormien tiedonhallinnan hallintaa. Tämä ratkaisu varmistaa turvallisen ja kontrolloidun ympäristön tiedonkäyttöön, joka vastaa organisaation eri käyttäjien ja roolien monipuolisiin tarpeisiin ja turvallisuusvaatimuksiin.
Seuraava kaavio kuvaa ratkaisuarkkitehtuuria.
Suoritamme tiedonkeruuprosessin Hudi-tietojoukon päivittämiseksi (päivittämiseksi ja lisäämiseksi) Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri ja säilytä tai päivitä taulukkokaavio AWS-liima Tietokatalogi. Nollalla tiedonsiirrolla voimme kysellä Lake Formationin hallitsemasta Hudi-taulukosta erilaisten AWS-palveluiden, kuten esim. Amazon Athena, Amazon EMR ja Amazon Sage Maker.
Kun käyttäjät lähettävät Spark-työn minkä tahansa EMR-klusterin päätepisteen (EMR Steps, Livy, EMR Studio ja SageMaker) kautta, Lake Formation vahvistaa heidän oikeutensa ja käskee EMR-klusteria suodattamaan arkaluontoiset tiedot, kuten PII-tiedot.
Tällä ratkaisulla on kolme erityyppistä käyttäjää, joilla on eritasoiset käyttöoikeudet Hudi-dataan:
- hudi-db-creator-rooli – Tätä käyttää Data Lake -järjestelmänvalvoja, jolla on oikeudet suorittaa DDL-toimintoja, kuten tietokantaobjektien luomista, muokkaamista ja poistamista. He voivat määrittää tietojen suodatussääntöjä Lake Formationissa rivi- ja saraketason tietojen käytön hallintaa varten. Nämä FGAC-säännöt varmistavat, että datajärvi on suojattu ja täyttää vaaditut tietosuojamääräykset.
- hudi-pöytä-pii-rooli – Tätä käyttävät tekniset käyttäjät. Suunnittelukäyttäjät pystyvät suorittamaan aikamatkoja ja lisäkyselyitä sekä Copy-on-Write (CoW) että Merge-on-Read (MoR) -toiminnolla. Heillä on myös oikeus käyttää henkilökohtaisia tunnistetietoja minkä tahansa aikaleiman perusteella.
- hudi-taulukko-ei-pii-rooli – Tätä käyttävät dataanalyytikot. Data-analyytikkojen tietojen käyttöoikeuksia säätelevät FGAC:n valtuutetut säännöt, joita valvovat datajärven ylläpitäjät. Niillä ei ole näkyvyyttä sarakkeissa, jotka sisältävät henkilökohtaisia tunnistetietoja, kuten nimiä ja osoitteita. Lisäksi he eivät voi käyttää tietorivejä, jotka eivät täytä tiettyjä ehtoja. Käyttäjät voivat esimerkiksi käyttää vain tietoja, jotka kuuluvat heidän maansa.
Edellytykset
Voit ladata tässä viestissä käytetyt kolme muistikirjaa osoitteesta GitHub repo.
Ennen kuin otat ratkaisun käyttöön, varmista, että sinulla on seuraavat asiat:
Määritä käyttöoikeudet suorittamalla seuraavat vaiheet:
- Kirjaudu AWS-tilillesi järjestelmänvalvojan IAM-käyttäjälläsi.
Varmista, että oletus-east-1
Alue.
- Luo S3-ämpäri
us-east-1
Alue (esim.emr-fgac-hudi-us-east-1-<ACCOUNT ID>
).
Seuraavaksi otamme käyttöön Lake Formation by oletuskäyttöoikeusmallin muuttaminen.
- Kirjaudu sisään Lake Formation -konsoliin järjestelmänvalvojana.
- Valita Dataluettelon asetukset varten Ylläpito navigointipaneelissa.
- Alle Oletuskäyttöoikeudet äskettäin luoduille tietokannoille ja taulukoille, poista valinta Käytä uusille tietokannoille vain IAM-käyttöoikeuksien valvontaa ja Käytä vain IAM-pääsynhallintaa uusissa taulukoissa uusissa tietokannoissa.
- Valita Säästä.
Vaihtoehtoisesti sinun on peruutettava IAMAllowedPrincipals luoduista resursseista (tietokannat ja taulukot), jos aloitit Lake Formationin oletusasetuksella.
Lopuksi luomme avainparin Amazon EMR:lle.
- Valitse Amazon EC2 -konsolissa Avainparit navigointipaneelissa.
- Valita Luo avainpari.
- varten Nimi, anna nimi (esim
emr-fgac-hudi-keypair
). - Valita Luo avainpari.
Luotu avainpari (tätä viestiä varten, emr-fgac-hudi-keypair.pem
) tallentaa paikalliselle tietokoneellesi.
Seuraavaksi luomme an AWS-pilvi9 interaktiivinen kehitysympäristö (IDE).
- Valitse AWS Cloud9 -konsolissa Ympäristöt navigointipaneelissa.
- Valita Luo ympäristö.
- varten Nimi¸ kirjoita nimi (esimerkiksi
emr-fgac-hudi-env
). - Pidä muut asetukset oletusasetuksina.
- Valita luoda.
- Kun IDE on valmis, valitse avoin avata se.
- AWS Cloud9 IDE:ssä filee valikosta, valitse Lataa paikallisia tiedostoja.
- Lataa avainparitiedosto (
emr-fgac-hudi-keypair.pem
). - Valitse plusmerkki ja valitse Uusi terminaali.
- Syötä terminaaliin seuraavat komentorivit:
Huomaa, että esimerkkikoodi on todiste konseptista vain esittelytarkoituksiin. Jos kyseessä on tuotantojärjestelmä, käytä luotettua varmenneviranomaista (CA) sertifikaattien myöntämiseen. Viitata Varmenteiden tarjoaminen siirrettävien tietojen salaamiseen Amazon EMR -salauksella lisätietoja.
Ota ratkaisu käyttöön AWS CloudFormationin kautta
Tarjoamme AWS-pilven muodostuminen malli, joka määrittää automaattisesti seuraavat palvelut ja komponentit:
- S3-ämpäri datajärvelle. Se sisältää mallin TPC-DS-tietojoukosta.
- EMR-klusteri, jossa on suojausasetukset ja julkinen DNS käytössä.
- EMR-ajonaikaiset IAM-roolit Lake Formationin tarkoilla käyttöoikeuksilla:
- -hudi-db-creator-role – Tätä roolia käytetään Apache Hudi -tietokannan ja -taulukoiden luomiseen.
- -hudi-taulukko-pii-rooli – Tämä rooli antaa luvan tehdä kyselyitä kaikista Hudi-taulukoiden sarakkeista, mukaan lukien sarakkeet, joissa on henkilökohtaisia tunnistetietoja.
- -hudi-taulukko-ei-pii-rooli – Tämä rooli antaa luvan tehdä kyselyjä Hudi-taulukoista, jotka ovat suodattaneet PII-sarakkeet Lake Formationin mukaan.
- SageMaker Studion suoritusroolit, joiden avulla käyttäjät voivat omaksua vastaavat EMR-ajonaikaiset roolinsa.
- Verkkoresurssit, kuten VPC, aliverkot ja suojausryhmät.
Ota resurssit käyttöön suorittamalla seuraavat vaiheet:
- Valita Luo pino nopeasti käynnistääksesi CloudFormation-pinon.
- varten Pino nimi, anna pinon nimi (esim.
rsv2-emr-hudi-blog
). - varten Ec2KeyPair, kirjoita avainparisi nimi.
- varten IdleTimeout, anna EMR-klusterin käyttämättömyyden aikakatkaisu, jotta vältytään maksamasta klusterista, kun sitä ei käytetä.
- varten InitS3Bucket, anna S3-säilön nimi, jonka loit tallentaaksesi Amazon EMR -salausvarmenteen .zip-tiedoston.
- varten S3CertsZip, kirjoita Amazon EMR -salausvarmenteen .zip-tiedoston S3 URI.
- valita Myönnän, että AWS CloudFormation saattaa luoda IAM-resursseja mukautetuilla nimillä.
- Valita Luo pino.
CloudFormation-pinon käyttöönotto kestää noin 10 minuuttia.
Määritä Lake Formation Amazon EMR -integraatiota varten
Määritä Lake Formation suorittamalla seuraavat vaiheet:
- Valitse Lake Formation -konsolissa Sovellusten integrointiasetukset varten Ylläpito navigointipaneelissa.
- valita Salli ulkoisten moottoreiden suodattaa tietoja Lake Formationin rekisteröidyissä Amazon S3 -sijainneissa.
- Valita Amazonin EMR varten Istuntotunnisteen arvot.
- Anna AWS-tilitunnuksesi AWS-tilitunnukset.
- Valita Säästä.
- Valita Tietokannat varten Tietoluettelo navigointipaneelissa.
- Valita Luo tietokanta.
- varten Nimi, anna oletusarvo.
- Valita Luo tietokanta.
- Valita Datajärven käyttöoikeudet varten Oikeudet navigointipaneelissa.
- Valita Grant.
- valita IAM-käyttäjät ja -roolit.
- Valitse IAM-roolisi.
- varten Tietokannat, valitse oletus.
- varten Tietokannan käyttöoikeudetvalitse Kuvata.
- Valita Grant.
Kopioi Hudi JAR -tiedosto Amazon EMR HDFS:ään
jotta käytä Hudia Jupyter-kannettavien kanssa, sinun on suoritettava seuraavat vaiheet EMR-klusterille, joka sisältää Hudi JAR -tiedoston kopioimisen Amazon EMR -paikallisesta hakemistosta sen HDFS-tallennustilaan, jotta voit määrittää Spark-istunnon käyttämään Hudia:
- Valtuuta saapuva SSH-liikenne (portti 22).
- Kopioi kohteen arvo Ensisijainen solmun julkinen DNS (esimerkiksi ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) EMR-klusterista Yhteenveto osiossa.
- Palaa edelliseen AWS Cloud9 -päätteeseen, jota käytit EC2-avainparin luomiseen.
- Suorita seuraava komento SSH:lle ensisijaiseen EMR-solmuun. Korvaa paikkamerkki EMR DNS -isäntänimelläsi:
- Suorita seuraava komento kopioidaksesi Hudi JAR -tiedoston HDFS:ään:
Luo Hudi-tietokanta ja -taulukot Lake Formationissa
Nyt olemme valmiita luomaan Hudi-tietokannan ja taulukot FGAC:lla, joka on käytössä EMR-ajonaikaisen roolin avulla. The EMR-ajonaikainen rooli on IAM-rooli, jonka voit määrittää, kun lähetät työn tai kyselyn EMR-klusteriin.
Myönnä tietokannan luojalle lupa
Ensin myönnetään Lake Formation -tietokannan luojalle lupa<STACK-NAME>-hudi-db-creator-role
:
- Kirjaudu AWS-tilillesi järjestelmänvalvojana.
- Valitse Lake Formation -konsolissa Hallinnolliset roolit ja tehtävät varten Ylläpito navigointipaneelissa.
- Vahvista, että AWS-kirjautumiskäyttäjäsi on lisätty Data Lake -järjestelmänvalvojaksi.
- In Tietokannan luoja osiossa, valitse Grant.
- varten IAM-käyttäjät ja -roolit, valitse
<STACK-NAME>-hudi-db-creator-role
. - varten Luetteloluvatvalitse Luo tietokanta.
- Valita Grant.
Rekisteröi datajärven sijainti
Rekisteröidään seuraavaksi S3-datajärven sijainti Lake Formationissa:
- Valitse Lake Formation -konsolissa Datajärvien sijainnit varten Ylläpito navigointipaneelissa.
- Valita Rekisteröi sijainti.
- varten Amazon S3 -polku, Valitse selailla ja valitse data Lake S3 -ämpäri. (
<STACK_NAME>s3bucket-XXXXXXX
) luotu CloudFormation-pinosta. - varten IAM-rooli, valitse
<STACK-NAME>-hudi-db-creator-role
. - varten Lupatilavalitse Järvien muodostuminen.
- Valita Rekisteröi sijainti.
Myönnä tietojen sijaintilupa
Seuraavaksi meidän on myönnettävä<STACK-NAME>-hudi-db-creator-role
tietojen sijainnin lupa:
- Valitse Lake Formation -konsolissa Tietojen sijainnit varten Oikeudet navigointipaneelissa.
- Valita Grant.
- varten IAM-käyttäjät ja -roolit, valitse
<STACK-NAME>-hudi-db-creator-role
. - varten Säilytyspaikat, syötä S3-ämpäri (
<STACK_NAME>-s3bucket-XXXXXXX
). - Valita Grant.
Yhdistä EMR-klusteriin
Käytä nyt Jupyter-muistikirjaa SageMaker Studiossa muodostaaksesi yhteyden EMR-klusteriin tietokannan luojan EMR-ajonaikaisen roolin avulla:
- Valitse SageMaker-konsolissa Verkkotunnukset navigointipaneelissa.
- Valitse verkkotunnus
<STACK-NAME>-Studio-EMR-LF-Hudi
. - On Käynnistää valikko käyttäjäprofiilin vieressä
<STACK-NAME>-hudi-db-creator
, valitse studio.
- Lataa muistikirja rsv2-hudi-db-creator-notebook.
- Valitse latauskuvake.
- Valitse ladattu Jupyter-muistikirja ja valitse avoin.
- Avaa ladattu muistikirja.
- varten Kuva, valitse KipinäMagic.
- varten Ydin, valitse PySpark.
- Jätä muut asetukset oletusasetuksiksi ja valitse valita.
- Valita Cluster muodostaaksesi yhteyden EMR-klusteriin.
- Valitse EMR EC2-klusterissa (
<STACK-NAME>-EMR-Cluster
) luotu CloudFormation-pinolla. - Valita kytkeä.
- varten EMR-suoritusrooli, valitse
<STACK-NAME>-hudi-db-creator-role
. - Valita kytkeä.
Luo tietokanta ja taulukoita
Nyt voit seurata muistikirjan ohjeita Hudi-tietokannan ja -taulukoiden luomiseksi. Tärkeimmät vaiheet ovat seuraavat:
- Kun käynnistät muistikirjan, määritä
“spark.sql.catalog.spark_catalog.lf.managed":"true"
ilmoittaa Sparkille, että spark_catalog on Lake Formationin suojaama. - Luo Hudi-taulukoita käyttämällä seuraavaa Spark SQL:ää.
- Lisää tiedot lähdetaulukosta Hudi-taulukoihin.
- Lisää tiedot uudelleen Hudi-taulukoihin.
Pyydä Hudi-taulukoita Lake Formationin kautta FGAC:n avulla
Kun olet luonut Hudi-tietokannan ja -taulukot, olet valmis tekemään kyselyitä taulukoista käyttämällä Lake Formationin hienorakeista pääsynhallintaa. Olemme luoneet kahdenlaisia Hudi-taulukoita: Copy-On-Write (COW) ja Merge-On-Read (MOR). COW-taulukko tallentaa tiedot sarakemuodossa (Parketti), ja jokainen päivitys luo tiedostoista uuden version kirjoituksen aikana. Tämä tarkoittaa, että jokaisen päivityksen yhteydessä Hudi kirjoittaa koko tiedoston uudelleen, mikä voi olla resurssivaltaisempaa, mutta tarjoaa nopeamman lukusuorituksen. MOR sitä vastoin otetaan käyttöön tapauksissa, joissa COW ei ehkä ole optimaalinen, erityisesti raskaassa kirjoitus- tai muutostyökuormissa. MOR-taulukossa Hudi kirjoittaa aina päivityksen yhteydessä vain muuttuneen tietueen rivin, mikä vähentää kustannuksia ja mahdollistaa alhaisen viiveen kirjoittamisen. Lukukyky saattaa kuitenkin olla hitaampi verrattuna COW-taulukoihin.
Myönnä taulukon käyttöoikeus
Käytämme IAM-roolia<STACK-NAME>-hudi-table-pii-role
PII-sarakkeita sisältävien Hudi COW- ja MOR-kyselyiden tekemiseen. Ensin myönnämme pöydälle käyttöoikeuden Lake Formationin kautta:
- Valitse Lake Formation -konsolissa Datajärven käyttöoikeudet varten Oikeudet navigointipaneelissa.
- Valita Grant.
- Valita
<STACK-NAME>-hudi-table-pii-role
varten IAM-käyttäjät ja -roolit. - Valitse
rsv2_blog_hudi_db_1
tietokanta varten Tietokannat. - varten taulukot, valitse neljä Hudi-taulukkoa, jotka loit Jupyter-muistikirjassa.
- varten Taulukon käyttöoikeudetvalitse valita.
- Valita Grant.
Pyydä henkilökohtaisia tunnistetietoja
Nyt olet valmis käyttämään muistikirjaa ja kyselemään Hudi-taulukoita. Suoritetaan muistikirjan SageMaker Studiossa samanlaisia vaiheita kuin edellisessä osiossa:
- Siirry SageMaker-konsolissa kohtaan
<STACK-NAME>-Studio-EMR-LF-Hudi
domain. - On Käynnistää valikko vieressä
<STACK-NAME>-hudi-table-reader
käyttäjäprofiili, valitse studio. - Lataa ladattu muistikirja rsv2-hudi-table-pii-reader-notebook.
- Avaa ladattu muistikirja.
- Toista kannettavan tietokoneen asennusvaiheet ja muodosta yhteys samaan EMR-klusteriin, mutta käytä roolia
<STACK-NAME>-hudi-table-pii-role
.
Nykyisessä vaiheessa FGAC-yhteensopivan EMR-klusterin on tehtävä kysely Hudin toimitusaikasarakkeesta lisäkyselyiden ja aikamatkojen suorittamista varten. Se ei tue Sparkin "aikaleimaa" syntaksia ja Spark.read()
. Pyrimme aktiivisesti sisällyttämään tuen molemmille toimille tulevissa Amazon EMR -julkaisuissa FGAC-toiminnolla.
Voit nyt seurata muistikirjan ohjeita. Seuraavassa on joitain korostettuja vaiheita:
- Suorita tilannekuvakysely.
- Suorita asteittainen kysely.
- Suorita aikamatkakysely.
- Suorita MOR-lukuoptimoituja ja reaaliaikaisia taulukkokyselyitä.
Tee kyselyjä Hudi-taulukoista sarake- ja rivitason tietosuodattimilla
Käytämme IAM-roolia<STACK-NAME>-hudi-table-non-pii-role
tehdä kyselyjä Hudi-taulukoista. Tämä rooli ei saa tehdä kyselyitä henkilökohtaisia tunnistetietoja sisältävistä sarakkeista. Käytämme Lake Formation -sarake- ja rivitason tietosuodattimia hienorakeisen pääsynhallinnan toteuttamiseen:
- Valitse Lake Formation -konsolissa Tietosuodattimet varten Tietoluettelo navigointipaneelissa.
- Valita Luo uusi suodatin.
- varten Tietosuodattimen nimi, tulla sisään
customer-pii-filter
. - Valita
rsv2_blog_hudi_db_1
varten Kohdetietokanta. - Valita
rsv2_blog_hudi_mor_sql_dl_customer_1
varten Kohdetaulukko. - valita Sulje pois sarakkeet Ja valitse
c_customer_id
,c_email_address
jac_last_name
sarakkeita. - enter
c_birth_country != 'HONG KONG'
varten Rivisuodatinlauseke. - Valita Luo suodatin.
- Valita Datajärven käyttöoikeudet varten Oikeudet navigointipaneelissa.
- Valita Grant.
- Valita
<STACK-NAME>-hudi-table-non-pii-role
varten IAM-käyttäjät ja -roolit. - Valita
rsv2_blog_hudi_db_1
varten Tietokannat. - Valita
rsv2_blog_hudi_mor_sql_dl_tpc_customer_1
varten taulukot. - Valita
customer-pii-filter
varten Tietosuodattimet. - varten Tietosuodattimen käyttöoikeudetvalitse valita.
- Valita Grant.
Suoritetaan muistikirjan SageMaker Studiossa samanlaisia vaiheita:
- Siirry SageMaker-konsolissa toimialueelle
Studio-EMR-LF-Hudi
. - On Käynnistää valikko
hudi-table-reader
käyttäjäprofiili, valitse studio. - Lataa ladattu muistikirja rsv2-hudi-table-non-pii-reader-notebook Ja valitse avoin.
- Toista kannettavan tietokoneen asennusvaiheet ja muodosta yhteys samaan EMR-klusteriin, mutta valitse rooli
<STACK-NAME>-hudi-table-non-pii-role
.
Voit nyt seurata muistikirjan ohjeita. Kyselytuloksista näet, että FGAC:tä Lake Formation -tietosuodattimen kautta on käytetty. Rooli ei näe henkilökohtaisia tunnistetietojac_customer_id
,c_last_name
jac_email_address
. Myös rivit alkaenHONG KONG
on suodatettu.
Puhdistaa
Kun olet lopettanut ratkaisun kokeilun, suosittelemme puhdistamaan resurssit seuraavilla vaiheilla odottamattomien kustannusten välttämiseksi:
- Sammuta SageMaker Studio -sovellukset käyttäjäprofiileja varten.
EMR-klusteri poistetaan automaattisesti tyhjäkäynnin aikakatkaisuarvon jälkeen.
- Poista Amazonin elastinen tiedostojärjestelmä (Amazon EFS) -taltio luotu verkkotunnukselle.
- Tyhjennä S3-kauhat CloudFormation-pinon luoma.
- Poista pino AWS CloudFormation -konsolissa.
Yhteenveto
Tässä viestissä käytimme Apachi Hudia, yhden tyyppisiä OTF-taulukoita, esitelläksemme tätä uutta ominaisuutta pakottaaksemme Amazon EMR:n hienorakeisen kulunhallinnan. Voit määrittää Lake Formationissa OTF-taulukoille yksityiskohtaisia käyttöoikeuksia ja käyttää niitä Spark SQL -kyselyillä EMR-klustereissa. Voit myös käyttää tapahtumatietojärven ominaisuuksia, kuten tilannekuvakyselyjen suorittamista, lisäkyselyitä, aikamatkailua ja DML-kyselyä. Huomaa, että tämä uusi ominaisuus kattaa kaikki OTF-taulukot.
Tämä ominaisuus on julkaistu Amazon EMR -julkaisusta 6.15 alkaen alueet missä Amazon EMR on saatavilla. Amazon EMR -integraation avulla Lake Formationin kanssa voit luotettavasti hallita ja käsitellä suurdataa, avata oivalluksia ja helpottaa tietoon perustuvaa päätöksentekoa samalla kun säilytät tietoturvan ja hallinnon.
Lisätietoja saat osoitteesta Ota Lake Formation käyttöön Amazon EMR:n avulla ja ota rohkeasti yhteyttä AWS Solutions -arkkitehtiisi, jotka voivat olla avuksi datamatkasi aikana.
kirjailijasta
Raymond Lai on Senior Solutions Architect, joka on erikoistunut palvelemaan suuryritysasiakkaiden tarpeita. Hänen asiantuntemuksensa on auttaa asiakkaita siirtämään monimutkaisia yritysjärjestelmiä ja tietokantoja AWS:ään, rakentamaan yritystietovarastointia ja data Lake -alustoja. Raymond on erinomainen tunnistamaan ja suunnittelemaan ratkaisuja AI/ML-käyttötapauksiin, ja hän keskittyy erityisesti AWS Serverless -ratkaisuihin ja Event Driven Architecture -suunnitteluun.
Bin Wang, PhD, on AWS:n Senior Analytic Specialist Solutions -arkkitehti, jolla on yli 12 vuoden kokemus ML-teollisuudesta, joka keskittyy erityisesti mainontaan. Hänellä on asiantuntemusta luonnollisen kielen käsittelystä (NLP), suositusjärjestelmistä, erilaisista ML-algoritmeista ja ML-operaatioista. Hän on syvästi intohimoinen ML/DL- ja big data -tekniikoiden soveltamisesta todellisten ongelmien ratkaisemiseen.
Aditya Shah on AWS:n ohjelmistokehitysinsinööri. Hän on kiinnostunut tietokannoista ja tietovarastomoottoreista ja on työskennellyt suorituskyvyn optimoinnin, tietoturva- ja ACID-yhteensopivuuden parissa moottoreille, kuten Apache Hive ja Apache Spark.
Melody Yang on vanhempi Big Data Solution -arkkitehti Amazon EMR:lle AWS:ssä. Hän on kokenut analytiikan johtaja, joka työskentelee AWS-asiakkaiden kanssa tarjotakseen parhaita käytäntöjä koskevia ohjeita ja teknisiä neuvoja auttaakseen heitä onnistumaan tietojen muuntamisessa. Hänen kiinnostuksen kohteitaan ovat avoimen lähdekoodin viitekehykset ja automaatio, tietotekniikka ja DataOps.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 1
- 10
- 100
- 11
- 12
- 130
- 15%
- 16
- 17
- 20
- 22
- 400
- 7
- 8
- 9
- a
- Meistä
- pääsy
- Tili
- tunnustaa
- toimet
- aktiivisesti
- lisä-
- Lisäksi
- osoitteet
- admin
- ylläpitäjät
- mainonta
- neuvot
- Jälkeen
- uudelleen
- AI / ML
- algoritmit
- Kaikki
- sallia
- sallittu
- mahdollistaa
- rinnalla
- Myös
- Amazon
- Amazon EC2
- Amazonin EMR
- Amazon Web Services
- an
- analyysi
- analyytikot
- Analyyttinen
- Analytics
- analysointi
- ja
- Kaikki
- Apache
- Apache Spark
- Hakemus
- sovellettu
- käyttää
- Hakeminen
- arkkitehdit
- arkkitehtuuri
- OVAT
- alueet
- noin
- AS
- auttaa
- Apu
- avustaminen
- olettaa
- At
- tilintarkastus
- viranomaisen
- valtuutettu
- automaattisesti
- Automaatio
- saatavissa
- välttää
- AWS
- AWS-pilvi9
- AWS-pilven muodostuminen
- AWS-järvien muodostuminen
- takaisin
- perustua
- BE
- ollut
- takana
- ovat
- Hyödyt
- lisäksi
- PARAS
- Iso
- Big Data
- blogit
- kehuskelevan
- sekä
- rakentaa
- mutta
- by
- CA
- CAN
- kykenee
- kuljettaa
- kuljettaa
- tapaus
- tapauksissa
- luettelo
- ateriapalvelu
- tietty
- todistus
- todistukset
- Certification
- muuttaa
- muuttunut
- Muutokset
- Kiina
- Valita
- Siivous
- Cloud9
- Cluster
- koodi
- Sarake
- Pylväät
- KOM
- yhdistelmä
- sitoutumaan
- Yritykset
- verrattuna
- täydellinen
- noudattaminen
- komponentti
- osat
- Laskea
- tietokone
- käsite
- olosuhteet
- Suorittaa
- itsevarmasti
- Konfigurointi
- kytkeä
- Console
- rakentamalla
- ottaa yhteyttä
- sisältää
- sisältää
- ohjaus
- hallinnassa
- valvonta
- kopiointi
- vastaava
- Hinta
- kustannukset
- maa
- kannet
- luoda
- luotu
- luo
- Luominen
- luoja
- Nykyinen
- asiakassuhde
- Asiakkaat
- tiedot
- tietojen käyttö
- tietojen analysointi
- Datajärvi
- Tietoalusta
- Tietosuoja
- tietojenkäsittely
- tietoturva
- tietovarasto
- tietokanta
- tietokannat
- Päätöksenteko
- syvästi
- oletusarvo
- määritellä
- Delta
- osoittaa
- esittelyssä
- sijoittaa
- käyttöönotto
- Malli
- suunnittelu
- yksityiskohdat
- Kehitys
- eri
- selvä
- useat
- dns
- do
- ei
- ei
- verkkotunnuksen
- tehty
- Dont
- alas
- download
- ajanut
- aikana
- kukin
- muu
- mahdollistaa
- käytössä
- mahdollistaa
- salaus
- loppu
- päätepisteet
- valvoa
- Moottori
- insinööri
- Tekniikka
- Moottorit
- varmistaa
- varmistaa
- varmistamalla
- enter
- yritys
- yritysasiakkaat
- Koko
- ympäristö
- Eetteri (ETH)
- tapahtuma
- Joka
- esimerkki
- teloitus
- olemassa
- experience
- kokenut
- asiantuntemus
- tutkimus
- ulottuu
- ulkoinen
- helpottaminen
- nopeampi
- Ominaisuus
- Ominaisuudet
- tuntea
- filee
- Asiakirjat
- suodattaa
- suodatus
- suodattimet
- Etunimi
- Keskittää
- keskittyy
- seurata
- jälkeen
- seuraa
- varten
- muoto
- muodostus
- neljä
- Puitteet
- puitteet
- Ilmainen
- alkaen
- Täyttää
- koko
- toiminnallisuus
- edelleen
- tulevaisuutta
- Saada
- syntyy
- hallinto
- säännellään
- myöntää
- suuresti
- Ryhmä
- Ryhmän
- ohjaus
- käsi
- Olla
- he
- hänen
- tätä
- Korostettu
- hänen
- historiallinen
- historia
- Hive
- Hong
- Hongkong
- Talo
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- IAM
- ICON
- ID
- ajatus
- tunnistaa
- tunnistaminen
- Idle
- if
- havainnollistaa
- toteuttaa
- parantaa
- in
- sisältää
- Mukaan lukien
- sisältävät
- inkrementaalinen
- Intia
- teollisuus
- ilmoittaa
- tiedot
- tietoa
- panos
- oivalluksia
- integroitu
- Integrointi
- integraatio
- vuorovaikutteinen
- kiinnostunut
- etu
- liitäntä
- sisäinen
- tulee
- monimutkainen
- käyttöön
- Esittelee
- kysymys
- IT
- SEN
- Job
- Työpaikat
- matka
- jpg
- Jupyter Notebook
- avain
- Kong
- järvi
- Kieli
- suuri
- Sukunimi
- käynnistää
- käynnistettiin
- johtaja
- OPPIA
- tasot
- piilee
- pitää
- RAJOITA
- linjat
- paikallinen
- sijainti
- sijainnit
- Kirjaudu sisään
- merkittävä
- tehdä
- hoitaa
- onnistui
- johto
- johtaja
- monet
- Saattaa..
- välineet
- mekanismit
- kokous
- valikko
- Metadata
- ehkä
- siirtyvät
- pöytäkirja
- ML
- ML-algoritmit
- muokattu
- lisää
- liike
- nimi
- nimet
- Luonnollinen
- Luonnollinen kieli
- Luonnollinen kielen käsittely
- Navigoida
- suunnistus
- Tarve
- tarpeet
- Uusi
- uusi ominaisuus
- hiljattain
- seuraava
- NLP
- solmu
- huomata
- muistikirja
- kannettavat tietokoneet
- nyt
- esineet
- of
- usein
- on
- ONE
- vain
- avata
- avoimen lähdekoodin
- openssl
- Operations
- optimaalinen
- Optimoida
- Vaihtoehto
- Vaihtoehdot
- or
- tilata
- organisaatio
- Muut
- ulos
- yli
- pari
- lasi
- erityinen
- erityisesti
- intohimoinen
- maksaa
- suorituskyky
- esittävä
- lupa
- Oikeudet
- Henkilökohtaisesti
- phd
- pii
- placeholder
- foorumi
- Platforms
- Platon
- Platonin tietotieto
- PlatonData
- Ole hyvä
- plus
- pistettä
- Suosittu
- hallussaan
- Kirje
- harjoitusta.
- säilöntä
- edellinen
- ensisijainen
- yksityisyys
- etuoikeus
- oikeudet
- ongelmia
- prosessi
- käsittely
- tuotanto
- Profiili
- Profiilit
- todiste
- todiste käsitteestä
- suojattu
- suojaus
- toimittaa
- tarjoaa
- tarjoamalla
- julkinen
- tarkoituksiin
- kyselyt
- Lue
- Lukeminen
- valmis
- todellinen maailma
- reaaliaikainen
- suositella
- ennätys
- elpyminen
- vähentää
- vähentämällä
- katso
- viittaa
- heijastaa
- alue
- ilmoittautua
- kirjattu
- määräykset
- vapauta
- Tiedotteet
- merkityksellinen
- korvata
- tarvitaan
- vaatimukset
- resurssi
- resursseja kuluttava
- Esittelymateriaalit
- johtua
- tulokset
- oikeudet
- Rooli
- roolit
- RIVI
- rsa
- säännöt
- ajaa
- juoksu
- sagemaker
- sama
- Säästä
- Osa
- turvallinen
- turvattu
- turvallisuus
- nähdä
- etsiä
- valita
- vanhempi
- sensible
- palvelin
- serverless
- Palvelut
- Istunto
- setti
- Setit
- settings
- setup
- hän
- merkki
- merkittävästi
- samankaltainen
- Yksinkertainen
- yksinkertaistetaan
- yksinkertaistaa
- koska
- Kuva
- So
- Tuotteemme
- ohjelmistokehitys
- ratkaisu
- Ratkaisumme
- SOLVE
- jonkin verran
- lähde
- Kipinä
- asiantuntija
- erikoistunut
- SQL
- pino
- Vaihe
- Alkaa
- alkoi
- Aloita
- lausuntoja
- Askeleet
- Levytila
- varastot
- Strategia
- jono
- studio
- antaa
- aliverkkoon
- menestys
- niin
- YHTEENVETO
- tuki
- Tukee
- varma
- syntaksi
- järjestelmät
- taulukko
- TAG
- vie
- Tekninen
- tekniikat
- sapluuna
- terminaali
- että
- -
- Lähde
- heidän
- Niitä
- sitten
- Siellä.
- Nämä
- ne
- tätä
- kolmella
- Kautta
- aika
- aikamatka
- aikajana
- että
- Seuranta
- kauppa
- kaupallisen
- Muutos
- kauttakulku
- matkustaa
- totta
- luotettu
- Ts
- kaksi
- tyyppi
- tyypit
- ui
- varten
- Odottamaton
- tuntematon
- lukituksen
- Päivitykset
- päivitetty
- puolustaminen
- ladattu
- URI
- käyttää
- käyttölaukku
- käytetty
- käyttäjä
- Käyttäjät
- käyttämällä
- vahvistaa
- arvo
- eri
- versio
- kautta
- näkyvyys
- tilavuus
- Varasto
- Varastointi
- we
- verkko
- verkkopalvelut
- kun
- taas
- joka
- vaikka
- KUKA
- tulee
- with
- sisällä
- työskenteli
- työskentely
- kirjoittaa
- vuotta
- te
- Sinun
- zephyrnet
- nolla-
- Postinumero