koos Amazon EMR 6.15, käivitasime AWS järve kihistu põhinevad peeneteralised juurdepääsukontrollid (FGAC) avatud tabelivormingutel (OTF), sealhulgas Apache Hudi, Apache Iceberg ja Delta Lake. See võimaldab teil turvalisust ja juhtimist lihtsustada tehinguandmete järved pakkudes oma Apache Sparki töödega tabeli-, veeru- ja reataseme lubade juurdepääsu juhtelemente. Paljud suurettevõtted püüavad kasutada oma tehinguandmete järve, et saada ülevaadet ja parandada otsuste tegemist. Järvemaja arhitektuuri saate ehitada, kasutades FGAC-i jaoks Lake Formationiga integreeritud Amazon EMR-i. See teenuste kombinatsioon võimaldab teil teha oma tehinguandmete järve andmete analüüsi, tagades samas turvalise ja kontrollitud juurdepääsu.
Amazon EMR-i kirjeserveri komponent toetab tabeli-, veeru-, rea-, lahtri- ja pesastatud atribuuditaseme andmete filtreerimise funktsioone. See laiendab tuge Hive, Apache Hudi, Apache Iceberg ja Delta lake vormingutele nii lugemiseks (sealhulgas ajas rändamine ja järkjärguline päring) kui ka kirjutamistoiminguteks (DML-lausete puhul, nagu INSERT). Lisaks tutvustab Amazon EMR versiooniga 6.15 juurdepääsukontrolli kaitset oma rakenduse veebiliidesele, nagu klastrisisene Spark History Server, Yarn Timeline Server ja Yarn Resource Manager kasutajaliides.
Selles postituses näitame, kuidas FGAC-i sisse lülitada Apache Hudi tabelid, mis kasutavad Lake Formationiga integreeritud Amazon EMR-i.
Tehinguandmete järve kasutusjuhtum
Amazon EMR-i kliendid kasutavad sageli avatud tabelivorminguid, et toetada oma ACID-tehinguid ja ajas reisimise vajadusi andmejärves. Säilitades ajaloolised versioonid, pakub Data Lake'i ajarännak selliseid eeliseid nagu auditeerimine ja vastavus, andmete taastamine ja tagasipööramine, reprodutseeritav analüüs ja andmete uurimine erinevatel ajahetkedel.
Teine populaarne tehinguandmete järve kasutusjuhtum on järkjärguline päring. Täiendav päring viitab päringustrateegiale, mis keskendub ainult andmete järve uute või värskendatud andmete töötlemisele ja analüüsimisele alates viimasest päringust. Inkrementaalsete päringute põhiidee on kasutada metaandmeid või muuta jälgimismehhanisme, et tuvastada uusi või muudetud andmeid alates viimasest päringust. Neid muudatusi tuvastades saab päringumootor optimeerida päringut, et töödelda ainult asjakohaseid andmeid, vähendades oluliselt töötlemise aega ja ressursivajadust.
Lahenduse ülevaade
Selles postituses näitame, kuidas rakendada FGAC-i Apache Hudi tabelites, kasutades Amazon EMR-i Amazon Elastic Compute Cloud (Amazon EC2), mis on integreeritud Lake Formationiga. Apache Hudi on avatud lähtekoodiga tehinguandmete järve raamistik, mis lihtsustab oluliselt andmete järkjärgulist töötlemist ja andmekanalite arendamist. See uus FGAC-funktsioon toetab kõiki OTF-e. Lisaks Hudiga siin demonstreerimisele jälgime ka teisi OTF-i tabeleid teiste ajaveebidega. Me kasutame märkmikud in Amazon SageMaker Studio Hudi andmete lugemiseks ja kirjutamiseks erinevate kasutajate juurdepääsulubade kaudu EMR-klastri kaudu. See kajastab tegelikke andmetele juurdepääsu stsenaariume – näiteks kui insenerikasutaja vajab andmeplatvormil tõrkeotsinguks täielikku juurdepääsu andmetele, samas kui andmeanalüütikutel võib olla vaja juurde pääseda ainult nende andmete alamhulgale, mis ei sisalda isikut tuvastavat teavet (PII). ). Integreerimine Lake Formationiga läbi Amazon EMR käitusaegne roll võimaldab teil veelgi parandada oma andmeturbeasendit ja lihtsustab andmete kontrolli haldamist Amazon EMR-i töökoormuste jaoks. See lahendus tagab turvalise ja kontrollitud keskkonna andmetele juurdepääsuks, mis vastab erinevate kasutajate ja rollide erinevatele vajadustele ja turvanõuetele organisatsioonis.
Järgnev diagramm illustreerib lahenduse arhitektuuri.
Viime läbi andmete sisestamise protsessi, et Hudi andmestik üles laadida (värskendada ja sisestada). Amazoni lihtne salvestusteenus (Amazon S3) ämbrisse ja säilitage või värskendage tabeliskeemi AWS liim Andmekataloog. Nullandmete liikumise korral saame teha päringuid Lake Formationi juhitavast Hudi tabelist erinevate AWS-teenuste kaudu, näiteks Amazonase Athena, Amazon EMR ja Amazon SageMaker.
Kui kasutajad esitavad Sparki töö mis tahes EMR-klastri lõpp-punkti (EMR Steps, Livy, EMR Studio ja SageMaker) kaudu, kinnitab Lake Formation nende õigused ja annab EMR-klastrile korralduse filtreerida välja tundlikud andmed, nagu PII-andmed.
Sellel lahendusel on kolm erinevat tüüpi kasutajaid, kellel on Hudi andmetele juurdepääsuks erinevad õigused:
- hudi-db-looja-roll – Seda kasutab andmejärve administraator, kellel on õigused teha DDL-i toiminguid, nagu andmebaasiobjektide loomine, muutmine ja kustutamine. Nad saavad määratleda andmete filtreerimise reeglid Lake Formationis rea- ja veerutasemel andmetele juurdepääsu juhtimiseks. Need FGAC-i reeglid tagavad, et Data Lake on turvatud ja vastab nõutavatele andmete privaatsuseeskirjadele.
- hudi-laud-pii-roll – Seda kasutavad inseneri kasutajad. Insenerikasutajad on võimelised sooritama ajarännakuid ja järkjärgulisi päringuid nii kopeerimisel kirjutamisel (CoW) kui ka lugemisel ühendamisel (MoR). Neil on ka privileeg pääseda juurde PII andmetele mis tahes ajatempli alusel.
- hudi-laud-mitte-pii-roll – Seda kasutavad andmeanalüütikud. Andmeanalüütikute andmetele juurdepääsu õigusi reguleerivad FGAC-i volitatud reeglid, mida kontrollivad Data Lake'i administraatorid. Need ei ole nähtavad veergudes, mis sisaldavad isikut tuvastavaid andmeid (nt nimesid ja aadresse). Lisaks ei pääse nad juurde andmeridadele, mis ei vasta teatud tingimustele. Näiteks pääsevad kasutajad juurde ainult nende riigile kuuluvatele andmeridadele.
Eeldused
Selles postituses kasutatud kolm märkmikku saate alla laadida saidilt GitHub repo.
Enne lahenduse juurutamist veenduge, et teil on olemas järgmised asjad.
Lubade seadistamiseks tehke järgmised toimingud.
- Logige oma AWS-i kontole sisse oma administraatori IAM-i kasutajaga.
Veenduge, et oleteus-east-1
Piirkond.
- Looge S3 ämber
us-east-1
Piirkond (näiteksemr-fgac-hudi-us-east-1-<ACCOUNT ID>
).
Järgmisena lubame Lake Formation by vaikelubade mudeli muutmine.
- Logige sisse Lake Formationi konsooli administraatori kasutajana.
- Vali Andmekataloogi seaded all haldus navigeerimispaanil.
- alla Vaikimisi õigused vastloodud andmebaasidele ja tabelitele, tühistage valik Kasutage uute andmebaaside jaoks ainult IAM-i juurdepääsu juhtimist ja Kasutage uutes andmebaasides uute tabelite jaoks ainult IAM-i juurdepääsu juhtimist.
- Vali Säästa.
Teise võimalusena peate tühistama rakenduse IAMAllowedPrincipals ressurssidelt (andmebaasid ja tabelid), mis on loodud, kui käivitasite Lake Formationi vaikevalikuga.
Lõpuks loome Amazon EMR-i võtmepaari.
- Amazon EC2 konsoolil valige Võtmepaarid navigeerimispaanil.
- Vali Loo võtmepaar.
- eest Nimi, sisestage nimi (näiteks
emr-fgac-hudi-keypair
). - Vali Loo võtmepaar.
Loodud võtmepaar (selle postituse jaoks emr-fgac-hudi-keypair.pem
) salvestab teie kohalikku arvutisse.
Järgmisena loome an AWSi pilv interaktiivne arenduskeskkond (IDE).
- Valige AWS Cloud9 konsoolil Keskkonnad navigeerimispaanil.
- Vali Loo keskkond.
- eest Nimi¸ sisestage nimi (näiteks
emr-fgac-hudi-env
). - Hoidke muud seaded vaikeseadetena.
- Vali Looma.
- Kui IDE on valmis, valige avatud avada see.
- AWS Cloud9 IDE-s fail menüüst valige Laadige üles kohalikud failid.
- Laadi üles võtmepaari fail (
emr-fgac-hudi-keypair.pem
). - Valige plussmärk ja valige Uus terminal.
- Sisestage terminalis järgmised käsuread:
Pange tähele, et näidiskood on kontseptsiooni tõestus ainult tutvustamise eesmärgil. Tootmissüsteemide puhul kasutage sertifikaatide väljastamiseks usaldusväärset sertifitseerimisasutust (CA). Viitama Sertifikaatide pakkumine edastatavate andmete krüptimiseks Amazon EMR-krüptimisega üksikasjad.
Juurutage lahendus AWS CloudFormationi kaudu
Pakume an AWS CloudFormation mall, mis seadistab automaatselt järgmised teenused ja komponendid:
- S3 ämber andmejärve jaoks. See sisaldab näidisandmestikku TPC-DS.
- Lubatud turvakonfiguratsiooni ja avaliku DNS-iga EMR-klaster.
- EMR-i käitusaegsed IAM-rollid Lake Formationi täpsete lubadega:
- -hudi-db-looja-roll – Seda rolli kasutatakse Apache Hudi andmebaasi ja tabelite loomiseks.
- -hudi-table-pii-roll – See roll annab loa teha päringuid kõigist Hudi tabelite veergudest, sealhulgas isikuandmetega veergudest.
- -hudi-tabel-mitte-pii-roll – See roll annab loa teha päringuid Hudi tabelite kohta, mis on PII veerud Lake Formationi järgi välja filtreerinud.
- SageMaker Studio täitmisrollid, mis võimaldavad kasutajatel võtta endale vastavad EMR-i käitusaja rollid.
- Võrguressursid, nagu VPC, alamvõrgud ja turberühmad.
Ressursside juurutamiseks tehke järgmised sammud.
- Vali Kiire virna loomine CloudFormationi virna käivitamiseks.
- eest Virna nimi, sisestage virna nimi (näiteks
rsv2-emr-hudi-blog
). - eest Ec2KeyPair, sisestage oma võtmepaari nimi.
- eest IdleTimeout, sisestage EMR-klastri jõudeoleku aeg, et vältida klastri eest tasumist, kui seda ei kasutata.
- eest InitS3Bucket, sisestage Amazon EMR-i krüpteerimissertifikaadi ZIP-faili salvestamiseks loodud S3 ämbri nimi.
- eest S3CertsZip, sisestage Amazon EMR-i krüpteerimissertifikaadi .zip-faili S3 URI.
- valima Tunnistan, et AWS CloudFormation võib luua kohandatud nimedega IAM-i ressursse.
- Vali Loo virn.
CloudFormationi virna juurutamine võtab aega umbes 10 minutit.
Seadistage Lake Formation Amazon EMR-i integreerimiseks
Lake Formationi seadistamiseks järgige järgmisi samme.
- Valige Lake Formationi konsoolil Rakenduste integreerimise seaded all haldus navigeerimispaanil.
- valima Lubage välistel mootoritel andmeid filtreerida Amazon S3 asukohtades, mis on registreeritud Lake Formationis.
- Vali Amazon EMR eest Seansi märgendi väärtused.
- Sisestage oma AWS-i konto ID AWS-i konto ID-d.
- Vali Säästa.
- Vali Andmebaasid all Andmekataloog navigeerimispaanil.
- Vali Loo andmebaas.
- eest Nimi, sisestage vaikeseade.
- Vali Loo andmebaas.
- Vali Andmejärve load all Õigused navigeerimispaanil.
- Vali Grant.
- valima IAM-i kasutajad ja rollid.
- Valige oma IAM-i rollid.
- eest Andmebaasid, valige vaikeseade.
- eest Andmebaasi õigusedvalige Kirjeldama.
- Vali Grant.
Kopeerige Hudi JAR-fail Amazon EMR HDFS-i
Et kasutage Hudit koos Jupyteri sülearvutitega, peate EMR-klastri jaoks tegema järgmised sammud, mis hõlmab Hudi JAR-faili kopeerimist Amazon EMR-i kohalikust kataloogist selle HDFS-mällu, et saaksite Sparki seansi Hudi kasutamiseks konfigureerida.
- Sissetuleva SSH-liikluse volitamine (port 22).
- Kopeerige väärtus Primaarse sõlme avalik DNS (näiteks ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) EMR klastrist kokkuvõte sektsiooni.
- Minge tagasi eelmisele AWS Cloud9 terminalile, mida kasutasite EC2 võtmepaari loomiseks.
- Käivitage järgmine käsk SSH-le EMR-i esmasesse sõlme. Asendage kohatäide oma EMR DNS-i hostinimega:
- Käivitage järgmine käsk, et kopeerida Hudi JAR-fail HDFS-i:
Looge Lake Formationis Hudi andmebaas ja tabelid
Nüüd oleme valmis looma Hudi andmebaasi ja tabeleid FGAC-iga, mis on lubatud EMR-i käitusaja rolliga. The EMR käitusaegne roll on IAM-i roll, mille saate määrata, kui saadate EMR-klastrisse töö või päringu.
Andke andmebaasi loojale luba
Esiteks andkem Lake Formationi andmebaasi loojale luba<STACK-NAME>-hudi-db-creator-role
:
- Logige oma AWS-i kontole sisse administraatorina.
- Valige Lake Formationi konsoolil Administraatorirollid ja ülesanded all haldus navigeerimispaanil.
- Kinnitage, et teie AWS-i sisselogimiskasutaja on lisatud Data Lake'i administraatoriks.
- aasta Andmebaasi looja Valige jaotises Grant.
- eest IAM-i kasutajad ja rollid, vali
<STACK-NAME>-hudi-db-creator-role
. - eest Kataloogi loadvalige Loo andmebaas.
- Vali Grant.
Registreerige andmejärve asukoht
Järgmisena registreerime S3 andmejärve asukoha Lake Formationis:
- Valige Lake Formationi konsoolil Andmejärvede asukohad all haldus navigeerimispaanil.
- Vali Registreeri asukoht.
- eest Amazon S3 tee, Vali Sirvi ja vali andmejärve S3 ämber. (
<STACK_NAME>s3bucket-XXXXXXX
), mis on loodud CloudFormationi virust. - eest IAM roll, vali
<STACK-NAME>-hudi-db-creator-role
. - eest Loarežiimvalige Järve moodustumine.
- Vali Registreeri asukoht.
Andke andmete asukoha luba
Järgmiseks peame andma<STACK-NAME>-hudi-db-creator-role
andmete asukoha luba:
- Valige Lake Formationi konsoolil Andmete asukohad all Õigused navigeerimispaanil.
- Vali Grant.
- eest IAM-i kasutajad ja rollid, vali
<STACK-NAME>-hudi-db-creator-role
. - eest Ladustamiskohad, sisestage S3 ämber (
<STACK_NAME>-s3bucket-XXXXXXX
). - Vali Grant.
Ühendage EMR-klastriga
Nüüd kasutame SageMaker Studios Jupyteri märkmikku, et luua EMR-klastriga ühendus andmebaasi looja EMR-i käitusaja rolliga:
- Valige SageMakeri konsoolil Domeenid navigeerimispaanil.
- Valige domeen
<STACK-NAME>-Studio-EMR-LF-Hudi
. - Kohta Algatama menüü kasutajaprofiili kõrval
<STACK-NAME>-hudi-db-creator
, vali stuudio.
- Laadige sülearvuti alla rsv2-hudi-db-creator-notebook.
- Valige üleslaadimise ikoon.
- Valige allalaaditud Jupyteri märkmik ja valige avatud.
- Avage üleslaaditud märkmik.
- eest pilt, vali SparkMagic.
- eest Kernel, vali PySpark.
- Jätke muud konfiguratsioonid vaikeseadeteks ja valige valima.
- Vali Cluster EMR-klastriga ühenduse loomiseks.
- Valige EC2 klastris EMR (
<STACK-NAME>-EMR-Cluster
), mis on loodud virnaga CloudFormation. - Vali Võta meiega ühendust.
- eest EMR-i täideviimise roll, vali
<STACK-NAME>-hudi-db-creator-role
. - Vali Võta meiega ühendust.
Loo andmebaas ja tabelid
Nüüd saate Hudi andmebaasi ja tabelite loomiseks järgida märkmiku juhiseid. Peamised sammud on järgmised:
- Kui käivitate sülearvuti, konfigureerige
“spark.sql.catalog.spark_catalog.lf.managed":"true"
teavitama Sparki, et spark_catalog on kaitstud Lake Formationi poolt. - Looge Hudi tabelid, kasutades järgmist Spark SQL-i.
- Sisestage andmed lähtetabelist Hudi tabelitesse.
- Sisestage andmed uuesti Hudi tabelitesse.
Küsige Hudi tabeleid Lake Formationi kaudu FGAC-iga
Pärast Hudi andmebaasi ja tabelite loomist olete valmis tabelite kohta päringuid tegema, kasutades Lake Formationi täpset juurdepääsukontrolli. Oleme loonud kahte tüüpi Hudi tabeleid: Copy-On-Write (COW) ja Merge-On-Read (MOR). COW tabel salvestab andmed veerukujulises vormingus (Parkett) ja iga värskendus loob kirjutamise ajal failidest uue versiooni. See tähendab, et iga värskenduse korral kirjutab Hudi kogu faili ümber, mis võib olla ressursimahukam, kuid tagab kiirema lugemisvõime. MOR seevastu võetakse kasutusele juhtudel, kui COW ei pruugi olla optimaalne, eriti suure kirjutamis- või muutmiskoormuse korral. MOR-tabelis kirjutab Hudi iga värskenduse korral ainult muudetud kirje rea, mis vähendab kulusid ja võimaldab väikese latentsusega kirjutamist. Lugemise jõudlus võib aga COW-tabelitega võrreldes olla aeglasem.
Andke tabelile juurdepääsuõigus
Me kasutame IAM-i rolli<STACK-NAME>-hudi-table-pii-role
PII veerge sisaldavate Hudi COW ja MOR päringute tegemiseks. Esmalt anname tabelile juurdepääsuloa Lake Formationi kaudu:
- Valige Lake Formationi konsoolil Andmejärve load all Õigused navigeerimispaanil.
- Vali Grant.
- Vali
<STACK-NAME>-hudi-table-pii-role
eest IAM-i kasutajad ja rollid. - Vali
rsv2_blog_hudi_db_1
andmebaasi jaoks Andmebaasid. - eest Tabelid, valige neli Jupyteri märkmikus loodud Hudi tabelit.
- eest Tabeli õigusedvalige valima.
- Vali Grant.
PII veergude päring
Nüüd olete valmis Hudi tabelite päringute tegemiseks sülearvuti käivitama. Märkmiku käitamiseks SageMaker Studios järgime eelmise jaotisega sarnaseid samme:
- Navigeerige SageMakeri konsoolis
<STACK-NAME>-Studio-EMR-LF-Hudi
domeeni. - Kohta Algatama menüü kõrval
<STACK-NAME>-hudi-table-reader
kasutajaprofiil, valige stuudio. - Laadige allalaaditud märkmik üles rsv2-hudi-table-pii-reader-notebook.
- Avage üleslaaditud märkmik.
- Korrake sülearvuti seadistamise samme ja looge ühendus sama EMR-klastriga, kuid kasutage rolli
<STACK-NAME>-hudi-table-pii-role
.
Praeguses etapis peab FGAC-toega EMR-klaster lisapäringute ja ajarännakute tegemiseks esitama päringu Hudi sidumisaja veerust. See ei toeta Sparki süntaksit "ajatempli seisuga" ja Spark.read()
. Töötame aktiivselt selle nimel, et kaasata mõlema toimingu tugi tulevastesse Amazon EMR-i väljalasetesse, kus FGAC on lubatud.
Nüüd saate järgida märkmikus toodud samme. Järgmised on mõned esiletõstetud sammud.
- Käivitage hetktõmmise päring.
- Käivitage järkjärguline päring.
- Käivitage ajas reisimise päring.
- Käivitage MOR lugemiseks optimeeritud ja reaalajas tabelipäringuid.
Küsige Hudi tabeleid veeru- ja reataseme andmefiltritega
Me kasutame IAM-i rolli<STACK-NAME>-hudi-table-non-pii-role
Hudi tabelite päringute tegemiseks. Sellel rollil ei ole lubatud teha päringuid ühegi isikut tõendavat teavet sisaldava veeru kohta. Täpse juurdepääsukontrolli rakendamiseks kasutame Lake Formationi veerutaseme ja reataseme andmefiltreid:
- Valige Lake Formationi konsoolil Andmefiltrid all Andmekataloog navigeerimispaanil.
- Vali Loo uus filter.
- eest Andmefiltri nimi, sisenema
customer-pii-filter
. - Vali
rsv2_blog_hudi_db_1
eest Sihtandmebaas. - Vali
rsv2_blog_hudi_mor_sql_dl_customer_1
eest Sihtlaud. - valima Välista veerud ja vali
c_customer_id
,c_email_address
jac_last_name
veerud. - sisene
c_birth_country != 'HONG KONG'
eest Reafiltri avaldis. - Vali Loo filter.
- Vali Andmejärve load all Õigused navigeerimispaanil.
- Vali Grant.
- Vali
<STACK-NAME>-hudi-table-non-pii-role
eest IAM-i kasutajad ja rollid. - Vali
rsv2_blog_hudi_db_1
eest Andmebaasid. - Vali
rsv2_blog_hudi_mor_sql_dl_tpc_customer_1
eest Tabelid. - Vali
customer-pii-filter
eest Andmefiltrid. - eest Andmefiltri loadvalige valima.
- Vali Grant.
Järgime sarnaseid samme märkmiku käitamiseks SageMaker Studios:
- Navigeerige SageMakeri konsoolis domeenile
Studio-EMR-LF-Hudi
. - Kohta Algatama menüü jaoks
hudi-table-reader
kasutajaprofiil, valige stuudio. - Laadige allalaaditud märkmik üles rsv2-hudi-tabel-mitte-pii-lugeja-märkmik Ja vali avatud.
- Korrake sülearvuti seadistamise samme ja looge ühendus sama EMR-klastriga, kuid valige roll
<STACK-NAME>-hudi-table-non-pii-role
.
Nüüd saate järgida märkmikus toodud samme. Päringutulemustest näete, et FGAC Lake Formationi andmefiltri kaudu on rakendatud. Roll ei näe PII veergec_customer_id
,c_last_name
jac_email_address
. Samuti read alatesHONG KONG
on filtreeritud.
Koristage
Kui olete lahendusega katsetamise lõpetanud, soovitame ootamatute kulude vältimiseks ressursse puhastada järgmiste sammudega.
- Lülitage SageMaker Studio rakendused välja kasutajaprofiilide jaoks.
EMR-klaster kustutatakse automaatselt pärast jõudeoleku ajalõpu väärtust.
- Kustuta see Amazon elastne failisüsteem (Amazon EFS) domeeni jaoks loodud köide.
- Tühjendage S3 ämbrid loodud CloudFormationi virnaga.
- Kustutage AWS CloudFormationi konsoolil virn.
Järeldus
Selles postituses kasutasime Apachi Hudi, üht tüüpi OTF-tabeleid, et demonstreerida seda uut funktsiooni, et jõustada Amazon EMR-i täpset juurdepääsukontrolli. Saate määrata OTF-i tabelite jaoks üksikasjalikud õigused rakenduses Lake Formation ja rakendada neid Spark SQL-päringute kaudu EMR-klastrites. Samuti saate kasutada tehinguandmete järve funktsioone, nagu hetktõmmise päringute käitamine, järkjärgulised päringud, ajarännak ja DML-päring. Pange tähele, et see uus funktsioon hõlmab kõiki OTF-i tabeleid.
See funktsioon käivitatakse üldiselt alates Amazon EMR-i versioonist 6.15 Regioonide kus on saadaval Amazon EMR. Tänu Amazon EMR-i integreerimisele Lake Formationiga saate enesekindlalt hallata ja töödelda suurandmeid, avades teadmisi ja hõlbustades teadlike otsuste tegemist, säilitades samal ajal andmete turvalisuse ja haldamise.
Lisateabe saamiseks vaadake Järve moodustumise lubamine Amazon EMR-iga ja võtke julgelt ühendust oma AWS-i lahenduste arhitektidega, kes saavad teie andmereisil abiks olla.
Teave Autor
Raymond Lai on vanemlahenduste arhitekt, kes on spetsialiseerunud suurettevõtete klientide vajaduste rahuldamisele. Tema teadmised seisnevad klientide abistamises keerukate ettevõttesüsteemide ja andmebaaside AWS-ile üleviimisel, ettevõtte andmeladu ja andmejärve platvormide ehitamisel. Raymond on silmapaistev AI/ML kasutusjuhtude lahenduste leidmisel ja kavandamisel ning ta keskendub eelkõige AWS-i serverita lahendustele ja sündmustepõhisele arhitektuurile.
Bin Wang, PhD, on AWSi vanemanalüüsispetsialisti lahenduste arhitekt, kellel on üle 12-aastane kogemus ML-tööstuses, keskendudes eelkõige reklaamile. Tal on teadmised loomuliku keele töötlemise (NLP), soovitussüsteemide, mitmesuguste ML-algoritmide ja ML-operatsioonide alal. Ta on sügavalt kirglik ML/DL-i ja suurandmete tehnikate rakendamise vastu reaalmaailma probleemide lahendamiseks.
Aditya Shah on AWS-i tarkvaraarenduse insener. Ta on huvitatud andmebaasidest ja andmelaomootoritest ning on töötanud selliste mootorite nagu Apache Hive ja Apache Spark jõudluse optimeerimise, turbe vastavuse ja ACID-vastavuse kallal.
Meloodia Yang on AWS-i Amazon EMR suurandmete lahenduste vanemarhitekt. Ta on kogenud analüütikajuht, kes töötab AWS-i klientidega, et pakkuda parimate tavade juhiseid ja tehnilisi nõuandeid, et aidata neil andmete teisendamisel edu saavutada. Tema huvivaldkonnad on avatud lähtekoodiga raamistikud ja automatiseerimine, andmetöötlus ja DataOps.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/
- :on
- :on
- :mitte
- : kus
- $ UP
- 1
- 10
- 100
- 11
- 12
- 130
- 15%
- 16
- 17
- 20
- 22
- 400
- 7
- 8
- 9
- a
- MEIST
- juurdepääs
- konto
- kinnitada
- meetmete
- aktiivselt
- lisatud
- Lisaks
- aadressid
- admin
- administraatorid
- reklaam
- nõuanne
- pärast
- jälle
- AI / ML
- algoritme
- Materjal: BPA ja flataatide vaba plastik
- võimaldama
- lubatud
- võimaldab
- kõrval
- Ka
- Amazon
- Amazon EC2
- Amazon EMR
- Amazon Web Services
- an
- analüüs
- Analüütikud
- Analüütiline
- analytics
- analüüsides
- ja
- mistahes
- Apache
- Apache Spark
- taotlus
- rakendatud
- kehtima
- Rakendades
- arhitektid
- arhitektuur
- OLEME
- valdkondades
- ümber
- AS
- abistama
- Abi
- abistamine
- eeldab
- At
- auditeerimine
- asutus
- volitatud
- automaatselt
- Automaatika
- saadaval
- vältima
- AWS
- AWSi pilv
- AWS CloudFormation
- AWS järve kihistu
- tagasi
- põhineb
- BE
- olnud
- taga
- on
- Kasu
- Pealegi
- BEST
- Suur
- Big andmed
- blogid
- hooplemine
- mõlemad
- ehitama
- kuid
- by
- CA
- CAN
- võimeline
- viima
- kes
- juhul
- juhtudel
- kataloog
- toitlustamine
- kindel
- sertifikaat
- tunnistused
- sertifikaat
- muutma
- muutunud
- Vaidluste lahendamine
- Hiina
- Vali
- puhastamine
- Cloud9
- Cluster
- kood
- Veerg
- Veerud
- COM
- kombinatsioon
- endale
- Ettevõtted
- võrreldes
- täitma
- Vastavus
- komponent
- komponendid
- Arvutama
- arvuti
- mõiste
- Tingimused
- Läbi viima
- enesekindlalt
- konfiguratsioon
- Võta meiega ühendust
- konsool
- ehitamine
- kontakt
- sisaldama
- sisaldab
- kontrollida
- kontrollitud
- kontrolli
- kopeerimine
- Vastav
- Maksma
- kulud
- riik
- kaaned
- looma
- loodud
- loob
- loomine
- looja
- Praegune
- tava
- Kliendid
- andmed
- juurdepääs andmetele
- andmete analüüs
- andmejärv
- Andmeplatvorm
- andmekaitse
- andmetöötlus
- andmekaitse
- andmekogus
- andmebaas
- andmebaasid
- Otsuse tegemine
- sügavalt
- vaikimisi
- määratlema
- Delta
- näitama
- näidates
- juurutada
- kasutuselevõtu
- Disain
- projekteerimine
- detailid
- & Tarkvaraarendus
- erinev
- eristatav
- mitu
- DNS
- do
- ei
- Ei tee
- domeen
- tehtud
- Ära
- alla
- lae alla
- ajendatud
- ajal
- iga
- teine
- võimaldama
- lubatud
- võimaldab
- krüpteerimist
- lõpp
- lõpp-punktid
- jõustada
- Mootor
- insener
- Inseneriteadus
- Mootorid
- tagama
- tagab
- tagades
- sisene
- ettevõte
- ettevõtte kliendid
- Kogu
- keskkond
- Eeter (ETH)
- sündmus
- Iga
- näide
- täitmine
- olemas
- kogemus
- kogenud
- teadmised
- uurimine
- laieneb
- väline
- hõlbustades
- kiiremini
- tunnusjoon
- FUNKTSIOONID
- tundma
- fail
- Faile
- filtreerida
- filtreerimine
- Filtrid
- esimene
- Keskenduma
- keskendub
- järgima
- Järel
- järgneb
- eest
- formaat
- moodustamine
- neli
- Raamistik
- raamistikud
- tasuta
- Alates
- Täida
- täis
- funktsionaalsus
- edasi
- tulevik
- kasu
- loodud
- valitsemistava
- juhitakse
- anda
- suuresti
- Grupp
- Grupi omad
- juhised
- käsi
- Olema
- he
- siin
- siin
- Esiletõstetud
- tema
- ajalooline
- ajalugu
- Mesilaspere
- Hong
- Hong Kong
- maja
- Kuidas
- Kuidas
- aga
- HTML
- http
- HTTPS
- IAM
- ICON
- ID
- idee
- identifitseerima
- identifitseerimiseks
- Idle
- if
- illustreerib
- rakendada
- parandama
- in
- hõlmab
- Kaasa arvatud
- kaasates
- kasvav
- India
- tööstus
- teatama
- info
- teavitatakse
- sisend
- teadmisi
- integreeritud
- Integreerimine
- integratsioon
- interaktiivne
- huvitatud
- el
- Interface
- sisemine
- sisse
- keerukas
- sisse
- Tutvustab
- probleem
- IT
- ITS
- töö
- Tööturg
- teekond
- jpg
- Jupyteri sülearvuti
- Võti
- Kong
- järv
- keel
- suur
- viimane
- algatama
- käivitatud
- juht
- Õppida
- taset
- peitub
- nagu
- LIMIT
- liinid
- kohalik
- liising
- kohad
- Logi sisse
- peamine
- tegema
- juhtima
- juhitud
- juhtimine
- juht
- palju
- mai..
- vahendid
- mehhanismid
- koosolekul
- menüü
- Metaandmed
- võib
- rändavad
- protokoll
- ML
- ML algoritmid
- modifitseeritud
- rohkem
- liikumine
- nimi
- nimed
- Natural
- Loomulik keel
- Natural Language Processing
- Navigate
- NAVIGATSIOON
- Vajadus
- vajadustele
- Uus
- uus funktsioon
- äsja
- järgmine
- nlp
- sõlme
- meeles
- märkmik
- märkmikud
- nüüd
- esemeid
- of
- sageli
- on
- ONE
- ainult
- avatud
- avatud lähtekoodiga
- openssl
- Operations
- optimaalselt
- optimeerima
- valik
- Valikud
- or
- et
- organisatsioon
- Muu
- välja
- üle
- paar
- pane
- eriline
- eriti
- kirglik
- pöörates
- jõudlus
- esitades
- luba
- Õigused
- Isiklikult
- phd
- pii
- kohatäide
- inimesele
- Platvormid
- Platon
- Platoni andmete intelligentsus
- PlatoData
- palun
- pluss
- võrra
- populaarne
- valdab
- post
- tava
- säilitamine
- eelmine
- esmane
- privaatsus
- privileeg
- privileegid
- probleeme
- protsess
- töötlemine
- Produktsioon
- profiil
- profiilid
- tõend
- tõendi mõiste
- kaitstud
- kaitse
- anda
- annab
- pakkudes
- avalik
- eesmärkidel
- päringud
- Lugenud
- Lugemine
- valmis
- päris maailm
- reaalajas
- soovitama
- rekord
- taastumine
- vähendab
- vähendamine
- viitama
- viitab
- peegeldab
- piirkond
- registreerima
- registreeritud
- määrused
- vabastama
- Pressiteated
- asjakohane
- asendama
- nõutav
- Nõuded
- ressurss
- ressursimahukas
- Vahendid
- kaasa
- Tulemused
- õigusi
- Roll
- rollid
- ROW
- RSA
- eeskirjade
- jooks
- jooksmine
- salveitegija
- sama
- Säästa
- Osa
- kindlustama
- tagatud
- turvalisus
- vaata
- otsima
- valima
- vanem
- tundlik
- server
- Serverita
- Teenused
- istung
- komplekt
- Komplektid
- seaded
- seade
- ta
- kirjutama
- märgatavalt
- sarnane
- lihtne
- lihtsustab
- lihtsustama
- alates
- Snapshot
- So
- tarkvara
- tarkvaraarenduse
- lahendus
- Lahendused
- LAHENDAGE
- mõned
- allikas
- Säde
- spetsialist
- spetsialiseerunud
- SQL
- Kestab
- Stage
- algus
- alustatud
- Käivitus
- avaldused
- Sammud
- ladustamine
- kauplustes
- Strateegia
- nöör
- stuudio
- esitama
- alamvõrgud
- edu
- selline
- KOKKUVÕTE
- toetama
- Toetab
- kindel
- süntaks
- süsteemid
- tabel
- TAG
- võtab
- Tehniline
- tehnikat
- šabloon
- terminal
- et
- .
- Allikas
- oma
- Neile
- SIIS
- Seal.
- Need
- nad
- see
- kolm
- Läbi
- aeg
- ajas rännata
- ajakava
- et
- Jälgimine
- tehing
- tehinguline
- Transformation
- transiit
- reisima
- tõsi
- Usaldatud
- Ts
- kaks
- tüüp
- liigid
- ui
- all
- Ootamatu
- tundmatu
- avamine
- Värskendused
- ajakohastatud
- ülalpidamine
- laetud
- URI
- kasutama
- kasutage juhtumit
- Kasutatud
- Kasutaja
- Kasutajad
- kasutamine
- valideerib
- väärtus
- eri
- versioon
- kaudu
- nähtavus
- maht
- Ladu
- Ladustamine
- we
- web
- veebiteenused
- millal
- samas kui
- mis
- kuigi
- WHO
- will
- koos
- jooksul
- töötas
- töö
- kirjutama
- aastat
- sa
- Sinu
- sephyrnet
- null
- Tõmblukk