Amazon EMR Studio je integrirano razvojno okolje (IDE), ki podatkovnim znanstvenikom in podatkovnim inženirjem olajša razvoj, vizualizacijo in odpravljanje napak v aplikacijah za podatkovno inženirstvo in podatkovno znanost, napisanih v R, Python, Scala in PySpark. EMR Studio ponuja popolnoma upravljane prenosnike Jupyter in orodja, kot sta Spark UI in YARN Timeline Server prek EMR Studio Workspaces. EMR Studio Workspace lahko priključite na gručo EMR in uporabite računalniško moč gruče EMR ter izvajate opravila podatkovne znanosti v gruči. Podatki so pogosto shranjeni v podatkovnih jezerih, ki jih upravlja Oblikovanje jezera AWS, ki vam omogoča uporabo natančnega nadzora dostopa prek preprostega mehanizma odobritve ali preklica.
Z veseljem vam predstavljamo izvajalne vloge za EMR Studio Workspaces. Zdaj lahko določite vlogo izvajalnega okolja in jo dodelite gruči EMR, ko priključite delovni prostor EMR Studio. Opravila v gruči EMR bodo uporabljala to vlogo izvajalnega okolja za dostop do virov AWS. Ko konfigurirate vlogo izvajalnega okolja, lahko uporabite tudi Lake Formation in uporabite natančen nadzor dostopa do podatkov za opravila, ki jih predloži EMR Studio Workspace.
Prej, ko so delovne prostore EMR Studio priklopili na gruče EMR, so morali vsi delovni prostori uporabljati isto AWS upravljanje identitete in dostopa (IAM) – namreč grozda Amazonski elastični računalniški oblak (Amazon EC2) profil primerka. Zato so imeli vsi delovni prostori, povezani z isto gručo EMR, enak dostop do podatkov. Za nadzor dostopa do podatkovnih virov je moral vsak EMR Studio Workspace uporabljati drugo gručo EMR in potrebnih je bilo več profilov primerkov EMR.
Začenši z izdajo Amazon EMR 6.11, lahko zdaj izberete vlogo izvajalnega časa, ko EMR Studio Workspace pripenjate v gručo EMR. Ta vloga izvajalnega okolja zmanjšuje dostop na ravni delovnega prostora. Vaša opravila Apache Livy in Apache Spark, ki se izvajajo iz delovnih prostorov EMR Studio Workspaces, bodo imela dovoljenje za dostop samo do podatkov in virov, ki jih dovoljujejo pravilniki, povezani z vlogo izvajalnega okolja. Ko se do podatkov dostopa iz podatkovnih jezer, ki jih upravlja Lake Formation, lahko uveljavite natančen nadzor dostopa do podatkov z dovoljenji Lake Formation. To vam pomaga zmanjšati operativne stroške.
V tej objavi prikazujemo, kako konfigurirati vloge izvajalnega okolja za delovne prostore EMR Studio Workspaces in priključiti delovni prostor v gručo EMR z vlogami izvajalnega okolja. Ker velika podjetja običajno uporabljajo več računov AWS in mnogi od teh računov morda potrebujejo dostop do podatkovnega jezera, ki ga upravlja en sam račun AWS, naš primer uporablja dva računa AWS. Razložimo, kako nadzirati dostop do vlog izvajalnega okolja EMR Studio, upravljati dostop do podatkov prek računov v podatkovnem jezeru prek Lake Formation in uveljaviti dovoljenja na ravni tabele in stolpca za vloge izvajalnega okolja EMR.
Pregled rešitev
Za prikaz natančnega nadzora dostopa ustvarimo vzorec AWS lepilo bazo podatkov imenovano podjetje in upravljanje dovoljenja za bazo podatkov v Lake Formation. Baza podatkov je sestavljena iz dveh ločenih tabel:
- Zaposleni – V tej tabeli so shranjeni podatki o zaposlenih v podjetju, vključno z ID-jem zaposlenega, imenom, oddelkom in plačo
- izdelki – V tej tabeli so shranjeni podatki o izdelkih, ki jih prodaja podjetje, vključno z ID-jem izdelka, imenom, kategorijo in ceno
Za prikaz nadzora dostopa do podatkov upoštevamo naslednje uporabnike podatkov:
- Alice, podatkovna znanstvenica v prodajni ekipi – Morala bi imeti dostop samo za branje do vseh stolpcev v
products
tabelo in izbrane stolpce, vključno z uID, imenom in oddelkom vemployees
miza - Bob, podatkovni znanstvenik v skupini za človeške vire – Imeti mora dostop samo za branje do vseh stolpcev v
employees
tabelo in ne bi smel imeti dostopa doproducts
miza
Za prikaz skupne rabe podatkov med računi upoštevamo dva računa:
- Račun proizvajalca podatkov – Ta račun imenujemo
123456789012
v tej objavi. Ta račun upravlja neobdelane podatke v Preprosta storitev shranjevanja Amazon (Amazon S3) in zapisuje podatke v podatkovno jezero. Thecompany
zbirka podatkov in tabele morajo biti v tem računu. - Podatkovni račun potrošnika – Ta račun imenujemo
111122223333
v tej objavi. Do tega računa uporabniki dostopajo neposredno za analizo podatkov in nima pisnega dostopa do podatkov. Ta račun bi moral imeti dostop Alice in Bob.
Arhitektura je implementirana na naslednji način:
- Račun proizvajalca podatkov upravlja podatkovno jezero. Neobdelani podatki so shranjeni v vedrih S3 in katalogizirani v katalogu podatkov AWS Glue Data Catalog.
- Lake Formation v računu proizvajalca podatkov ureja dostop do podatkov prek podatkovnega kataloga in zagotavlja skupno rabo podatkov med računi z računom potrošnika podatkov.
- Lake Formation v podatkovnem potrošniškem računu ureja dostop med računi do podatkovnega jezera na ravni tabele in dovoljenja za natančno Lake Formation. Za več informacij glejte Metode za natančno kontrolo dostopa.
- Delovni prostori EMR Studio v računu uporabnika podatkov uporabljajo vloge izvajalnega okolja pri izvajanju opravil v gruči EMR.
- Grozd EMR se poveže z Glue Data Catalog v računu uporabnika podatkov in poizveduje po podatkih iz podatkovnega jezera prek skupne rabe podatkov med računi.
Naslednji diagram prikazuje to arhitekturo.
V naslednjih razdelkih gremo skozi korake za skupno rabo podatkov med računi prek Lake Formation, zagon delovnega prostora EMR Studio z vlogami med izvajanjem in prikaz natančnega nadzora dostopa.
Predpogoji
Morali bi imeti naslednje predpogoje:
Ustvarite infrastrukturo v računu proizvajalca podatkov
Izvedite naslednje korake za ustvarjanje infrastrukturnih virov:
- Prijavite se v račun proizvajalca podatkov AWS (
123456789012
). - Izberite Izstrelite sklad za uvedbo predloge CloudFormation za ustvarjanje potrebnih virov.
- za DataLakeBucketSuffix, vnesite pripono za vedro S3, ki ga uporablja podatkovno jezero. Celotno ime vedra S3, ki bo ustvarjeno, bo
{AwsAccoundId}-{AwsRegion}-{DataLakeBucketSuffix}
. - Ko je sklad CloudFormation ustvarjen, se pomaknite do Izhodi zavihek sklada in zajemite vrednost
DataLakeS3Bucket
za uporabo v naslednjem koraku.
Ustvarite podatkovne datoteke in jih naložite v Amazon S3 v računu proizvajalca podatkov
Konfigurirajte svoj AWS CLI za uporabo identitete IAM z dovoljenjem za nalaganje v DataLakeS3BucketName v računu proizvajalca podatkov AWS (123456789012
), lahko pa se prijavite v CloudShell z uporabo Konzola za upravljanje AWS. Izvedite naslednje korake:
- Na lokalnem računalniku se z ukazom cd premaknite v imenik po vaši izbiri, na primer
cd ~
. - Zaženi script z
chmod 744 create_sample_data.sh && ./create_sample_data.sh <DataLakeS3BucketName>
.
Skript bo ustvaril podimenik tmp
v vašem trenutnem delovnem imeniku ustvarite testne podatke v datotekah CSV in naložite datoteke v DataLakeS3BucketName
Žlica S3.
Nastavite Lake Formation v računu proizvajalca podatkov
V tem razdelku se popeljemo skozi korake za nastavitev Lake Formation v računu proizvajalca podatkov.
Nastavite nastavitve različice za skupno rabo podatkov med računi Lake Formation
Lake Formation podpira več različic izmenjave podatkov. Za to objavo uporabljamo različico 3. Če želite izvedeti več o razlikah med različicami za skupno rabo podatkov, glejte Posodabljanje nastavitev različice za skupno rabo podatkov med računi. Če želite spremeniti različico za skupno rabo podatkov, glejte Če želite omogočiti novo različico.
Registrirajte lokacijo Amazon S3 kot lokacijo podatkovnega jezera
Ko registrirajte lokacijo Amazon S3 z Lake Formation določite vlogo IAM z dovoljenji za branje/pisanje na tej lokaciji. Po registraciji, ko gruče EMR zahtevajo dostop do te lokacije Amazon S3, bo Lake Formation zagotovil začasne poverilnice ponujene vloge za dostop do podatkov. Vlogo smo že ustvarili LakeFormationCompanyDatabaseDataAccessRole
za ta namen v prejšnjem koraku. Če želite lokacijo Amazon S3 registrirati kot lokacijo podatkovnega jezera, izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu proizvajalca podatkov (
123456789012
). - V podoknu za krmarjenje izberite Lokacije podatkovnega jezera pod Administracija.
- Izberite Registriraj lokacijo.
- za Pot Amazon S3, vnesite
s3://<DataLakeS3BucketName>/company-database
. - za Vloga IAM, vnesite
LakeFormationCompanyDatabaseDataAccessRole
. - za Način dovoljenjatako, da izberete Nastanek jezera.
- Izberite Registriraj lokacijo.
Prekliči dovoljenja, podeljena IAMAllowedPrincipals
O IAMAllowedPrincipals
vključuje vse uporabnike in vloge IAM, ki jim vaši pravilniki IAM dovoljujejo dostop do virov kataloga podatkov. Za uveljavljanje modela Lake Formation, moramo prekliče dovoljenje IAMAllowedPrincipals po naslednjih korakih:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu proizvajalca podatkov.
- V podoknu za krmarjenje izberite Dovoljenja podatkovnega jezera v razdelku Dovoljenja.
- Filtriraj dovoljenja po
Database = company
inPrinciple=IAMAllowedPrinciples
. - Izberite vsa dovoljenja, dana glavnemu
IAMAllowedPrincipals
In izberite Prekliči.
Nastavite nastavitve integracije aplikacije
Če želite uveljaviti dovoljenja za gručo EMR, morate registrirati vrednost oznake seje pri Lake Formation. Lake Formation uporablja to oznako seje za avtorizacijo klicateljev in zagotavljanje dostopa do podatkovnega jezera. Registriramo se Amazon EMR
kot vrednost oznake seje. Ta vrednost bo navedena v varnostna konfiguracija pri ustvarjanju gruče EMR.
Nastavite oznako seje po naslednjih korakih:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu proizvajalca podatkov.
- Izberite Nastavitve integracije aplikacij pod Administracija v podoknu za krmarjenje.
- Izberite Dovoli zunanjim motorjem filtriranje podatkov na lokacijah Amazon S3, registriranih pri Lake Formation.
- za Vrednosti oznake seje, vnesite
Amazon EMR
. - za ID-ji računa AWS, vnesite ID računa potrošnika AWS (
111122223333
). - Izberite Shrani.
Delite bazo podatkov in tabele z računom uporabnika podatkov
Zdaj podeljujemo dovoljenja za račun uporabnika podatkov AWS, vključno z dovoljenji, ki jih je mogoče podeliti. To omogoča skrbniku podatkovnega jezera Lake Formation v računu uporabnika podatkov, da nadzoruje dostop do podatkov v računu.
Računu uporabnika podatkov podelite dovoljenja za bazo podatkov
Izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu proizvajalca podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite bazo podatkov
company
, in na Proces meni, pod Dovoljenja, izberite Grant. - v Načela izberite, izberite Zunanji računi in vnesite podatkovni račun potrošnika AWS (
111122223333
). - v LF-oznake ali kataloški viri oddelek, izberite
company
za Baze podatkov. - v Dovoljenja baze podatkov izberite, izberite Opišite za oba Dovoljenja baze podatkov in Dovoljenja, ki jih je mogoče dodeliti.
To omogoča skrbniku podatkovnega jezera v računu uporabnika podatkov, da opiše zbirko podatkov in dodeli dovoljenja za opis drugim principalom v računu uporabnika podatkov.
- Izberite Grant.
Podelite dovoljenja tabele za račun uporabnika podatkov
Izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu proizvajalca podatkov.
- V podoknu za krmarjenje izberite Mize.
- Izberite
products
mizo, ki pripadacompany
baze podatkov in na Proces meni, pod Dovoljenja, izberite Grant. - v Načela izberite, izberite Zunanji računi in vnesite podatke v račun potrošnika AWS (
111122223333
). - v LF-oznake ali kataloški viri izberite, izberite Viri imenskega kataloga podatkov in navedite naslednje:
- za Baze podatkov, izberite
company
. - za Mize, izberite
products
inemployees
.
- za Baze podatkov, izberite
- v Dovoljenja za tabele oddelek, izberite Izberite in Opišite za oba Dovoljenja za tabele in Dovoljenja, ki jih je mogoče dodeliti.
To omogoča skrbniku podatkovnega jezera v računu porabnika podatkov, da izbere in opiše tabele ter podeli dovoljenja za izbiro in opis tabele drugim principalom v računu porabnika podatkov.
- v Dovoljenja za podatke izberite, izberite Dostop do vseh podatkov.
- Izberite Grant.
Zdaj smo končali z nastavitvijo računa proizvajalca podatkov.
Nastavite infrastrukturo v računu potrošnika podatkov
Izvedite naslednje korake za ustvarjanje infrastrukturnih virov:
- Prijavite se v račun potrošnika podatkov (
111122223333
). - Izberite Zagonski sklad za uvedbo predloge CloudFormation za ustvarjanje potrebnih virov.
- za Izdaja, vnesite oznako za izdajo Amazon EMR za uporabo, ki je lahko samo emr-6.11 ali novejša.
- za InstanceType, izberite vrsto instance za gručo EMR, kot je r4.4xlarge.
- za EMRS3BucketNameSuffix, vnesite pripono vedra S3 za shranjevanje dnevnikov gruče EMR in datotek prenosnika EMR. Polno ime vedra S3, ki bo ustvarjeno, bo
{AWSAccoundId}-{AWSRegion}-{EMRS3BucketNameSuffix}
. - za S3PathToInTransitCertificate, vnesite pot S3 za datoteko .zip, ki vsebuje datoteke .pem, ki se uporabljajo za šifriranje med prenosom.
Za navodila o ustvarjanju datoteke .zip, ki vsebuje datoteke .pem in njihovem nalaganju v vedro S3, glejte Zagotavljanje certifikatov za šifriranje podatkov med prenosom s šifriranjem Amazon EMR.
- Ko je sklad CloudFormation ustvarjen, se pomaknite do Izhodi zavihek sklada.
- Zajemite vrednost
EMRStudioLink
za prijavo v EMR Studio.
Sprejmite delež vira v računu potrošnika podatkov
Za dostop do skupnih virov morate najprej sprejeti povabilo.
- Odprite konzolo AWS RAM računa uporabnika podatkov z identiteto IAM, ki ima dostop do AWS RAM.
- V podoknu za krmarjenje izberite Deleži virov pod Deljeno z mano.
Videti bi morali dve čakajoči skupni rabi virov iz računa proizvajalca podatkov.
- Sprejmite oba deleža virov.
Moral bi videti company
zbirka podatkov, employees
mizo, in products
tabelo v katalogu podatkov.
Nastavite Lake Formation v računu potrošnika podatkov
V tem razdelku se popeljemo skozi korake za nastavitev Lake Formation v računu potrošnika podatkov.
Nastavite nastavitve integracije aplikacije
Podobno kot pri nastavitvi v računu proizvajalca podatkov morate Amazon EMR registrirati kot oznako seje. Ta vrednost je navedena v varnostna konfiguracija pri ustvarjanju gruče EMR v skladu CloudFormation.
Če želite to narediti, izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu uporabnika podatkov (
111122223333
). - Izberite Nastavitve integracije aplikacij pod Administracija v podoknu za krmarjenje.
- Izberite Dovoli zunanjim motorjem filtriranje podatkov na lokacijah Amazon S3, registriranih pri Lake Formation.
- za Vrednosti oznake seje, vnesite
Amazon EMR
. - za ID-ji računa AWS, vnesite ID računa potrošnika AWS (
111122223333
). - Izberite Shrani.
Dodelite opisna dovoljenja vlogam izvajalnega okolja v privzeti bazi podatkov
Če nimate privzete zbirke podatkov v Lake Formation ali pa vaša privzeta zbirka podatkov že ima dovoljenja za podelitev IAMAllowedPrinciples
, ta korak lahko preskočite.
Amazon EMR bo privzeto preveril privzeto bazo podatkov. Če že imate privzeto zbirko podatkov v svoji jezerski formaciji, dodelite dovoljenje za opis vlogam izvajalnega okolja v privzeti zbirki podatkov tako, da dokončate naslednje korake:
- Odprite konzolo Lake Formation z uporabnikom skrbnika podatkovnega jezera Lake Formation v računu uporabnika podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite privzeto bazo podatkov, preverite, ali je ID računa lastnika račun uporabnika podatkov (
111122223333
), in na Proces izberite meni Grant. - v Razdelek o načelihtako, da izberete Uporabniki in vloge IAM.
- za Uporabniki in vloge IAM, izberite
sales-runtime-role
inhuman-resource-runtime-role
. - za LF-oznake ali kataloški viritako, da izberete Viri imenskega kataloga podatkov in izberite privzeto za Baze podatkov.
- v Dovoljenja baze podatkov odsek, za Dovoljenja baze podatkov, izberite Opišite.
- Izberite Grant.
Ustvarite povezavo do vira za skupno bazo podatkov
Za dostop do baze podatkov in virov tabel, ki jih je delil račun proizvajalca podatkov AWS, morate ustvariti a povezava do vira v računu potrošnika podatkov AWS. Povezava do vira je objekt podatkovnega kataloga, ki je povezava do lokalne ali skupne baze podatkov ali tabele. Ko ustvarite povezavo vira do baze podatkov ali tabele, lahko uporabite ime povezave vira povsod, kjer bi uporabili ime baze podatkov ali tabele. V tem koraku podelite dovoljenje za povezave do virov do načel vloge izvajalnega okolja. Vloge izvajalnega okolja bodo nato prek povezave do vira dostopale do podatkov v skupnih zbirkah podatkov in osnovnih tabelah.
Če želite ustvariti povezavo do vira, izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu uporabnika podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite
company
preverite, ali je ID računa lastnika račun proizvajalca podatkov (123456789012
), in na Proces izberite meni Ustvarite povezave do virov. - za Ime povezave do vira, vnesite ime povezave do vira (npr.
company-shared
). - za Regija skupne baze podatkov, izberite regijo
company
baze podatkov. - za Skupna zbirka podatkov, izberite bazo podatkov podjetja.
- za ID lastnika skupne baze podatkov, vnesite ID računa računa proizvajalca podatkov (
123456789012
). - Izberite ustvarjanje.
Dodelite dovoljenja za povezavo do vira do načela vloge izvajalnega okolja
Dodelite dovoljenja za povezavo do vira vlogi sales-runtime-role in human-resource-runtime-role z naslednjimi koraki:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu uporabnika podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite povezavo do vira (
company-shared
) in na Proces izberite meni Grant. - v Načela izberite, izberite Uporabniki in vloge IAM, in izberite
sales-runtime-role
inhuman-resource-runtime-role
. - v LF-oznake ali kataloški viri odsek, za Baze podatkov, izberite
company-shared
. - v Dovoljenja za povezavo do virov izberite, izberite Opišite.
To omogoča vlogam izvajalnega okolja, da opišejo povezavo do vira. Za dovoljenja, ki jih je mogoče podeliti, ne izbiramo, ker vloge izvajalnega okolja ne bi smele imeti možnosti podeliti dovoljenj drugim načelom.
- Izberite Grant.
Dodelite dovoljenje za tabele načelu vloge izvajalnega okolja
Za mize morate podeliti dovoljenja sales-runtime-role
in human-resource-runtime-role
omogočiti dostop do podatkov:
Human-resource-runtime-role
mora imeti dovoljenja za opis in izbiro za vse stolpce vemployees
tabelo in brez dovoljenj zaproducts
miza.Sales-runtime-role
mora imeti dovoljenja za izbiro stolpcevuid
,name
indepartment
vemployees
ter opišite in izberite dovoljenja za vse stolpce vproducts
miza.
Dodelite dovoljenje za tabelo zaposlenih v vlogi izvajalnega časa za človeške vire
Izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu uporabnika podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite povezavo do vira (
company-shared
) in na Proces izberite meni Grant on Target. - v Razdelek o načelihtako, da izberete Uporabniki in vloge IAM, nato izberite
human-resource-runtime-role
. - v LF-oznake ali kataloški viri izberite, izberite Viri imenskega kataloga podatkov in navedite naslednje:
- za Baze podatkov, izberite
company
. - za Mize¸ izberite
employees
.
- za Baze podatkov, izberite
- v Dovoljenja za tabele odsek, za Dovoljenja za tabeletako, da izberete Opišite in Izberite.
- v Dovoljenja za podatke izberite, izberite Dostop do vseh podatkov.
- Izberite Grant.
Podeli dovoljenje za tabelo zaposlenih v vlogi sales-runtime-role
Izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu uporabnika podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite povezavo do vira (
company-shared
) in na Proces izberite meni Grant on Target. - v Razdelek o načelihtako, da izberete Uporabniki in vloge IAM, nato izberite
sales-runtime-role
. - v LF-oznake ali kataloški viri izberite, izberite Viri imenskega kataloga podatkov in navedite naslednje:
- za Baze podatkov, izberite
company
. - za Mize, izberite
employees
.
- za Baze podatkov, izberite
- v Dovoljenja za tabele odsek, za Dovoljenja za tabeletako, da izberete Izberite.
- v Dovoljenja za podatke izberite, izberite Dostop na podlagi stolpcev.
- Izberite Vključite stolpce In izberite
uid
,name
indepartment
stolpcev. - Izberite Grant.
Podeli dovoljenje za tabelo izdelkov vlogi sales-runtime-role
Izvedite naslednje korake:
- Odprite konzolo Lake Formation s skrbnikom podatkovnega jezera Lake Formation v računu uporabnika podatkov.
- V podoknu za krmarjenje izberite Baze podatkov.
- Izberite povezavo do vira (
company-shared
) in na Proces izberite meni Grant on Target. - v Razdelek o načelihtako, da izberete Uporabniki in vloge IAM, nato izberite
sales-runtime-role
. - v LF-oznake ali kataloški viri izberite, izberite Viri imenskega kataloga podatkov in navedite naslednje:
- za Baze podatkov, izberite
company
. - za Mize, izberite
products
.
- za Baze podatkov, izberite
- v Dovoljenja za tabele odsek, za Dovoljenja za tabeletako, da izberete Izberite in Opišite.
- v Dovoljenja za podatke izberite, izberite Dostop do vseh podatkov.
- Izberite Grant.
Prijavite se v EMR Studio in uporabite EMR Studio Workspace
Zamenjajte svojo vlogo do alice-role
or bob-role
na konzoli z različnimi spletnimi brskalniki za testiranje dostopa. Odprite EMRStudioLink
URL iz izhoda sklada CloudFormation za prijavo v EMR Studio z vsako vlogo, nato pa izvedite naslednje korake:
- Izberite Delovni prostori v navigacijskem podoknu in izberite Ustvari delovni prostor.
- Vnesite ime in opis za delovni prostor.
- Izberite Ustvari delovni prostor.
Ko bo delovni prostor pripravljen, se samodejno odpre nov zavihek, ki vsebuje JupyterLab. Po potrebi omogočite pojavna okna v brskalniku.
- Izberite Izračunajte ikono v podoknu za krmarjenje, da priložite delovni prostor EMR Studio z računalniškim mehanizmom.
- Izberite Grozd EMR na EC2 za Vrsta izračuna.
- Izberite ID gruče EMR, ki ste ga ustvarili z AWS CloudFormation.
- za Vloga med izvajanjem, izberite
sales-runtime-role
če ste prijavljeni kotalice-role
. Izberitehuman-resource-runtime-role
če ste prijavljeni kotbob-role
. - Izberite Priložite.
Zaženite kodo v delovnem prostoru EMR Studio in preverite dostop do podatkov
Zaženite naslednjo kodo v delovnem prostoru EMR Studio z jedrom PySpark po prijavi z alice-role ali bob-role:
Pri uporabi različnih vlog bi morali videti različne rezultate.
V skladu z našo konfiguracijo dostopa do podatkov v Lake Formation bo imela Alice popoln dostop do podatkov za products
tabela. Ogleda si lahko vse stolpce razen plače v employees
miza.
Bob bo glede na našo konfiguracijo dostopa do podatkov v Lake Formation imel popoln dostop do podatkov do employees
mizo, vendar nima dostopa do products
miza.
Čiščenje
Ko končate s preizkušanjem te rešitve, počistite svoje vire:
- Ustavite in izbrišite delovne prostore EMR Studio, ustvarjene v računu AWS uporabnika podatkov.
- Izbrišite vso vsebino v vedru S3
EMRS3Bucket
v računu potrošnika podatkov AWS. - Izbrišite sklad CloudFormation v računu uporabnika podatkov AWS.
- Izbrišite vso vsebino v vedru S3
DataLakeS3Bucket
v računu proizvajalca podatkov AWS. - Izbrišite sklad CloudFormation v računu proizvajalca podatkov AWS.
zaključek
Ta objava je pokazala, kako lahko uporabite vloge izvajalnega okolja za povezavo z delovnim prostorom EMR Studio z Amazon EMR za uporabo natančnega nadzora dostopa do podatkov med računi z Lake Formation. Prikazali smo tudi, kako se lahko več uporabnikov EMR Studio poveže z isto gručo EMR, pri čemer vsak uporablja vlogo izvajalnega časa, ki je omejena z dovoljenji, ki ustrezajo njihovi individualni ravni dostopa do podatkov.
Če želite izvedeti več o uporabi delovnih prostorov EMR Studio z Lake Formation, glejte Zaženite EMR Studio Workspace z vlogo izvajalnega okolja. Priporočamo vam, da preizkusite to novo funkcionalnost in se povežite z nami, če imate kakršna koli vprašanja ali povratne informacije!
O avtorjih
Ashley Zhou je inženir za razvoj programske opreme pri AWS. Zanimajo jo podatkovna analitika in porazdeljeni sistemi.
Srividya Parthasarathy je višji arhitekt za velike podatke v ekipi AWS Lake Formation. Uživa v gradnji analitičnih in podatkovnih mrežnih rešitev na AWS ter jih deli s skupnostjo.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/use-iam-runtime-roles-with-amazon-emr-studio-workspaces-and-aws-lake-formation-for-cross-account-fine-grained-access-control/
- :ima
- : je
- :ne
- $GOR
- 100
- 107
- 11
- 20
- 7
- 8
- a
- Sposobna
- O meni
- Sprejmi
- dostop
- Dostop do podatkov
- dostopna
- dostopen
- Po
- Račun
- računi
- čez
- po
- Alice
- vsi
- omogočajo
- dovoljene
- omogoča
- že
- Prav tako
- Amazon
- Amazon EC2
- Amazonski EMR
- Amazon Web Services
- an
- Analiza
- analitika
- in
- kaj
- Apache
- Apache Spark
- uporaba
- aplikacije
- Uporabi
- Arhitektura
- SE
- AS
- At
- pripisujejo
- odobri
- samodejno
- AWS
- Oblikovanje oblaka AWS
- AWS lepilo
- Oblikovanje jezera AWS
- BE
- ker
- pripada
- med
- Big
- Big Podatki
- zrna
- tako
- brskalnik
- brskalniki
- Building
- vendar
- by
- CAN
- zajemanje
- Katalog
- Kategorija
- CD
- Potrdila
- spremenite
- preveriti
- izbira
- Izberite
- čiščenje
- Grozd
- Koda
- Stolpci
- skupnost
- podjetje
- Podjetja
- dokončanje
- dokončanje
- Izračunajte
- konfiguracija
- Connect
- povezuje
- Razmislite
- vsebuje
- Konzole
- Potrošnik
- Vsebuje
- vsebina
- nadzor
- ustvarjajo
- ustvaril
- Ustvarjanje
- Mandatno
- Trenutna
- datum
- dostop do podatkov
- Analiza podatkov
- Podatkovna analiza
- Data jezero
- znanost o podatkih
- podatkovni znanstvenik
- izmenjavo podatkov
- Baze podatkov
- baze podatkov
- privzeto
- opredeliti
- izkazati
- Dokazano
- Oddelek
- razporedi
- opisati
- opis
- Razvoj
- Razvoj
- razlike
- drugačen
- neposredno
- porazdeljena
- porazdeljeni sistemi
- do
- Ne
- dont
- navzdol
- vsak
- Zaposlen
- Zaposleni
- omogočajo
- omogočanje
- spodbujanje
- šifriranje
- uveljaviti
- Motor
- inženir
- Inženiring
- Inženirji
- Motorji
- Vnesite
- podjetja
- okolje
- Eter (ETH)
- Primer
- Razen
- Pojasnite
- zunanja
- file
- datoteke
- filter
- prva
- po
- sledi
- za
- Oblikovanje
- iz
- polno
- v celoti
- funkcionalnost
- dana
- Go
- vlada
- odobri
- odobreno
- skupina
- imel
- srečna
- Imajo
- he
- Pomaga
- Kako
- Kako
- HTML
- http
- HTTPS
- človeškega
- ČLOVEŠKI VIRI
- Človeški viri
- IAM
- ID
- identiteta
- if
- ponazarja
- izvajali
- in
- vključuje
- Vključno
- individualna
- Podatki
- Infrastruktura
- primer
- Navodila
- integrirana
- integracija
- zainteresirani
- uvesti
- povabilo
- IT
- Delovna mesta
- jpg
- label
- Jezero
- jezera
- velika
- Velika podjetja
- kosilo
- UČITE
- Stopnja
- LIMIT
- LINK
- Povezave
- lokalna
- kraj aktivnosti
- Lokacije
- stroj
- Znamka
- IZDELA
- upravljanje
- upravlja
- upravljanje
- upravlja
- več
- ujemanje
- Mehanizem
- Meni
- očesa
- morda
- več
- premikanje
- več
- morajo
- Ime
- Imenovan
- Krmarjenje
- ostalo
- potrebno
- Nimate
- potrebna
- Novo
- Naslednja
- št
- prenosnik
- zvezki
- zdaj
- predmet
- of
- pogosto
- on
- samo
- odprite
- operativno
- or
- Ostalo
- naši
- ven
- izhod
- Lastnik
- podokno
- pot
- dokler
- Dovoljenje
- Dovoljenja
- platon
- Platonova podatkovna inteligenca
- PlatoData
- politike
- Prispevek
- moč
- predpogoji
- prejšnja
- , ravnateljica
- ravnateljev
- Načelo
- Načela
- Proizvajalec
- Izdelek
- Izdelki
- profil
- Profili
- zagotavljajo
- če
- zagotavlja
- Namen
- Python
- poizvedbe
- vprašanja
- R
- RAM
- Surovi
- surovi podatki
- pripravljen
- zmanjša
- glejte
- okolica
- Registracija
- registriranih
- registracijo
- sprostitev
- zahteva
- vir
- viri
- povzroči
- Rezultati
- vloga
- vloge
- Run
- tek
- plače
- prodaja
- Enako
- Lestvica
- Znanost
- Znanstvenik
- Znanstveniki
- script
- Oddelek
- oddelki
- glej
- izbran
- višji
- ločena
- strežnik
- Storitve
- Zasedanje
- nastavite
- nastavitev
- nastavitve
- nastavitev
- Delite s prijatelji, znanci, družino in partnerji :-)
- deli
- Delnice
- delitev
- je
- shouldnt
- je pokazala,
- podpisati
- podpisano
- podpis
- Enostavno
- sam
- Software
- Razvoj programske opreme
- prodaja
- Rešitev
- rešitve
- Viri
- Spark
- sveženj
- Korak
- Koraki
- shranjevanje
- trgovina
- shranjeni
- trgovine
- naravnost
- studio
- predložen
- taka
- dobavi
- Podpira
- sistemi
- miza
- TAG
- skupina
- Predloga
- začasna
- Test
- da
- O
- njihove
- Njih
- POTEM
- zato
- ta
- tisti,
- skozi
- časovnica
- do
- orodja
- tranzit
- poskusite
- dva
- tip
- tipično
- ui
- pod
- osnovni
- Prenos
- URL
- us
- uporaba
- Rabljeni
- uporabnik
- Uporabniki
- uporablja
- uporabo
- vrednost
- preverjanje
- različica
- preko
- Poglej
- vizualizirati
- sprehod
- we
- web
- Spletni brskalniki
- spletne storitve
- so bili
- kdaj
- ki
- celoti
- bo
- z
- v
- deluje
- bi
- pisati
- pisni
- yaml
- jo
- Vaša rutina za
- zefirnet
- Zip