Använd Amazon EMR med S3 Access Grants för att skala Spark Access till Amazon S3 | Amazon Web Services

Återutgiven av Platon

anhängare: 0

Amazon EMR är glada att kunna tillkännage integration med Amazon Simple Storage Service (Amazon S3) Access Grants som förenklar Amazon S3-behörighetshantering och låter dig upprätthålla granulär åtkomst i stor skala. Med denna integration kan du skala jobbbaserad Amazon S3-åtkomst för Apache Spark-jobb över alla Amazon EMR-distributionsalternativ och genomdriva granulär Amazon S3-åtkomst för bättre säkerhetsställning.

I det här inlägget går vi igenom några olika scenarier för hur man använder Amazon S3 Access Grants. Innan vi börjar gå igenom Amazon EMR- och Amazon S3 Access Grants-integreringen kommer vi att konfigurera och konfigurera S3 Access Grants. Sedan använder vi AWS molnformation mall nedan för att skapa en Amazon EMR på Amazon Elastic Compute Cloud (Amazon EC2) Cluster, en EMR-serverlös applikation och två olika jobbroller.

Efter installationen kommer vi att köra några scenarier för hur du kan använda Amazon EMR med S3 Access Grants. Först kör vi ett batchjobb på EMR på Amazon EC2 för att importera CSV-data och konvertera till Parkett. För det andra kommer vi att använda Amazon EMR Studio med en interaktiv EMR Serverless-applikation för att analysera data. Slutligen kommer vi att visa hur du ställer in åtkomst över flera konton för Amazon S3 Access Grants. Många kunder använder olika konton i sin organisation och även utanför sin organisation för att dela data. Amazon S3 Access Grants gör det enkelt att ge åtkomst över flera konton till dina data även när du filtrerar efter olika prefix.

Förutom det här inlägget kan du lära dig mer om Amazon S3 Access Grants från Skala dataåtkomst med Amazon S3 Access Grants.

Förutsättningar

Innan du startar AWS CloudFormation-stacken, se till att du har följande:

Ett AWS-konto som ger åtkomst till AWS-tjänster
Den senaste versionen av AWS Command Line Interface (AWS CLI)
En AWS Identity and Access Management (AWS IAM) användare med en åtkomstnyckel och hemlig nyckel för att konfigurera AWS CLI, och behörigheter att skapa en IAM-roll, IAM-policyer och stackar i AWS CloudFormation
Ett andra AWS-konto om du vill testa funktionen för flera konton

genomgång

Skapa resurser med AWS CloudFormation

För att kunna använda Amazon S3 Access Grants behöver du ett kluster med Amazon EMR 6.15.0 eller senare. För mer information, se dokumentationen för att använda Amazon S3 Access Grants med en Amazon EMR-kluster, En Amazon EMR på EKS-kluster, Och en Amazon EMR Serverlös applikation. I detta inläggs syfte antar vi att du har två olika typer av dataåtkomstanvändare i din organisation – analytiker med läs- och skrivåtkomst till data i hinken och affärsanalytiker med skrivskyddad åtkomst. Vi kommer att använda två olika AWS IAM-roller, men du kan också koppla din egen identitetsleverantör direkt till IAM Identity Center om du vill.

Här är arkitekturen för denna första del. AWS CloudFormation-stacken skapar följande AWS-resurser:

En virtuell privat molnstack (VPC) med privata och offentliga undernät att använda med EMR Studio, rutttabeller och NAT-gateway (Network Address Translation).
En Amazon S3-hink för EMR-artefakter som loggfiler, Spark-kod och Jupyter-anteckningsböcker.
En Amazon S3-hink med exempeldata att använda med S3 Access Grants.
Ett Amazon EMR-kluster konfigurerat att använda runtime roller och S3 Access Grants.
En Amazon EMR-serverlös applikation konfigurerad för att använda S3 Access Grants.
En Amazon EMR Studio där användare kan logga in och skapa arbetsyta anteckningsböcker med EMR Serverless-applikationen.
Två AWS IAM-roller vi kommer att använda för våra EMR-jobbkörningar: en för Amazon EC2 med skrivåtkomst och en annan för serverlös med läsbehörighet.
En AWS IAM-roll som kommer att användas av S3 Access Grants för att få åtkomst till bucket-data (d.v.s. rollen som ska användas när du registrerar en plats med S3 Access Grants. S3 Access Grants använder den här rollen för att skapa tillfälliga referenser).

Gör så här för att komma igång:

Välj Launch Stack:
Acceptera standardinställningarna och välj Jag medger att denna mall kan skapa IAM-resurser.

AWS CloudFormation-stacken tar cirka 10–15 minuter att slutföra. När stacken är klar, gå till fliken utgångar där du hittar information som behövs för följande steg.

Skapa Amazon S3 Access Grants-resurser

Först kommer vi att skapa en Amazon S3 Access Grants-resurser på vårt konto. Vi skapar en S3 Access Grants-instans, en S3 Access Grants-plats som refererar till vår databucket skapad av AWS CloudFormation-stacken som endast är tillgänglig för vår databucket AWS IAM-roll, och ger olika åtkomstnivåer till våra läsar- och skribentroller.

För att skapa de nödvändiga S3 Access Grants-resurserna, använd följande AWS CLI-kommandon som administrativ användare och ersätt något av fälten mellan pilarna med utdata från din CloudFormation-stack.

aws s3control create-access-grants-instance 
  --account-id <YOUR_ACCOUNT_ID>

Därefter skapar vi en ny S3 Access Grants-plats. Vad är en plats? Amazon S3 Access Grants fungerar genom att sälja AWS IAM-referenser med åtkomst till ett visst S3-prefix. En S3 Access Grants-plats kommer att associeras med en AWS IAM-roll från vilken dessa tillfälliga sessioner kommer att skapas.

I vårt fall kommer vi att omfånga AWS IAM-rollen till hinken som skapats med vår AWS CloudFormation-stack och ge tillgång till den datahinkroll som skapas av stacken. Gå till utdatafliken för att hitta värdena som ska ersättas med följande kodavsnitt:

aws s3control create-access-grants-location 
  --account-id <YOUR_ACCOUNT_ID> 
  --location-scope "s3://<DATA_BUCKET>/" 
  --iam-role-arn <DATA_BUCKET_ROLE>

Notera AccessGrantsLocationId värde i svaret. Vi behöver det för nästa steg där vi går igenom att skapa de nödvändiga S3 Access Grants för att begränsa läs- och skrivåtkomsten till din bucket.

För läs/skrivanvändaren, använd s3-control create-access-grant för att tillåta READWRITE-åtkomst till prefixet "output/*":

aws s3control create-access-grant 
  --account-id <YOUR_ACCOUNT_ID> 
  --access-grants-location-id <LOCATION_ID_FROM_PREVIOUS_COMMAND> 
  --access-grants-location-configuration S3SubPrefix="output/*" 
  --permission READWRITE 
  --grantee GranteeType=IAM,GranteeIdentifier=<DATA_WRITER_ROLE>

För den lästa användaren, använd s3control create-access-grant igen för att endast tillåta LÄS-åtkomst till samma prefix:

aws s3control create-access-grant 
  --account-id <YOUR_ACCOUNT_ID> 
  --access-grants-location-id <LOCATION_ID_FROM_PREVIOUS_COMMAND> 
  --access-grants-location-configuration S3SubPrefix="output/*" 
  --permission READ 
  --grantee GranteeType=IAM,GranteeIdentifier=<DATA_READER_ROLE>

Demoscenario 1: Amazon EMR på EC2 Spark Job för att generera parkettdata

Nu när vi har konfigurerat våra Amazon EMR-miljöer och beviljat åtkomst till våra roller via S3 Access Grants är det viktigt att notera att de två AWS IAM-rollerna för vårt EMR-kluster och EMR Serverless-applikation har en IAM-policy som endast tillåter åtkomst till vår EMR artefakter hink. De har ingen IAM-åtkomst till vår S3-databucket och använder istället S3 Access Grants för att hämta kortlivade autentiseringsuppgifter omfångade till hinken och prefixet. Specifikt ges rollerna s3:GetDataAccess och s3:GetDataAccessGrantsInstanceForPrefix behörigheter att begära åtkomst via den specifika S3 Access Grants-instans som skapats i vår region. Detta gör att du enkelt kan hantera din S3-åtkomst på ett ställe på ett mycket omfattande och detaljerat sätt som förbättrar din säkerhetsställning. Genom att kombinera S3 Access Grants med jobbroller på EMR på Amazon Elastic Kubernetes Service (Amazon EX) och EMR Serverless samt runtime roller för Amazon EMR-steg Från och med EMR 6.7.0 kan du enkelt hantera åtkomstkontroll för enskilda jobb eller frågor. S3 Access Grants är tillgängliga på EMR 6.15.0 och senare. Låt oss först köra ett Spark-jobb på EMR på EC2 som vår analysingenjör för att konvertera några exempeldata till Parquet.

För detta använder du exempelkoden som finns i converter.py. Ladda ner filen och kopiera den till EMR_ARTIFACTS_BUCKET skapad av AWS CloudFormation-stacken. Vi lämnar in vårt jobb med rollen ReadWrite AWS IAM. Observera att för EMR-klustret konfigurerade vi S3 Access Grants för att falla tillbaka till IAM-rollen om åtkomst inte tillhandahålls av S3 Access Grants. De DATA_WRITER_ROLE har läsåtkomst till EMR-artefakter-bucket genom en IAM-policy så att den kan läsa vårt skript. Som tidigare, ersätt alla värden med <> symboler från Utgångarna fliken i din CloudFormation-stack.

aws s3 cp converter.py s3://<EMR_ARTIFACTS_BUCKET>/code/
aws emr add-steps --cluster-id <EMR_CLUSTER_ID> 
    --execution-role-arn <DATA_WRITER_ROLE> 
    --steps '[
        {
            "Type": "CUSTOM_JAR",
            "Name": "converter",
            "ActionOnFailure": "CONTINUE",
            "Jar": "command-runner.jar",
            "Args": [
                    "spark-submit",
                    "--deploy-mode",
                    "client",
                    "s3://<EMR_ARTIFACTS_BUCKET>/code/converter.py",
                    "s3://<DATA_BUCKET>/output/weather-data/"
            ]
        }
    ]'

När jobbet är klart bör vi se lite parkettdata s3://<DATA_BUCKET>/output/weather-data/. Du kan se status för jobbet i Steg fliken på EMR-konsol.

Demoscenario 2: EMR Studio med en interaktiv EMR-serverlös applikation för att analysera data

Låt oss nu gå vidare och logga in på EMR Studio och ansluta till din EMR Serverless-applikation med ReadOnly runtime-rollen för att analysera data från scenario 1. Först måste vi aktivera den interaktiva slutpunkten på din Serverless-applikation.

Välj EMRStudioURL i Fliken Utgångar av din AWS CloudFormation-stack.
Välja Applikationer under Server avsnitt på vänster sida.
Välj EMRBlog ansökan, sedan Handling rullgardinsmenyn och Configure.
Expandera Interaktiv slutpunkt avsnitt och se till att Aktivera interaktiv slutpunkt är kontrollerad.
Bläddra ner och klicka Konfigurera applikation för att spara dina ändringar.
Tillbaka på applikationssidan, välj EMRBlog ansökan, sedan Starta applikationen knapp.

Skapa sedan en ny arbetsyta i vår Studio.

Välja arbetsytor på vänster sida, sedan Skapa arbetsyta knapp.
Ange ett arbetsytanamn, lämna kvar de återstående standardinställningarna och välj Skapa arbetsyta.
Efter att ha skapat arbetsytan bör den startas på en ny flik om några sekunder.

Anslut nu din Workspace till din EMR Serverless-applikation.

Välj EMR Compute knappen på vänster sida som visas i följande kod.
Välja EMR-serverlös som beräkningstyp.
Välj EMRBlog applikation och runtime-rollen som börjar med EMRBlog.
Välja Bifoga. Fönstret kommer att uppdateras och du kan öppna en ny PySpark anteckningsbok och följ med nedan. För att köra koden själv, ladda ner AccessGrantsReadOnly.ipynb anteckningsbok och ladda upp den till din arbetsyta med hjälp av Ladda upp filer knappen i filläsaren.

Låt oss göra en snabb läsning av data.

df = spark.read.parquet(f"s3://{DATA_BUCKET}/output/weather-data/")
df.createOrReplaceTempView("weather")
df.show()

Vi gör en enkel räkning(*):

spark.sql("SELECT year, COUNT(*) FROM weather GROUP BY 1").show()

Du kan också se att om vi försöker skriva data till utdataplatsen får vi ett Amazon S3-fel.

df.write.format("csv").mode("overwrite").save("s3://<DATA_BUCKET>/output/weather-data-2/")

Även om du också kan ge liknande åtkomst via AWS IAM-policyer, kan Amazon S3 Access Grants vara användbart för situationer där din organisation har vuxit ur hanteringen av åtkomst via IAM, vill mappa S3 Access Grants till IAM Identity Center-huvudmän eller roller, eller tidigare har använt EMR Filsystem (EMRFS) rollmappningar. S3 Access Grants-uppgifter är också tillfälliga och ger säkrare åtkomst till dina data. Dessutom, som visas nedan, gynnas åtkomst över flera konton också av enkelheten med S3 Access Grants.

Demoscenario 3 – Åtkomst över flera konton

Ett av de andra vanligare åtkomstmönstren är åtkomst till data över konton. Detta mönster har blivit allt vanligare med uppkomsten av datanät, där dataproducenter och konsumenter är decentraliserade över olika AWS-konton.

Tidigare krävde åtkomst över flera konton att du konfigurerade komplexa rollåtgärder över flera konton och leverantörer av anpassade autentiseringsuppgifter när du konfigurerar ditt Spark-jobb. Med S3 Access Grants behöver vi bara göra följande:

Skapa en Amazon EMR-jobbroll och kluster i ett andra datakonsumentkonto
Dataproducentkontot ger åtkomst till datakonsumentkontot med en ny instansresurspolicy
Dataproducentkontot skapar ett åtkomstbidrag för rollen datakonsumentjobb

Och det är allt! Om du har ett andra konto till hands, fortsätt och distribuera denna AWS CloudFormation-stack i datakonsumentkontot för att skapa en ny EMR-serverlös applikation och jobbroll. Om inte, följ bara med nedan. AWS CloudFormation-stacken ska skapas på mindre än en minut. Låt oss sedan gå vidare och ge vår datakonsument tillgång till S3 Access Grants-instansen i vårt dataproducentkonto.

ersätta <DATA_PRODUCER_ACCOUNT_ID> och <DATA_CONSUMER_ACCOUNT_ID> med relevanta 12-siffriga AWS-konto-ID:n.

Du kan också behöva ändra region i kommandot och policyn.

aws s3control put-access-grants-instance-resource-policy 
    --account-id <DATA_PRODUCER_ACCOUNT_ID> 
    --region us-east-2 
    --policy '{
    "Version": "2012-10-17",
    "Id": "S3AccessGrantsPolicy",
    "Statement": [
        {
            "Sid": "AllowAccessToS3AccessGrants",
            "Principal": {
                "AWS": "<DATA_CONSUMER_ACCOUNT_ID>"
            },
            "Effect": "Allow",
            "Action": [
                "s3:ListAccessGrants",
                "s3:ListAccessGrantsLocations",
                "s3:GetDataAccess"
            ],
            "Resource": "arn:aws:s3:us-east-2:<DATA_PRODUCER_ACCOUNT_ID>:access-grants/default"
        }
    ]
}'

Och ge sedan LÄS-åtkomst till utdatamappen till vår EMR Serverless-jobbroll i datakonsumentkontot.

aws s3control create-access-grant 
    --account-id <DATA_PRODUCER_ACCOUNT_ID> 
    --region us-east-2 
    --access-grants-location-id default 
    --access-grants-location-configuration S3SubPrefix="output/*" 
    --permission READ 
    --grantee GranteeType=IAM,GranteeIdentifier=arn:aws:iam::<DATA_CONSUMER_ACCOUNT_ID>:role/<EMR_SERVERLESS_JOB_ROLE> 
    --region us-east-2

Nu när vi har gjort det kan vi läsa data i datakonsumentkontot från hinken i dataproducentkontot. Vi kör bara en enkel COUNT(*) igen. Ersätt <APPLICATION_ID>, <DATA_CONSUMER_JOB_ROLE>och <DATA_CONSUMER_LOG_BUCKET> med värdena från fliken Utgångar på AWS CloudFormation-stacken som skapats i ditt andra konto.

Och byt ut <DATA_PRODUCER_BUCKET> med hinken från ditt första konto.

aws emr-serverless start-job-run 
  --application-id <APPLICATION_ID> 
  --execution-role-arn <DATA_CONSUMER_JOB_ROLE> 
  --configuration-overrides '{
        "monitoringConfiguration": {
            "s3MonitoringConfiguration": {
                "logUri": "s3://<DATA_CONSUMER_LOG_BUCKET>/logs/"
            }
        }
    }' 
  --job-driver '{
    "sparkSubmit": {
        "entryPoint": "SELECT COUNT(*) FROM parquet.`s3://<DATA_PRODUCER_BUCKET>/output/weather-data/`",
        "sparkSubmitParameters": "--class org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver -e"
    }
  }'

Vänta tills jobbet når ett slutfört tillstånd och hämta sedan standardloggen från din hink och ersätt <APPLICATION_ID>, <JOB_RUN_ID> från jobbet ovan, och <DATA_CONSUMER_LOG_BUCKET>.

aws emr-serverless get-job-run --application-id <APPLICATION_ID> --job-run-id <JOB_RUN_ID>
{
    "jobRun": {
        "applicationId": "00feq2s6g89r2n0d",
        "jobRunId": "00feqnp2ih45d80e",
        "state": "SUCCESS",
        ...
}

Om du är på en unix-baserad maskin och har dragkedja installerat, då kan du använda följande kommando som din administrativa användare.

Observera att det här kommandot endast använder AWS IAM-rollpolicyer, inte Amazon S3 Access Grants.

aws s3 ls s3:// <DATA_CONSUMER_LOG_BUCKET>/logs/applications/<APPLICATION_ID>/jobs/<JOB_RUN_ID>/SPARK_DRIVER/stdout.gz - | gunzip

Annars kan du använda få-dashboard-för-jobbkörning kommandot och öppna den resulterande URL:en i din webbläsare för att visa drivrutinsloggarna på fliken Executors i Spark UI.

aws emr-serverless get-dashboard-for-job-run --application-id <APPLICATION_ID> --job-run-id <JOB_RUN_ID>

Städar upp

För att undvika framtida kostnader för exempelresurser i dina AWS-konton, var noga med att ta följande steg:

Du måste manuellt ta bort Amazon EMR Studio-arbetsytan som skapades i den första delen av inlägget
Töm Amazon S3-hinkarna som skapats av AWS CloudFormation-stackarna
Se till att du tar bort Amazon S3 Access Grants, resurspolicyer och S3 Access Grants-platsen som skapats i stegen ovan med hjälp av delete-access-grant, delete-access-grants-instance-resource-policy, delete-access-grants-locationoch delete-access-grants-instance kommandon.
Ta bort AWS CloudFormation-stackarna som skapats i varje konto

Jämförelse med AWS IAM-rollmappning

Under 2018 introducerade EMR EMRFS rollmappning som ett sätt att tillhandahålla auktorisering på lagringsnivå genom att konfigurera EMRFS med flera IAM-roller. Även om rollmappningen var effektiv, krävde rollmappningen att man hanterade användare eller grupper lokalt på ditt EMR-kluster utöver att bibehålla mappningarna mellan dessa identiteter och deras motsvarande IAM-roller. I kombination med runtime roller på EMR på EC2 och arbetsroller för EMR på EKS och EMR-serverlös, är det nu enklare att ge åtkomst till dina uppgifter på S3 direkt till den relevanta huvudmannen per jobb.

Slutsats

I det här inlägget visade vi dig hur du ställer in och använder Amazon S3 Access Grants med Amazon EMR för att enkelt hantera dataåtkomst för dina Amazon EMR-arbetsbelastningar. Med S3 Access Grants och EMR kan du enkelt konfigurera åtkomst till data på S3 för IAM-identiteter eller använda din företagskatalog i IAM Identity Center som din identitetskälla. S3 Access Grants stöds över EMR på EC2, EMR på EKS och EMR Serverless från och med EMR release 6.15.0.

Att lära sig mer, se S3 Access Grants och EMR-dokumentation och ställ gärna frågor i kommentarerna!

Om författaren

Damon Cortesi är en huvudansvarig för utvecklare med Amazon Web Services. Han bygger verktyg och innehåll för att underlätta livet för dataingenjörer. När han inte jobbar hårt bygger han fortfarande datapipelines och delar loggar på fritiden.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/big-data/use-amazon-emr-with-s3-access-grants-to-scale-spark-access-to-amazon-s3/

Tidsstämpel: November 26, 2023

Analyser i nästan realtid med Amazon Redshift-strömning med Amazon Kinesis Data Streams och Amazon DynamoDB | Amazon webbtjänster

Källkluster:

AWS Big Data

Källnod: 2788873

Tidsstämpel: Juli 27, 2023

Återutgiven av Platon

Chargeback Gurus ger e-handelshandlare en avancerad återkravsintelligens för att få tillbaka miljoner med Amazon Quicksight

Skapa fler partitioner och behåll data längre i dina MSK Serverless-kluster

AWS Specialist Insights Team använder Amazon QuickSight för att ge operativa insikter i AWS Worldwide Specialist Organization

Migrera från Google BigQuery till Amazon Redshift med AWS Glue och Custom Auto Loader Framework | Amazon webbtjänster

Analyser i nästan realtid med Amazon Redshift-strömning med Amazon Kinesis Data Streams och Amazon DynamoDB | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto