Aplique controle de acesso refinado em formatos de tabelas abertas por meio do Amazon EMR integrado ao AWS Lake Formation | Amazon Web Services

Republicado por Platão

seguidores: 0

Com o Amazon EMR 6.15, lançamos Formação AWS Lake controles de acesso refinados (FGAC) baseados em Open Table Formats (OTFs), incluindo Apache Hudi, Apache Iceberg e Delta lake. Isso permite simplificar a segurança e a governança lagos de dados transacionais fornecendo controles de acesso em permissões em nível de tabela, coluna e linha com seus trabalhos do Apache Spark. Muitas grandes empresas procuram usar seu data lake transacional para obter insights e melhorar a tomada de decisões. Você pode construir uma arquitetura de casa no lago usando o Amazon EMR integrado ao Lake Formation para FGAC. Essa combinação de serviços permite realizar análises de dados em seu data lake transacional, garantindo acesso seguro e controlado.

O componente do servidor de registros do Amazon EMR oferece suporte à funcionalidade de filtragem de dados em nível de tabela, coluna, linha, célula e atributos aninhados. Ele estende o suporte aos formatos Hive, Apache Hudi, Apache Iceberg e Delta lake para leitura (incluindo viagem no tempo e consulta incremental) e operações de gravação (em instruções DML como INSERT). Além disso, com a versão 6.15, o Amazon EMR introduz proteção de controle de acesso para a interface web de seu aplicativo, como Spark History Server no cluster, Yarn Timeline Server e Yarn Resource Manager UI.

Neste post, demonstramos como implementar o FGAC em Apache Hudi tabelas usando o Amazon EMR integrado ao Lake Formation.

Caso de uso de data lake de transação

Os clientes do Amazon EMR costumam usar formatos de tabela abertos para oferecer suporte às suas transações ACID e às necessidades de viagem no tempo em um data lake. Ao preservar versões históricas, a viagem no tempo do data lake oferece benefícios como auditoria e conformidade, recuperação e reversão de dados, análise reproduzível e exploração de dados em diferentes momentos.

Outro caso de uso popular de data lake de transação é a consulta incremental. A consulta incremental refere-se a uma estratégia de consulta que se concentra no processamento e análise apenas dos dados novos ou atualizados em um data lake desde a última consulta. A ideia principal por trás das consultas incrementais é usar metadados ou mecanismos de controle de alterações para identificar os dados novos ou modificados desde a última consulta. Ao identificar essas alterações, o mecanismo de consulta pode otimizar a consulta para processar apenas os dados relevantes, reduzindo significativamente o tempo de processamento e os requisitos de recursos.

Visão geral da solução

Nesta postagem, demonstramos como implementar FGAC em tabelas Apache Hudi usando Amazon EMR em Amazon Elastic Compute Nuvem (Amazon EC2) integrado ao Lake Formation. Apache Hudi é uma estrutura de data lake transacional de código aberto que simplifica muito o processamento incremental de dados e o desenvolvimento de pipelines de dados. Este novo recurso FGAC oferece suporte a todos os OTF. Além de demonstrar com o Hudi aqui, acompanharemos outras tabelas OTF em outros blogs. Nós usamos laptops in Estúdio Amazon SageMaker para ler e gravar dados Hudi por meio de diferentes permissões de acesso de usuário por meio de um cluster EMR. Isso reflete cenários reais de acesso a dados – por exemplo, se um usuário de engenharia precisar de acesso total aos dados para solucionar problemas em uma plataforma de dados, enquanto os analistas de dados podem precisar acessar apenas um subconjunto desses dados que não contém informações de identificação pessoal (PII). ). Integrando com Lake Formation através do Função de tempo de execução do Amazon EMR permite ainda melhorar sua postura de segurança de dados e simplifica o gerenciamento de controle de dados para cargas de trabalho do Amazon EMR. Esta solução garante um ambiente seguro e controlado para acesso aos dados, atendendo às diversas necessidades e requisitos de segurança dos diferentes usuários e funções de uma organização.

O diagrama a seguir ilustra a arquitetura da solução.

Arquitetura da solução

Conduzimos um processo de ingestão de dados para atualizar (atualizar e inserir) um conjunto de dados Hudi para um Serviço de armazenamento simples da Amazon (Amazon S3) e persistir ou atualizar o esquema da tabela no Cola AWS Catálogo de dados. Sem movimentação de dados, podemos consultar a tabela Hudi governada pelo Lake Formation por meio de vários serviços AWS, como Amazona atena, Amazon EMR e Amazon Sage Maker.

Quando os usuários enviam um trabalho Spark por meio de qualquer endpoint de cluster EMR (EMR Steps, Livy, EMR Studio e SageMaker), o Lake Formation valida seus privilégios e instrui o cluster EMR a filtrar dados confidenciais, como dados PII.

Esta solução possui três tipos diferentes de usuários com diferentes níveis de permissões para acessar os dados do Hudi:

função de criador de hudi-db – Isso é usado pelo administrador do data lake que tem privilégios para realizar operações DDL, como criar, modificar e excluir objetos de banco de dados. Eles podem definir regras de filtragem de dados no Lake Formation para controle de acesso a dados em nível de linha e coluna. Estas regras do FGAC garantem que o data lake esteja protegido e cumpra os regulamentos de privacidade de dados exigidos.
hudi-table-pii-role – Isso é usado por usuários de engenharia. Os usuários de engenharia são capazes de realizar viagens no tempo e consultas incrementais tanto em Copy-on-Write (CoW) quanto em Merge-on-Read (MoR). Eles também têm privilégio de acessar dados PII com base em qualquer carimbo de data/hora.
hudi-tabela-não-pii-role – Isso é usado por analistas de dados. Os direitos de acesso aos dados dos analistas de dados são regidos pelas regras autorizadas pelo FGAC, controladas pelos administradores do data lake. Eles não têm visibilidade em colunas que contêm dados PII, como nomes e endereços. Além disso, eles não podem acessar linhas de dados que não atendam a determinadas condições. Por exemplo, os usuários só podem acessar linhas de dados que pertencem ao seu país.

Pré-requisitos

Você pode baixar os três cadernos usados nesta postagem no site GitHub repo.

Antes de implantar a solução, certifique-se de ter o seguinte:

Conclua as etapas a seguir para configurar suas permissões:

Faça login em sua conta da AWS com seu usuário administrador do IAM.

Certifique-se de que você está nous-east-1Região.

Crie um bucket S3 no us-east-1 Região (por exemplo,emr-fgac-hudi-us-east-1-<ACCOUNT ID>).

A seguir, habilitamos Lake Formation por alterando o modelo de permissão padrão.

Faça login no console do Lake Formation como usuário administrador.
Escolha Configurações do catálogo de dados para Áreas de Suporte no painel de navegação.
Debaixo Permissões padrão para bancos de dados e tabelas recém-criados, desmarque Use apenas controle de acesso IAM para novos bancos de dados e Use apenas controle de acesso IAM para novas tabelas em novos bancos de dados.
Escolha Salvar.

Configurações do catálogo de dados

Como alternativa, você precisa revogar IAMAllowedPrincipals em recursos (bancos de dados e tabelas) criados se você iniciou o Lake Formation com a opção padrão.

Por fim, criamos um par de chaves para o Amazon EMR.

No console do Amazon EC2, escolha Pares de chaves no painel de navegação.
Escolha Criar par de chaves.
Escolha Nome, insira um nome (por exemploemr-fgac-hudi-keypair).
Escolha Criar par de chaves.

Criar par de chaves

O par de chaves gerado (para esta postagem, emr-fgac-hudi-keypair.pem) será salvo em seu computador local.

A seguir, criamos um Nuvem AWS9 ambiente de desenvolvimento interativo (IDE).

No console AWS Cloud9, escolha Ambientes no painel de navegação.
Escolha Criar ambiente.
Escolha Nome¸ insira um nome (por exemplo,emr-fgac-hudi-env).
Mantenha as outras configurações como padrão.

Ambiente Cloud9

Escolha Crie.
Quando o IDE estiver pronto, escolha Abra para abri-lo.

ambiente cloud9

No IDE do AWS Cloud9, na página Envie o menu, escolha Carregar arquivos locais.

Carregar arquivo local

Carregue o arquivo do par de chaves (emr-fgac-hudi-keypair.pem).
Escolha o sinal de mais e escolha Novo Terminal.

novo terminal

No terminal, insira as seguintes linhas de comando:

#Create encryption certificates for EMR in transit encryption
openssl req -x509 
-newkey rsa:1024 
-keyout privateKey.pem 
-out certificateChain.pem 
-days 365 
-nodes 
-subj '/C=US/ST=Washington/L=Seattle/O=MyOrg/OU=MyDept/CN=*.compute.internal'

cp certificateChain.pem trustedCertificates.pem

# Zip certificates
zip -r -X my-certs.zip certificateChain.pem privateKey.pem trustedCertificates.pem

# Upload the certificates zip file to S3 bucket
# Replace <ACCOUNT ID> with your AWS account ID
aws s3 cp ./my-certs.zip s3://emr-fgac-hudi-us-east-1-<ACCOUNT ID>/my-certs.zip

Observe que o código de exemplo é uma prova de conceito apenas para fins de demonstração. Para sistemas de produção, use uma autoridade de certificação (CA) confiável para emitir certificados. Referir-se Fornecimento de certificados para criptografia de dados em trânsito com criptografia do Amazon EMR para obter detalhes.

Implante a solução por meio do AWS CloudFormation

Nós fornecemos um Formação da Nuvem AWS modelo que configura automaticamente os seguintes serviços e componentes:

Um bucket S3 para o data lake. Ele contém o conjunto de dados TPC-DS de amostra.
Um cluster EMR com configuração de segurança e DNS público habilitado.
Funções IAM do tempo de execução do EMR com permissões refinadas do Lake Formation:
- -hudi-db-creator-role – Esta função é usada para criar bancos de dados e tabelas Apache Hudi.
- -hudi-table-pii-role – Esta função fornece permissão para consultar todas as colunas das tabelas Hudi, incluindo colunas com PII.
- -hudi-table-non-pii-role – Esta função fornece permissão para consultar tabelas Hudi que filtraram colunas PII por Lake Formation.
Funções de execução do SageMaker Studio que permitem aos usuários assumir suas funções de tempo de execução EMR correspondentes.
Recursos de rede, como VPC, sub-redes e grupos de segurança.

Conclua as etapas a seguir para implementar os recursos:

Escolha Pilha de criação rápida para iniciar a pilha do CloudFormation.
Escolha Nome da pilha, insira um nome de pilha (por exemplo,rsv2-emr-hudi-blog).
Escolha Ec2KeyPair, insira o nome do seu par de chaves.
Escolha IdleTimeout, insira um tempo limite de inatividade para o cluster do EMR para evitar pagar pelo cluster quando ele não estiver sendo usado.
Escolha InitS3Bucket, insira o nome do bucket S3 que você criou para salvar o arquivo .zip do certificado de criptografia do Amazon EMR.
Escolha S3CertsZip, insira o URI do S3 do arquivo .zip do certificado de criptografia do Amazon EMR.

Modelo CloudFormation

Selecionar Eu reconheço que o AWS CloudFormation pode criar recursos IAM com nomes personalizados.
Escolha Criar pilha.

A implantação da pilha CloudFormation leva cerca de 10 minutos.

Configurar o Lake Formation para integração do Amazon EMR

Conclua as etapas a seguir para configurar o Lake Formation:

No console do Lake Formation, escolha Configurações de integração de aplicativos para Áreas de Suporte no painel de navegação.
Selecionar Permitir que mecanismos externos filtrem dados em locais do Amazon S3 registrados no Lake Formation.
Escolha Amazon EMR para Valores de tag de sessão.
Insira o ID da sua conta AWS para IDs de conta da AWS.
Escolha Salvar.

LF - Configurações de integração de aplicativos

Escolha Bases de dados para Catálogo de Dados no painel de navegação.
Escolha Criar banco de dados.
Escolha Nome, insira o padrão.
Escolha Criar banco de dados.

LF - criar banco de dados

Escolha Permissões do data lake para Permissões no painel de navegação.
Escolha Conceda.
Selecionar Usuários e funções IAM.
Escolha suas funções do IAM.
Escolha Bases de dados, escolha o padrão.
Escolha Permissões de banco de dados, selecione Descrever.
Escolha Conceda.

LF - Conceder permissões de dados

Copie o arquivo JAR do Hudi para o Amazon EMR HDFS

Para use Hudi com notebooks Jupyter, será necessário concluir as etapas a seguir para o cluster do EMR, que incluem a cópia de um arquivo JAR do Hudi do diretório local do Amazon EMR para seu armazenamento HDFS, para que você possa configurar uma sessão do Spark para usar o Hudi:

Autorizar tráfego SSH de entrada (porta 22).
Copie o valor para DNS público do nó primário (por exemplo, ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com) do cluster EMR Resumo seção.

Resumo do cluster EMR

Volte para o terminal AWS Cloud9 anterior que você usou para criar o par de chaves EC2.
Execute o seguinte comando para SSH no nó primário do EMR. Substitua o espaço reservado pelo nome de host DNS do EMR:

chmod 400 emr-fgac-hudi-keypair.pem
ssh -i emr-fgac-hudi-keypair.pem hadoop@ec2-XXX-XXX-XXX-XXX.compute-1.amazonaws.com

Execute o seguinte comando para copiar o arquivo Hudi JAR para HDFS:

hdfs dfs -mkdir -p /apps/hudi/lib
hdfs dfs -copyFromLocal /usr/lib/hudi/hudi-spark-bundle.jar /apps/hudi/lib/hudi-spark-bundle.jar

Crie o banco de dados e as tabelas Hudi no Lake Formation

Agora estamos prontos para criar o banco de dados e tabelas Hudi com FGAC habilitado pela função de tempo de execução EMR. O Função de tempo de execução do EMR é uma função do IAM que você pode especificar ao enviar um trabalho ou consulta a um cluster do EMR.

Conceder permissão ao criador do banco de dados

Primeiro, vamos conceder ao criador do banco de dados Lake Formation permissão para<STACK-NAME>-hudi-db-creator-role:

Faça login em sua conta AWS como administrador.
No console do Lake Formation, escolha Funções e tarefas administrativas para Áreas de Suporte no painel de navegação.
Confirme se seu usuário de login da AWS foi adicionado como administrador do data lake.
No Criador de banco de dados seção, escolha Conceda.
Escolha Usuários e funções IAM, escolha<STACK-NAME>-hudi-db-creator-role.
Escolha Permissões de catálogo, selecione Criar banco de dados.
Escolha Conceda.

Registre o local do data lake

A seguir, vamos registrar a localização do data lake S3 no Lake Formation:

No console do Lake Formation, escolha Localizações de data lake para Áreas de Suporte no painel de navegação.
Escolha Registrar localização.
Escolha Caminho Amazon S3Escolher Procurar e escolha o bucket S3 do data lake. (<STACK_NAME>s3bucket-XXXXXXX) criado a partir da pilha do CloudFormation.
Escolha Papel do IAM, escolha<STACK-NAME>-hudi-db-creator-role.
Escolha Modo de permissão, selecione Formação de Lago.
Escolha Registrar localização.

LF - Cadastrar localização

Conceder permissão de localização de dados

Em seguida, precisamos conceder<STACK-NAME>-hudi-db-creator-rolea permissão de localização de dados:

No console do Lake Formation, escolha Localizações de dados para Permissões no painel de navegação.
Escolha Conceda.
Escolha Usuários e funções IAM, escolha<STACK-NAME>-hudi-db-creator-role.
Escolha Locais de armazenamento, insira o intervalo S3 (<STACK_NAME>-s3bucket-XXXXXXX).
Escolha Conceda.

LF - Conceder permissões

Conecte-se ao cluster EMR

Agora, vamos usar um notebook Jupyter no SageMaker Studio para conectar-se ao cluster EMR com a função de tempo de execução EMR do criador do banco de dados:

No console SageMaker, escolha domínios no painel de navegação.
Escolha o domínio<STACK-NAME>-Studio-EMR-LF-Hudi.
No Apresentação livro menu ao lado do perfil do usuário<STACK-NAME>-hudi-db-creator, escolha Studio.

SM – Detalhes do domínio

Baixe o caderno rsv2-hudi-db-creator-notebook.
Escolha o ícone de upload.

Estúdio SM - Carregar

Escolha o notebook Jupyter baixado e escolha Abra.
Abra o bloco de notas carregado.
Escolha Imagem, escolha SparkMagicGenericName.
Escolha Núcleo, escolha PySparkGenericName.
Deixe as outras configurações como padrão e escolha Selecionar.

SM Studio - Alterar ambiente

Escolha Agrupar para se conectar ao cluster EMR.

SM Studio - conectar cluster EMR

Escolha o EMR no cluster EC2 (<STACK-NAME>-EMR-Cluster) criado com a pilha CloudFormation.
Escolha Contato.
Escolha Função de execução do EMR, escolha<STACK-NAME>-hudi-db-creator-role.
Escolha Contato.

Criar banco de dados e tabelas

Agora você pode seguir as etapas do notebook para criar o banco de dados e as tabelas Hudi. As principais etapas são as seguintes:

Ao iniciar o notebook, configure“spark.sql.catalog.spark_catalog.lf.managed":"true"para informar ao Spark que spark_catalog é protegido pelo Lake Formation.
Crie tabelas Hudi usando o Spark SQL a seguir.

%%sql 
CREATE TABLE IF NOT EXISTS ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}(
    c_customer_id string,
    c_birth_country string,
    c_customer_sk integer,
    c_email_address string,
    c_first_name string,
    c_last_name string,
    ts bigint
) USING hudi
LOCATION '${cow_table_location_sql}'
OPTIONS (
  type = 'cow',
  primaryKey = '${hudi_primary_key}',
  preCombineField = '${hudi_pre_combined_field}'
 ) 
PARTITIONED BY (${hudi_partitioin_field});

Insira dados da tabela de origem nas tabelas Hudi.

%%sql
INSERT OVERWRITE ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
SELECT 
    c_customer_id ,  
    c_customer_sk,
    c_email_address,
    c_first_name,
    c_last_name,
    unix_timestamp(current_timestamp()) AS ts,
    c_birth_country
FROM ${src_df_view}
WHERE c_birth_country = 'HONG KONG' OR c_birth_country = 'CHINA' 
LIMIT 1000

Insira os dados novamente nas tabelas Hudi.

%%sql
INSERT INTO ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
SELECT 
    c_customer_id ,  
    c_customer_sk,
    c_email_address,
    c_first_name,
    c_last_name,
    unix_timestamp(current_timestamp()) AS ts,
    c_birth_country
FROM ${insert_into_view}

Consulte as tabelas Hudi via Lake Formation com FGAC

Depois de criar o banco de dados e as tabelas Hudi, você estará pronto para consultar as tabelas usando controle de acesso refinado com Lake Formation. Criamos dois tipos de tabelas Hudi: Copy-On-Write (COW) e Merge-On-Read (MOR). A tabela COW armazena dados em formato colunar (Parquet) e cada atualização cria uma nova versão de arquivos durante uma gravação. Isso significa que, para cada atualização, o Hudi reescreve o arquivo inteiro, o que pode consumir mais recursos, mas fornece desempenho de leitura mais rápido. O MOR, por outro lado, é introduzido para casos em que o COW pode não ser ideal, especialmente para cargas de trabalho com muitas gravações ou alterações. Em uma tabela MOR, cada vez que há uma atualização, o Hudi grava apenas a linha do registro alterado, o que reduz custos e permite gravações de baixa latência. No entanto, o desempenho de leitura pode ser mais lento em comparação com as tabelas COW.

Conceder permissão de acesso à tabela

Usamos a função IAM<STACK-NAME>-hudi-table-pii-rolepara consultar Hudi COW e MOR contendo colunas PII. Primeiro concedemos permissão de acesso à tabela por meio do Lake Formation:

No console do Lake Formation, escolha Permissões do data lake para Permissões no painel de navegação.
Escolha Conceda.
Escolha<STACK-NAME>-hudi-table-pii-rolepara Usuários e funções IAM.
Escolha orsv2_blog_hudi_db_1banco de dados para Bases de dados.
Escolha Tabelas, escolha as quatro tabelas Hudi que você criou no notebook Jupyter.

LF - Conceder permissões de dados

Escolha Permissões de mesa, selecione Selecionar.
Escolha Conceda.

LF - permissões de tabela

Consultar colunas PII

Agora você está pronto para executar o notebook para consultar as tabelas Hudi. Vamos seguir etapas semelhantes à seção anterior para executar o notebook no SageMaker Studio:

No console do SageMaker, navegue até o<STACK-NAME>-Studio-EMR-LF-Hudidomínio.
No Apresentação livro menu ao lado do<STACK-NAME>-hudi-table-readerperfil de usuário, escolha Studio.
Carregar o notebook baixado rsv2-hudi-table-pii-reader-notebook.
Abra o bloco de notas carregado.
Repita as etapas de configuração do notebook e conecte-se ao mesmo cluster do EMR, mas use a função<STACK-NAME>-hudi-table-pii-role.

No estágio atual, o cluster EMR habilitado para FGAC precisa consultar a coluna de tempo de commit do Hudi para realizar consultas incrementais e viagens no tempo. Ele não suporta a sintaxe “timestamp as of” do Spark e Spark.read(). Estamos trabalhando ativamente para incorporar suporte para ambas as ações em versões futuras do Amazon EMR com FGAC habilitado.

Agora você pode seguir as etapas no notebook. A seguir estão algumas etapas destacadas:

Execute uma consulta de instantâneo.

%%sql 
SELECT c_birth_country, count(*) FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql} GROUP BY c_birth_country;

Execute uma consulta incremental.

incremental_df = spark.sql(f"""
SELECT * FROM {HUDI_CATALOG}.{HUDI_DATABASE}.{COW_TABLE_NAME_SQL} WHERE _hoodie_commit_time >= {commit_ts[-1]}
""")

incremental_df.createOrReplaceTempView("incremental_view")

%%sql
SELECT 
    c_birth_country, 
    count(*) 
FROM incremental_view
GROUP BY c_birth_country;

Execute uma consulta de viagem no tempo.

%%sql
SELECT
    c_birth_country, COUNT(*) as count
FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql}
WHERE _hoodie_commit_time IN
(
    SELECT DISTINCT _hoodie_commit_time FROM ${hudi_catalog}.${hudi_db}.${cow_table_name_sql} ORDER BY _hoodie_commit_time LIMIT 1 
)
GROUP BY c_birth_country

Execute consultas de tabela MOR otimizadas para leitura e em tempo real.

%%sql
SELECT
    a.email_label,
    count(*)
FROM (
    SELECT
        CASE
            WHEN c_email_address = 'UNKNOWN' THEN 'UNKNOWN'
            ELSE 'NOT_UNKNOWN'
        END AS email_label
    FROM ${hudi_catalog}.${hudi_db}.${mor_table_name_sql}_ro
    WHERE c_birth_country = 'HONG KONG'
) a
GROUP BY a.email_label;

%%sql
SELECT *  
FROM ${hudi_catalog}.${hudi_db}.${mor_table_name_sql}_ro
WHERE 
    c_birth_country = 'INDIA' OR c_first_name = 'MASKED'

Consulte as tabelas Hudi com filtros de dados em nível de coluna e em nível de linha

Usamos a função IAM<STACK-NAME>-hudi-table-non-pii-rolepara consultar tabelas Hudi. Esta função não tem permissão para consultar colunas que contenham PII. Usamos os filtros de dados em nível de coluna e linha do Lake Formation para implementar controle de acesso refinado:

No console do Lake Formation, escolha Filtros de dados para Catálogo de Dados no painel de navegação.
Escolha Crie um novo filtro.
Escolha Nome do filtro de dados, entrarcustomer-pii-filter.
Escolharsv2_blog_hudi_db_1para Banco de dados de destino.
Escolharsv2_blog_hudi_mor_sql_dl_customer_1para Tabela de destino.
Selecionar Excluir colunas e escolha oc_customer_id,c_email_address ec_last_namecolunas.
Entrarc_birth_country != 'HONG KONG'para Expressão de filtro de linha.
Escolha Criar filtro.

LF - criar filtro de dados

Escolha Permissões do data lake para Permissões no painel de navegação.
Escolha Conceda.
Escolha<STACK-NAME>-hudi-table-non-pii-rolepara Usuários e funções IAM.
Escolharsv2_blog_hudi_db_1para Bases de dados.
Escolharsv2_blog_hudi_mor_sql_dl_tpc_customer_1para Tabelas.
Escolhacustomer-pii-filterpara Filtros de dados.
Escolha Permissões de filtro de dados, selecione Selecionar.
Escolha Conceda.

LF - Conceder permissões de dados

Vamos seguir etapas semelhantes para executar o notebook no SageMaker Studio:

No console do SageMaker, navegue até o domínioStudio-EMR-LF-Hudi.
No Apresentação livro cardápio para ohudi-table-readerperfil de usuário, escolha Studio.
Carregar o notebook baixado rsv2-hudi-table-non-pii-reader-notebook e escolha Abra.
Repita as etapas de configuração do notebook e conecte-se ao mesmo cluster do EMR, mas selecione a função<STACK-NAME>-hudi-table-non-pii-role.

Agora você pode seguir as etapas no notebook. A partir dos resultados da consulta, você pode ver que o FGAC por meio do filtro de dados Lake Formation foi aplicado. A função não consegue ver as colunas PIIc_customer_id,c_last_name ec_email_address. Além disso, as linhas deHONG KONGforam filtrados.

resultado da consulta filtrada

limpar

Depois de experimentar a solução, recomendamos limpar os recursos com as seguintes etapas para evitar custos inesperados:

Desligue os aplicativos SageMaker Studio para os perfis de usuário.

O cluster EMR será excluído automaticamente após o valor de tempo limite ocioso.

Excluir o Sistema de arquivos elástico da Amazon (Amazon EFS) volume criado para o domínio.
Esvazie os buckets do S3 criado pela pilha CloudFormation.
No console do AWS CloudFormation, exclua a pilha.

Conclusão

Nesta postagem, usamos o Apachi Hudi, um tipo de tabela OTF, para demonstrar esse novo recurso para impor controle de acesso refinado no Amazon EMR. Você pode definir permissões granulares no Lake Formation para tabelas OTF e aplicá-las por meio de consultas Spark SQL em clusters EMR. Você também pode usar recursos de data lake transacionais, como execução de consultas de instantâneo, consultas incrementais, viagem no tempo e consulta DML. Observe que este novo recurso abrange todas as tabelas OTF.

Esse recurso foi lançado a partir da versão 6.15 do Amazon EMR em todos Regiões onde o Amazon EMR está disponível. Com a integração do Amazon EMR com o Lake Formation, você pode gerenciar e processar big data com confiança, desbloqueando insights e facilitando a tomada de decisões informadas, ao mesmo tempo em que mantém a segurança e a governança dos dados.

Para saber mais, consulte Habilite o Lake Formation com o Amazon EMR e sinta-se à vontade para entrar em contato com seus arquitetos de soluções da AWS, que podem ajudá-lo em sua jornada de dados.

Sobre o autor

Raimundo Lai é um arquiteto de soluções sênior especializado em atender às necessidades de clientes de grandes empresas. Sua experiência consiste em ajudar os clientes na migração de sistemas corporativos e bancos de dados complexos para a AWS, construindo plataformas de armazenamento de dados corporativos e data lake. Raymond é excelente na identificação e design de soluções para casos de uso de IA/ML e tem foco particular em soluções AWS Serverless e design de arquitetura orientada a eventos.

Bin Wang, PhD, é arquiteto de soluções especialista em análise sênior na AWS, com mais de 12 anos de experiência na indústria de ML, com foco específico em publicidade. Ele possui experiência em processamento de linguagem natural (PNL), sistemas de recomendação, diversos algoritmos de ML e operações de ML. Ele é profundamente apaixonado pela aplicação de técnicas de ML/DL e big data para resolver problemas do mundo real.

Aditya Xá é engenheiro de desenvolvimento de software na AWS. Ele está interessado em bancos de dados e mecanismos de data warehouse e trabalhou em otimizações de desempenho, conformidade de segurança e conformidade com ACID para mecanismos como Apache Hive e Apache Spark.

Melodia Yang é arquiteto sênior de soluções de Big Data para Amazon EMR na AWS. Ela é uma líder de análise experiente que trabalha com clientes da AWS para fornecer orientação sobre práticas recomendadas e consultoria técnica para ajudar no sucesso deles na transformação de dados. Suas áreas de interesse são frameworks e automação de código aberto, engenharia de dados e DataOps.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/big-data/enforce-fine-grained-access-control-on-open-table-formats-via-amazon-emr-integrated-with-aws-lake-formation/

Carimbo de hora: 17 de janeiro de 2024

Carimbo de hora: Julho 11, 2023

Republicado por Platão

Escale seus trabalhos do AWS Glue para Apache Spark com novos tipos de trabalho maiores G.4X e G.8X | Amazon Web Services

Apresentando a experiência de coloração baseada em campo para o Amazon QuickSight | Amazon Web Services

Apresentando o suporte ao Apache Airflow versão 2.6.3 no Amazon MWAA | Amazon Web Services

Acessar coleções sem servidor do Amazon OpenSearch usando um VPC endpoint | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta