Formação AWS Lake e os votos de Cola AWS O Catálogo de Dados é parte integrante de uma solução de governança de dados para data lakes baseados em Serviço de armazenamento simples da Amazon (Amazon S3) com vários serviços analíticos da AWS integrados a eles. Em 2022, conversamos sobre as melhorias que fizemos nesses serviços. Continuamos a ouvir histórias de clientes e a trabalhar de trás para frente para incorporar suas opiniões em nossos produtos. Nesta postagem, temos o prazer de resumir os resultados do nosso trabalho árduo em 2023 para melhorar e simplificar a governança de dados para os clientes.
Anunciamos nossos novos recursos e capacidades durante o AWS re:Invent 2023, como é nosso costume todos os anos. A seguir estão as palestras re:Invent 2023 apresentando os recursos do Lake Formation e do Data Catalog:
Agrupamos os novos recursos em quatro categorias:
- Descubra e proteja
- Conecte-se com o compartilhamento de dados
- Dimensione e otimize
- Auditar e monitorar
Vamos nos aprofundar e discutir os novos recursos introduzidos em 2023.
Descubra e proteja
Usando Lake Formation e o Catálogo de Dados como blocos de construção fundamentais, lançado Zona de dados da Amazon em outubro de 2023. DataZone é um serviço de gerenciamento de dados que torna mais rápido e simples catalogar, descobrir, compartilhar e controlar dados armazenados na AWS, no local e em fontes de terceiros. Os fluxos de trabalho de publicação e assinatura do DataZone aprimoram a colaboração entre diversas funções em sua organização e aceleram o tempo para obter insights de negócios a partir de seus dados. Você pode aprimorar os metadados técnicos do Catálogo de Dados usando assistentes com tecnologia de IA em metadados de negócios do DataZone, tornando-os mais facilmente detectáveis. O DataZone gerencia automaticamente as permissões dos seus dados compartilhados nos projetos do DataZone. Para saber mais sobre o DataZone, consulte o Guia de usuario. Bem-vindo no DataZone!
Rastreadores AWS Glue classificar dados para determinar o formato, o esquema e as propriedades associadas dos dados brutos, agrupar dados em tabelas ou partições e gravar metadados no Catálogo de Dados. Em 2023, lançamos diversas atualizações para crawlers do AWS Glue. Adicionamos a capacidade de trazer o seu versões personalizadas de drivers JDBC em rastreadores para extrair esquemas de dados de suas fontes de dados e preencher o Catálogo de Dados. Para otimizar a recuperação de partições e melhorar o desempenho da consulta, adicionamos o recurso para rastreadores adicionar índices de partição automaticamente para tabelas recém-descobertas. Nós também rastreadores integrados com Lake Formation, oferecendo suporte a permissões centralizadas para rastreamento entre contas e entre contas de data lakes S3. Estas são algumas melhorias muito procuradas que simplificam a descoberta de metadados usando rastreadores. Rastreadores, saudação!
Também vimos um tremendo aumento no uso de formatos de tabelas abertas (OTFs), como Linux Foundation Delta Lake, Iceberg Apache e Apache Hudi. Para oferecer suporte a esses OTFs populares, adicionamos suporte para rastrear nativamente esses três formatos de tabela no Catálogo de Dados. Além disso, trabalhamos com outros serviços analíticos da AWS, como Amazon EMR, para ativar permissões refinadas do Lake Formation em todos os três formatos de tabela abertos. Nós encorajamos você a explorar quais recursos do Lake Formation são compatíveis com tabelas OTF. Bem integrado!
À medida que as fontes e os tipos de dados aumentam com o tempo, mais cedo ou mais tarde você terá tipos de dados aninhados em seu data lake. Para levar a governança de dados a esses conjuntos de dados sem nivelá-los, o Lake Formation adicionou suporte para controles de acesso refinados em tipos de dados e colunas aninhados. Também adicionamos suporte para controles de acesso refinados do Lake Formation durante a execução Trabalhos do Apache Hive no Amazon EMR no EC2 e na Estúdio Amazon EMR. Com Amazon EMR sem servidor, o controle de acesso refinado com Lake Formation agora é disponível na visualização. Conecte os pontos!
Na AWS, trabalhamos em estreita colaboração com nossos clientes para entender sua experiência. Entendemos que a integração no Lake Formation de Gerenciamento de acesso e identidade da AWS (IAM) para Amazon S3 e AWS Glue Data Catalog podem ser simplificadas. Percebemos que seus casos de uso precisam de mais flexibilidade na governança de dados. Com o modo de acesso híbrido no Lake Formation, introduzimos a adição seletiva de permissões do Lake Formation para alguns usuários e bancos de dados, sem interromper outros usuários e cargas de trabalho. Você pode definir uma tabela de catálogo no modo híbrido e conceder acesso a novos usuários, como analistas de dados e cientistas de dados, usando o Lake Formation, enquanto seus pipelines de extração, transformação e carregamento (ETL) de produção continuam a usar as permissões existentes baseadas em IAM. Vitória dupla!
Vamos falar sobre gerenciamento de identidade. Você pode usar princípios do IAM, Visão rápida da Amazon usuários e grupos e contas externas e entidades principais do IAM em contas externas para conceder acesso aos recursos do Data Catalog no Lake Formation. E quanto às suas identidades corporativas? Você precisa criar e manter diversas funções do IAM e mapeá-las para diversas identidades corporativas? Você poderia ver a função do IAM que acessou a tabela, mas como descobrir qual usuário a acessou? Para responder a essas perguntas, Lake Formation integrado ao AWS IAM Identity Center e adicionou o recurso para propagação de identidade confiável. Com isso, você pode conceder permissões de acesso refinadas às identidades do provedor de identidade existente da sua organização. Outro Serviços analíticos da AWS também oferece suporte à identidade do usuário a ser propagada. Seus auditores agora podem ver que o usuário john@anycompany.com, por exemplo, acessou a tabela gerenciada pelas permissões do Lake Formation usando Amazona atena, Amazon EMR e Espectro Amazon Redshift. Integração fácil!
Agora você não precisa se preocupar em mover os dados ou copiar o Catálogo de Dados para outra região da AWS para usar os serviços da AWS para governança de dados. Nós expandimos e fizemos Formação de lagos disponível em todas as regiões em 2023. Et voila!
Conecte-se com o compartilhamento de dados
Lake Formation fornece uma maneira direta de compartilhar objetos do Data Catalog, como bancos de dados e tabelas, com usuários internos e externos. Este mecanismo capacita as organizações com acesso rápido e seguro aos dados e acelera a tomada de decisões de negócios. Vamos revisar os novos recursos e melhorias feitas em 2023 neste tema.
O AWS Glue Data Catalog é o componente central e fundamental da governança de dados para Lake Formation e DataZone. Em 2023, estendemos o Catálogo de Dados por meio da federação para integrar com metastores externos do Apache Hive e Compartilhamentos de dados Redshift. Também disponibilizamos o código do conector, que você pode personalizar para conectar o Catálogo de Dados com metastores adicionais compatíveis com Apache Hive. Essas integrações abrem caminho para obter mais metadados no Catálogo de Dados e permitem controles de acesso refinados e compartilhamento desses recursos entre contas da AWS sem esforço com permissões do Lake Formation. Também adicionamos suporte para acessar a tabela do Catálogo de Dados de uma região de outras regiões usando links de recursos entre regiões. Esse aprimoramento simplifica muitos casos de uso para evitar a duplicação de metadados.
Com o Federação do AWS CloudTrail Lake recurso, você pode descobrir, analisar, juntar e compartilhar dados do CloudTrail Lake com outras fontes de dados no Data Catalog. Para o CloudTrail Lake, controles de acesso refinados e recursos de consulta e visualização estão disponíveis por meio do Athena.
Ampliamos ainda mais os recursos do Catálogo de Dados para suportar visualizações em todo o seu data lake. Você pode criar visualizações usando diferentes dialetos SQL e consultas do Athena, Redshift Spectrum e Amazon EMR. Isso permite manter permissões no nível da visualização e não compartilhar tabelas individuais. O recurso de visualizações do Catálogo de Dados é disponível na visualização, anunciado em re:Invent 2023.
Dimensione e otimize
À medida que as consultas SQL se tornam mais complexas com as alterações de dados ao longo do tempo ou têm múltiplas junções, um otimizador baseado em custos (CBO) pode impulsionar otimizações no plano de consulta e levar a um desempenho mais rápido, com base nas estatísticas dos dados nas tabelas. Em 2023, adicionamos suporte para estatísticas em nível de coluna para tabelas no Catálogo de Dados. Os clientes já estão vendo melhorias no desempenho de consultas no Athena e no Redshift Spectrum, com as estatísticas das colunas da tabela ativadas. Suivez les chiffres!
O controle de acesso baseado em tags elimina a necessidade de atualizar suas políticas sempre que um novo recurso é adicionado ao data lake. Em vez disso, os administradores de data lake criam tags Lake Formation (LF-Tags) para marcar objetos do Data Catalog e conceder acesso com base nessas LF-Tags a usuários e grupos. Em 2023, adicionamos suporte para Delegação LF-Tag, onde os administradores do data lake podem conceder permissões aos administradores de dados e outros usuários para gerenciar tags LF sem a necessidade de privilégios de administrador. Democratização da LF-Tag!
O formato Apache Iceberg usa metadados para controlar os arquivos de dados que compõem a tabela. Alterações nas tabelas, como inserções ou atualizações, resultam na criação de novos arquivos de dados. À medida que o número de arquivos de dados de uma tabela aumenta, as consultas que utilizam essa tabela podem se tornar menos eficientes. Para melhorar o desempenho da consulta na tabela Iceberg, é necessário reduzir o número de arquivos de dados compactando os arquivos menores de captura de alterações em arquivos maiores. Os usuários normalmente criam e executam scripts para realizar a otimização desses arquivos de tabela Iceberg em seus próprios servidores ou por meio do AWS Glue ETL. Para aliviar esta complexa manutenção das mesas Iceberg, os clientes nos procuraram em busca de uma solução melhor. Introduzimos o recurso para compactação automática de tabelas Apache Iceberg no Catálogo de Dados. Depois de ativar a compactação automática, o Data Catalog gerencia automaticamente os metadados da tabela e oferece um layout do Amazon S3 sempre otimizado para suas tabelas Iceberg. Para saber mais, confira Otimizando tabelas Iceberg. Automático!
Auditar e monitorar
Saber quem tem acesso a quais dados é um componente crítico da governança de dados. Os auditores precisam validar se os metadados e as permissões de dados corretos estão definidos no Lake Formation e no Catálogo de Dados. Os administradores de data lake têm acesso total a permissões e metadados e podem conceder acesso aos próprios dados. Para fornecer aos auditores a opção de pesquisar e revisar permissões de metadados sem conceder-lhes acesso para fazer alterações nas permissões, introduzimos o função de administrador somente leitura na Formação do Lago. Essa função permite auditar os metadados do catálogo e as permissões e tags LF do Lake Formation, ao mesmo tempo que o restringe de fazer quaisquer alterações neles.
Conclusão
Tivemos um ano de 2023 incrível, desenvolvendo aprimoramentos de produtos para ajudar você a simplificar e aprimorar sua governança de dados usando Lake Formation e Data Catalog. Convidamos você a experimentar esses novos recursos. A seguir está uma lista de nossas postagens de lançamento para referência:
- Recursos do catálogo de dados e do rastreador:
- Recursos de formação do lago:
Continuaremos a inovar em nome de nossos clientes em 2024. Compartilhe suas idéias, casos de uso e feedback sobre melhorias em nossos produtos na seção de comentários ou por meio de suas equipes de conta da AWS. Desejamos a você um feliz e próspero 2024. Feliz Ano Novo!
Sobre os autores
Aarthi Srinivasan é arquiteto sênior de Big Data na AWS Lake Formation. Ela gosta de criar soluções de data lake para clientes e parceiros da AWS. Quando não está no teclado, ela explora as últimas tendências de ciência e tecnologia e passa o tempo com sua família.
Leon Stigter é gerente técnico sênior de produtos da AWS Lake Formation. O foco de Leon é ajudar os desenvolvedores a construir data lakes com mais rapidez, com conectividade perfeita com ferramentas analíticas, para transformar dados em insights revolucionários. Leon está interessado em dados e tecnologias sem servidor e gosta de explorar diferentes cidades em sua missão de provar cheesecake onde quer que vá.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2023-year-in-review/
- :tem
- :é
- :não
- :onde
- $UP
- 100
- 125
- 2023
- 2024
- a
- habilidade
- Sobre
- Acesso
- Acesso a dados
- acessadas
- Conta
- Contas
- em
- adicionar
- adicionado
- Adição
- Adicional
- administradores
- Depois de
- Alimentado por AI
- Todos os Produtos
- aliviar
- permitir
- permite
- já
- tb
- surpreendente
- Amazon
- Amazon EMR
- Amazon Web Services
- an
- Analistas
- Análises
- analítica
- analisar
- e
- anunciou
- Outro
- responder
- qualquer
- apache
- SOMOS
- AS
- assistentes
- associado
- At
- auditor
- auditores
- Automático
- automaticamente
- disponível
- evitar
- AWS
- Cola AWS
- Formação AWS Lake
- AWS re: Invent
- baseado
- BE
- tornam-se
- lado
- ser
- Melhor
- entre
- Grande
- Big Data
- maior
- Blocos
- ambos
- obrigado
- trazer
- construir
- Prédio
- construído
- negócio
- mas a
- by
- veio
- CAN
- capacidades
- capturar
- casos
- catálogo
- Categorias
- central
- centralizada
- alterar
- Alterações
- verificar
- Cidades
- classificar
- de perto
- colaboração
- Coluna
- COM
- comentários
- integrações
- componente
- Contato
- Conectividade
- continuar
- ao controle
- controles
- copiando
- Responsabilidade
- poderia
- rastreador
- crio
- criado
- crítico
- personalizadas
- cliente
- Clientes
- personalizar
- dados,
- lago data
- gestão de dados
- bases de dados
- conjuntos de dados
- Tomada de Decisão
- mais profunda
- definir
- Delta
- derivar
- Determinar
- desenvolvedores
- em desenvolvimento
- diferente
- descobrir
- descoberto
- descoberta
- discutir
- mergulho
- do
- feito
- não
- distância
- Drivers
- durante
- facilmente
- eficiente
- sem esforço
- empodera
- permitir
- encorajar
- aumentar
- aprimoramento
- Melhorias
- Éter (ETH)
- Cada
- em toda parte
- exemplo
- existente
- expandido
- vasta experiência
- explorar
- explora
- Explorando
- opção
- externo
- extrato
- família
- mais rápido
- Característica
- Funcionalidades
- Federação
- retornos
- Arquivos
- Encontre
- Flexibilidade
- Foco
- seguinte
- Escolha
- formulário
- formato
- treinamento
- Foundation
- Fundacional
- quatro
- da
- cheio
- mais distante
- Além disso
- ter
- OFERTE
- dá
- vai
- governo
- governo
- conceder
- concessão
- Grupo
- Do grupo
- Cresce
- tinha
- feliz
- Queijos duros
- trabalho duro
- Ter
- he
- ajudar
- ajuda
- sua experiência
- sua
- Colméia
- Como funciona o dobrador de carta de canal
- HTML
- HTTPS
- HÍBRIDO
- IAM
- identidades
- Identidade
- gerenciamento de identidade
- melhorar
- melhorias
- in
- incorporar
- Crescimento
- Individual
- inovar
- Inserções
- insights
- em vez disso
- integral
- integrado
- Integração
- integrações
- interessado
- interno
- para dentro
- introduzido
- convidar
- IT
- se
- Empregos
- juntar
- Junta
- Guarda
- lago
- lagos
- mais tarde
- mais recente
- lançamento
- traçado
- conduzir
- APRENDER
- menos
- Nível
- como
- gostos
- linux
- fundação linux
- Lista
- carregar
- moldadas
- a manter
- manutenção
- fazer
- FAZ
- Fazendo
- gerencia
- gerenciados
- de grupos
- Gerente
- gestão
- muitos
- mapa,
- mecanismo
- metadados
- Missão
- Moda
- mais
- em movimento
- muito
- múltiplo
- você merece...
- Novo
- Novos Recursos
- Novos usuários
- recentemente
- agora
- número
- objetos
- Outubro
- of
- on
- Onboarding
- ONE
- aberto
- otimização
- Otimize
- Opção
- or
- organização
- organizações
- Outros
- A Nossa
- Fora
- Acima de
- próprio
- parte
- Parceiros
- pavimentar
- realizar
- atuação
- permissões
- plano
- platão
- Inteligência de Dados Platão
- PlatãoData
- por favor
- políticas
- Popular
- Publique
- POSTAGENS
- diretores
- privilégios
- Produto
- gerente de produto
- Produção
- Produtos
- projetos
- propagação
- Propriedades
- próspero
- fornecer
- provedor
- fornece
- Publishing
- consultas
- Frequentes
- Links
- Cru
- dados não tratados
- RE
- realizado
- reduzir
- referir
- referência
- região
- regiões
- liberado
- remove
- recurso
- Recursos
- restringindo
- resultar
- Resultados
- recuperação
- rever
- certo
- Subir
- Tipo
- papéis
- Execute
- corrida
- Ciência
- Ciência e Tecnologia
- cientistas
- Scripts
- desatado
- Pesquisar
- Seção
- seguro
- Vejo
- visto
- visto
- seletivo
- senior
- Serverless
- Servidores
- serviço
- Serviços
- conjunto
- vários
- Partilhar
- compartilhado
- compartilhando
- ela
- apresentando
- simples
- simplifica
- simplificar
- menor
- solução
- Soluções
- alguns
- Fontes
- Espectro
- velocidade
- velocidades
- SQL
- estatística
- armazenamento
- armazenadas
- Histórias
- franco
- simplificada
- tudo incluso
- tal
- resumir
- ajuda
- Suportado
- Apoiar
- mesa
- TAG
- Converse
- negociações
- gosto
- equipes
- Dados Técnicos:
- Tecnologias
- Tecnologia
- que
- A
- deles
- Eles
- tema
- Este
- De terceiros
- isto
- três
- Através da
- tempo
- para
- ferramentas
- pista
- Transformar
- tremendo
- Tendências
- confiável
- tentar
- VIRAR
- Virado
- tipos
- tipicamente
- para
- compreender
- Atualizar
- Atualizações
- us
- Uso
- usar
- Utilizador
- usuários
- usos
- utilização
- VALIDAR
- vário
- muito
- Ver
- visualizações
- Caminho..
- we
- web
- serviços web
- O Quê
- quando
- qual
- enquanto
- QUEM
- precisarão
- de
- sem
- Atividades:
- trabalhou
- fluxos de trabalho
- preocupar-se
- escrever
- ano
- Você
- investimentos
- zefirnet