Nesta postagem, exploramos como usar o Cola AWS conector nativo para Teradata Vantage para agilizar integrações de dados e liberar todo o potencial de seus dados.
As empresas muitas vezes dependem Serviço de armazenamento simples da Amazon (Amazon S3) para armazenar grandes quantidades de dados de diversas fontes de dados de maneira econômica e segura. Para aqueles que usam o Teradata para análise de dados, as integrações por meio do conector nativo do AWS Glue para o Teradata Vantage abrem novas possibilidades. O AWS Glue aumenta a flexibilidade e a eficiência do gerenciamento de dados, permitindo que as empresas integrem perfeitamente seus dados, independentemente de sua localização, com os recursos analíticos do Teradata. Este novo conector elimina obstáculos técnicos relacionados à configuração, segurança e gerenciamento, permitindo que as empresas exportem ou importem facilmente seus conjuntos de dados para o Teradata Vantage. Como resultado, as empresas podem concentrar-se mais em extrair insights significativos dos seus dados, em vez de lidar com as complexidades da integração de dados.
O AWS Glue é um serviço de integração de dados sem servidor que facilita aos usuários de análise descobrir, preparar, mover e integrar dados de diversas fontes para análise, aprendizado de máquina (ML) e desenvolvimento de aplicativos. Com o AWS Glue, você pode descobrir e conectar-se a mais de 100 fontes de dados diversas e gerenciar seus dados em um catálogo de dados centralizado. Você pode criar, executar e monitorar visualmente pipelines de extração, transformação e carregamento (ETL) para carregar dados em seus data lakes.
Teradata Corporation é uma plataforma líder de dados multinuvem conectada para análise empresarial, focada em ajudar as empresas a usar todos os seus dados em uma empresa, em escala. Como um Competência de dados e análises da AWS Parceira, a Teradata oferece uma plataforma completa de análise e dados em nuvem, inclusive para Machine Learning.
Apresentando o conector nativo do AWS Glue para Teradata Vantage
O AWS Glue fornece suporte para Teradata, acessível por meio de scripts AWS Glue Studio e AWS Glue ETL. Com o AWS Glue Studio, você se beneficia de uma interface visual que simplifica o processo de conexão ao Teradata e criação, execução e monitoramento de trabalhos de ETL do AWS Glue. Para desenvolvedores de dados, esse suporte se estende aos scripts ETL do AWS Glue, onde você pode usar Python ou Scala para criar e gerenciar tarefas mais específicas de integração e transformação de dados.
O conector nativo do AWS Glue para Teradata Vantage permite ler e gravar dados do Teradata com eficiência, sem a necessidade de instalar ou gerenciar qualquer biblioteca de conectores. Você pode adicionar o Teradata como origem e destino na interface visual sem código e arrastar e soltar do AWS Glue Studio ou usar o conector diretamente em um trabalho de script ETL do AWS Glue.
Visão geral da solução
Neste exemplo, você usa o AWS Glue Studio para enriquecer e fazer upload de dados armazenados no Amazon S3 para o Teradata Vantage. Você começa juntando os arquivos de Evento e Local do BILHETE conjunto de dados. Em seguida, você filtra os resultados para uma única região geográfica. Por fim, você carrega os dados refinados no Teradata Vantage.
O conjunto de dados TICKIT rastreia a atividade de vendas do site fictício TICKIT, onde os usuários compram e vendem ingressos online para eventos esportivos, shows e concertos. Neste conjunto de dados, os analistas podem identificar o movimento dos ingressos ao longo do tempo, as taxas de sucesso dos vendedores e os eventos, locais e temporadas mais vendidos.
Neste exemplo, você usa o AWS Glue Studio para desenvolver um pipeline de ETL visual. Esse pipeline lerá dados do Amazon S3, realizará transformações e, em seguida, carregará os dados transformados no Teradata. O diagrama a seguir ilustra essa arquitetura.
Ao final desta postagem, seu trabalho de ETL visual será semelhante à captura de tela a seguir.
Pré-requisitos
Para este exemplo, você deve ter acesso a um endpoint de banco de dados Teradata existente com acessibilidade de rede da AWS e permissões para criar tabelas e carregar e consultar dados.
O AWS Glue precisa de acesso de rede ao Teradata para ler ou gravar dados. A forma como isso é configurado depende de onde seu Teradata está implantado e da configuração de rede específica. Para o Teradata implantado na AWS, pode ser necessário configurar Pareamento de VPC or AWS PrivateLink, grupos de segurança e listas de controle de acesso à rede (NACLs) para permitir que o AWS Glue se comunique com o TCP aberto do Teradata. Se o Teradata estiver fora da AWS, serviços de rede como VPN Site a Site AWS or AWS Direct Connect pode ser necessário. O acesso público à Internet não é recomendado devido a riscos de segurança. Se você escolher o acesso público, será mais seguro executar o trabalho do AWS Glue em uma VPC atrás de um Gateway NAT. Essa abordagem permite que você liste apenas um endereço IP para o tráfego de entrada no firewall da sua rede. Para obter mais informações, consulte Segurança de infraestrutura no AWS Glue.
Configurar o Amazon S3
Cada objeto no Amazon S3 é armazenado em um bucket. Antes de poder armazenar dados no Amazon S3, você deve criar um balde S3 para armazenar os resultados. Conclua as seguintes etapas:
- No console do Amazon S3, escolha Baldes no painel de navegação.
- Escolha Criar balde.
- Escolha Nome, insira um nome globalmente exclusivo para seu bucket; por exemplo, tickit8530923.
- Escolha Criar balde.
- Faça o download do BILHETE conjunto de dados e descompacte-o.
- Crie a pasta tickit em seu bucket S3 e carregue os arquivos allevents_pipe.txt e local_pipe.txt.
Configurar conexões do Teradata
Para se conectar ao Teradata pelo AWS Glue, consulte Configurando a conexão Teradata.
Você deve criar e armazenar suas credenciais do Teradata em um Gerenciador de segredos da AWS secret e, em seguida, associe esse segredo a uma conexão Teradata AWS Glue. Discutiremos essas duas etapas com mais detalhes posteriormente nesta postagem.
Crie uma função do IAM para o trabalho de ETL do AWS Glue
Ao criar o trabalho de ETL do AWS Glue, você especifica um Gerenciamento de acesso e identidade da AWS (IAM) para o trabalho usar. A função deve conceder acesso a todos os recursos usados pelo trabalho, incluindo o Amazon S3 (para quaisquer fontes, destinos, scripts, arquivos de driver e diretórios temporários) e o Secrets Manager. Para obter instruções, consulte Configure uma função IAM para seu trabalho ETL.
Criar tabela no Teradata
Usando sua ferramenta de banco de dados preferida, faça login no Teradata. Execute o código a seguir para criar a tabela no Teradata onde você carregará seus dados:
Armazenar credenciais de login do Teradata
An Conexão do AWS Glue é um objeto do Data Catalog que armazena credenciais de login, strings de URI e muito mais. O conector Teradata requer o Secrets Manager para armazenar o nome de usuário e a senha do Teradata que você usa para se conectar ao Teradata.
Para armazenar o nome de usuário e a senha do Teradata no Secrets Manager, conclua as etapas a seguir:
- No console do Secrets Manager, escolha Segredos no painel de navegação.
- Escolha Guarde um novo segredo.
- Selecionar Outro tipo de segredo.
- Insira a chave/valor USUÁRIO e
teradata_user
, Em seguida, escolha Adicionar linha. - Digite a chave/valor SENHA e
teradata_user_password
, Em seguida, escolha Próximo.
- Escolha Nome secreto, insira um nome descritivo e escolha Próximo.
- Escolha Próximo para passar para a etapa de revisão e escolha Loja.
Crie a conexão Teradata no AWS Glue
Agora você está pronto para criar uma conexão do AWS Glue com o Teradata. Conclua as seguintes etapas:
- No console AWS Glue, escolha Coneções para Catálogo de Dados no painel de navegação.
- Escolha Criar conexão.
- Escolha Nome, insira um nome (por exemplo,
teradata_connection
). - Escolha Tipo de conexão¸ escolher Teradata.
- Escolha URL do Teradata, entrar
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - Escolha Segredo da AWS, escolha o segredo com suas credenciais do Teradata criadas anteriormente.
Crie um trabalho de ETL visual do AWS Glue para transformar e carregar dados no Teradata
Conclua as etapas a seguir para criar seu trabalho de ETL do AWS Glue:
- No console AWS Glue, em Vagas de ETL no painel de navegação, escolha ETL visual.
- Escolha ETL visual.
- Escolha o ícone de lápis para inserir um nome para o seu trabalho.
Nós adicionamos venue_pipe.txt
como nosso primeiro conjunto de dados.
- Escolha Adicionar nós e escolha Amazon S3 na Fontes aba.
- Insira as seguintes propriedades da origem de dados:
- Escolha Nome, insira o Local.
- Escolha Tipo de fonte S3, selecione Localização S3.
- Escolha URL do S3, insira o caminho S3 para
venue_pipe.txt
. - Escolha Formato de dados, escolha CSV.
- Escolha Delimitador, escolha Pipe.
- Desmarcar A primeira linha do arquivo de origem contém cabeçalhos de coluna.
Agora nós adicionamos allevents_pipe.txt
como nosso segundo conjunto de dados.
- Escolha Adicionar nós e escolha Amazon S3 na Fontes aba.
- Insira as seguintes propriedades da origem de dados:
- Escolha Nome, insira Evento.
- Escolha Tipo de fonte S3, selecione Localização S3.
- Escolha URL do S3, insira o caminho S3 para
allevents_pipe.txt
. - Escolha Formato de dados, escolha CSV.
- Escolha Delimitador, escolha Pipe.
- Desmarcar A primeira linha do arquivo de origem contém cabeçalhos de coluna.
A seguir, renomeamos as colunas do conjunto de dados Venue.
- Escolha Adicionar nós e escolha Alterar Esquema na Transformações aba.
- Insira as seguintes propriedades de transformação:
- Escolha Nome, insira os dados de Renomear Local.
- Escolha Pais de nós, escolha Local.
- No Alterar Esquema seção, mapeie as chaves de origem para as chaves de destino:
- col0:
venueid
- col1:
venuename
- col2:
venuecity
- col3:
venuestate
- col4:
venueseats
- col0:
Agora filtramos o conjunto de dados Venue para uma região geográfica específica.
- Escolha Adicionar nós e escolha filtros na Transformações aba.
- Insira as seguintes propriedades de transformação:
- Escolha Nome, insira Filtro de localização.
- Escolha Pais de nós, escolha Local.
- Escolha Condição do filtro, escolha
venuestate
para Chave, escolha fósforos para Divisão dee insira DC para Valor.
Agora renomeamos as colunas no conjunto de dados Event.
- Escolha Adicionar nós e escolha Alterar Esquema na Transformações aba.
- Insira as seguintes propriedades de transformação:
- Escolha Nome, insira Renomear dados do evento.
- Escolha Pais de nós, escolha Evento.
- No Alterar Esquema seção, mapeie as chaves de origem para as chaves de destino:
- col0:
eventid
- col1:
e_venueid
- col2:
catid
- col3:
dateid
- col4:
eventname
- col5:
starttime
- col0:
A seguir, unimos os conjuntos de dados Local e Evento.
- Escolha Adicionar nós e escolha Cadastrar na Transformações aba.
- Insira as seguintes propriedades de transformação:
- Escolha Nome, insira Unir.
- Escolha Pais de nós, escolha Filtro de local e Renomear dados do evento.
- Escolha Tipo de junção¸ escolher Junção interna.
- Escolha Condições de associação, escolha
venueid
para Filtro de Localização ee_venueid
para Renomear dados do evento.
Agora eliminamos a coluna duplicada.
- Escolha Adicionar nós e escolha Alterar Esquema na Transformações aba.
- Insira as seguintes propriedades de transformação:
- Escolha Nome, insira a coluna Eliminar.
- Escolha Pais de nós, escolha Ingressar.
- No Alterar Esquema seção, selecione Cair para
e_venueid
.
A seguir, carregamos os dados na tabela Teradata.
- Escolha Adicionar nós e escolha Teradata na Alvos aba.
- Insira as seguintes propriedades do coletor de dados:
- Escolha Nome, insira Teradata.
- Escolha Pais de nós, escolha Eliminar coluna.
- Escolha Conexão Teradata, escolha
teradata_connection
. - Escolha Nome da mesa, entrar
schema.tablename
da tabela que você criou no Teradata.
Por último, executamos o trabalho e carregamos os dados no Teradata.
- Escolha Salvar, Em seguida, escolha Execute.
Um banner exibirá que o trabalho foi iniciado.
- Escolha Runs, que exibe o status do trabalho.
O status de execução mudará para Sucedido quando o trabalho estiver concluído.
- Conecte-se ao seu Teradata e consulte a tabela em que os dados foram carregados.
Os dados filtrados e unidos dos dois conjuntos de dados estarão na tabela.
limpar
Para evitar incorrer em cobranças adicionais causadas por recursos criados como parte desta postagem, certifique-se de excluir os itens que você criou na conta da AWS para esta postagem:
- A chave do Secrets Manager criada para as credenciais do Teradata
- O conector nativo do AWS Glue para Teradata Vantage
- Os dados carregados no bucket S3
- O trabalho de ETL visual do AWS Glue
Conclusão
Nesta postagem, você criou uma conexão com o Teradata usando AWS Glue e, em seguida, criou um trabalho do AWS Glue para transformar e carregar dados no Teradata. O conector nativo do AWS Glue para Teradata Vantage capacita sua jornada de análise de dados, fornecendo um caminho contínuo e eficiente para integração de seus dados com o Teradata. Esse novo recurso do AWS Glue não apenas simplifica seus fluxos de trabalho de integração de dados, mas também abre novos caminhos para análises avançadas, inteligência de negócios e inovações em machine learning.
Com o AWS Teradata Connector, você tem a melhor ferramenta à sua disposição para simplificar tarefas de integração de dados. Se você deseja carregar dados do Amazon S3 no Teradata para análises, relatórios ou insights de negócios, esse novo conector simplifica o processo, tornando-o mais acessível e econômico.
Para começar a usar o AWS Glue, consulte Introdução ao AWS Glue.
Sobre os autores
Kamen Sharlandjiev é arquiteto sênior de soluções de Big Data e ETL e especialista em AWS Glue. Sua missão é facilitar a vida dos clientes que enfrentam desafios complexos de integração de dados. Sua arma secreta? Serviços AWS totalmente gerenciados e de baixo código que podem realizar o trabalho com o mínimo de esforço e sem codificação. Siga Kamen no LinkedIn para se manter atualizado com as últimas notícias do AWS Glue!
Sean Bjurstrom é gerente técnico de contas em contas ISV na Amazon Web Services, onde se especializou em tecnologias analíticas e se baseia em sua experiência em consultoria para oferecer suporte aos clientes em suas jornadas analíticas e na nuvem. Sean é apaixonado por ajudar as empresas a aproveitar o poder dos dados para impulsionar a inovação e o crescimento. Fora do trabalho, gosta de correr e já participou de diversas maratonas.
Vinod Jayendra é líder de suporte empresarial em contas ISV na Amazon Web Services, onde ajuda os clientes a resolver seus desafios arquitetônicos, operacionais e de otimização de custos. Com foco particular em tecnologias sem servidor, ele utiliza sua extensa experiência em desenvolvimento de aplicativos para ajudar os clientes a criar soluções de alto nível. Além do trabalho, ele encontra alegria em passar bons momentos com a família, embarcando em aventuras de bicicleta e treinando equipes esportivas juvenis.
Doug Mbaya é arquiteto de soluções de parceiro sênior com foco em análise e aprendizado de máquina. Doug trabalha em estreita colaboração com parceiros da AWS e os ajuda a integrar suas soluções com análises da AWS e soluções de aprendizado de máquina na nuvem.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- :tem
- :é
- :não
- :onde
- $UP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- Sobre
- Acesso
- acessível
- Conta
- Contas
- em
- atividade
- adicionar
- Adicional
- endereço
- avançado
- aventuras
- Todos os Produtos
- permitir
- Permitindo
- permite
- tb
- Amazon
- Amazon Web Services
- quantidades
- an
- análise
- Analistas
- Análises
- analítica
- e
- qualquer
- Aplicação
- Desenvolvimento de Aplicações
- abordagem
- arquitetônico
- arquitetura
- SOMOS
- AS
- Jurídico
- At
- autoria
- avenidas
- evitar
- AWS
- Cola AWS
- fundo
- bandeira
- BE
- antes
- atrás
- beneficiar
- MELHOR
- Pós
- Grande
- Big Data
- ambos
- construir
- negócio
- inteligência de negócios
- negócios
- mas a
- comprar
- by
- CAN
- Pode obter
- capacidades
- capacidade
- catálogo
- causado
- centralizada
- desafios
- alterar
- acusações
- Escolha
- de perto
- Na nuvem
- treinamento
- código
- Codificação
- Coluna
- colunas
- comunicar
- Empresas
- completar
- integrações
- concertos
- Configuração
- configurado
- Contato
- conectado
- Conexão de
- da conexão
- cônsul
- consultor
- contém
- ao controle
- relação custo-benefício
- crio
- criado
- Credenciais
- Clientes
- dados,
- análise de dados
- Análise de Dados
- integração de dados
- gestão de dados
- Plataforma de dados
- banco de dados
- conjuntos de dados
- Data
- dc
- lidar
- depende
- implantado
- detalhe
- desenvolver
- desenvolvedores
- Desenvolvimento
- diretamente
- diretamente
- diretórios
- descobrir
- discutir
- Ecrã
- monitores
- disposição
- diferente
- feito
- doug
- desenha
- distância
- motorista
- Cair
- dois
- Mais cedo
- mais fácil
- eficiência
- eficiente
- eficientemente
- esforço
- sem esforço
- elimina
- empodera
- permite
- permitindo
- final
- Ponto final
- Melhora
- enriquecer
- Entrar
- Empreendimento
- Éter (ETH)
- Evento
- eventos
- exemplo
- existente
- especialista
- explorar
- exportar
- se estende
- extenso
- extrato
- enfrentando
- família
- fictício
- Envie o
- Arquivos
- filtro
- Finalmente
- encontra
- firewall
- Primeiro nome
- Flexibilidade
- fluxo
- Foco
- focado
- seguir
- seguinte
- Escolha
- da
- cheio
- totalmente
- geográfico
- ter
- Globalmente
- conceder
- Do grupo
- Growth
- arreios
- Ter
- he
- ajudar
- ajuda
- ajuda
- sua
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTML
- http
- HTTPS
- Obstáculos
- i
- IAM
- ÍCONE
- identificar
- Identidade
- if
- ilustra
- importar
- in
- Incluindo
- Entrada
- índice
- INFORMAÇÕES
- Inovação
- e inovações
- insights
- instalar
- instruções
- integrar
- Integração
- integração
- integrações
- Inteligência
- Interface
- Internet
- Acesso à internet
- para dentro
- complexidades
- IP
- Endereço IP
- Isv
- IT
- Unid
- ESTÁ
- Trabalho
- Empregos
- juntar
- ingressou
- juntando
- viagem
- Viagens
- alegria
- jpg
- Guarda
- Chave
- chaves
- lagos
- grande
- mais tarde
- mais recente
- conduzir
- principal
- aprendizagem
- bibliotecas
- vida
- Line
- Lista
- listas
- carregar
- localização
- log
- entrar
- procurando
- máquina
- aprendizado de máquina
- fazer
- FAZ
- Fazendo
- gerencia
- gerenciados
- de grupos
- Gerente
- maneira
- mapa,
- Posso..
- significativo
- poder
- mínimo
- Missão
- ML
- Monitore
- monitoração
- mais
- mover
- movimento
- múltiplo
- devo
- nome
- nativo
- Navegação
- você merece...
- Cria
- rede
- Acesso à rede
- networking
- Novo
- Próximo
- não
- nó
- objeto
- of
- Oferece
- frequentemente
- on
- ONE
- online
- só
- abre
- operacional
- or
- A Nossa
- lado de fora
- Acima de
- Visão geral
- pão
- parte
- Participou
- particular
- parceiro
- Parceiros
- apaixonado
- Senha
- caminho
- caminho
- realizar
- permissões
- oleoduto
- plataforma
- platão
- Inteligência de Dados Platão
- PlatãoData
- possibilidades
- Publique
- potencial
- poder
- preferido
- Preparar
- primário
- processo
- Propriedades
- fornece
- fornecendo
- público
- Python
- qualidade
- Preços
- em vez
- Leia
- pronto
- Recomenda
- referir
- refinado
- Independentemente
- região
- relacionado
- depender
- Relatórios
- requeridos
- exige
- Recursos
- resultar
- Resultados
- rever
- riscos
- Tipo
- Execute
- corrida
- mais segura
- vendas
- Scala
- Escala
- escrita
- Scripts
- desatado
- sem problemas
- Sean
- estações
- Segundo
- Segredo
- segredos!
- Seção
- seguro
- segurança
- riscos de segurança
- Vejo
- selecionar
- vender
- VENDEDORES
- senior
- Serverless
- serviço
- Serviços
- Configurações
- vários
- rede de apoio social
- Shows
- simples
- simplifica
- simplificando
- solteiro
- solução
- Soluções
- RESOLVER
- fonte
- Fontes
- especializada
- específico
- Esportes
- Times esportivos
- começo
- começado
- Status
- Passo
- Passos
- armazenamento
- loja
- armazenadas
- lojas
- franco
- simplificar
- Simplifica
- estudo
- sucesso
- tal
- ajuda
- certo
- mesa
- Target
- tem como alvo
- tarefas
- equipes
- Dados Técnicos:
- Tecnologias
- temporário
- teste
- do que
- que
- A
- A fonte
- deles
- Eles
- então
- Este
- isto
- aqueles
- Através da
- bilhete
- bilhetes
- tempo
- para
- ferramenta
- tráfego
- Transformar
- Transformação
- transformações
- transformado
- dois
- tipo
- para
- único
- destravar
- URI
- usar
- usava
- Utilizador
- usuários
- utilização
- vário
- Local
- locais
- visual
- visualmente
- foi
- we
- web
- serviços web
- Site
- quando
- se
- qual
- QUEM
- precisarão
- de
- dentro
- sem
- Atividades:
- fluxos de trabalho
- trabalho
- escrever
- Você
- investimentos
- juventude
- zefirnet
- Zip