In questo post esploriamo come utilizzare il file Colla AWS connettore nativo per Teradata Vantage per semplificare le integrazioni dei dati e sbloccare tutto il potenziale dei tuoi dati.
Le aziende spesso fanno affidamento su Servizio di archiviazione semplice Amazon (Amazon S3) per archiviare grandi quantità di dati provenienti da diverse fonti di dati in modo economico e sicuro. Per coloro che utilizzano Teradata per l'analisi dei dati, le integrazioni tramite il connettore nativo AWS Glue per Teradata Vantage sbloccano nuove possibilità. AWS Glue migliora la flessibilità e l'efficienza della gestione dei dati, consentendo alle aziende di integrare perfettamente i propri dati, indipendentemente dalla loro ubicazione, con le capacità analitiche di Teradata. Questo nuovo connettore elimina gli ostacoli tecnici legati alla configurazione, alla sicurezza e alla gestione, consentendo alle aziende di esportare o importare facilmente i propri set di dati in Teradata Vantage. Di conseguenza, le aziende possono concentrarsi maggiormente sull’estrazione di informazioni significative dai propri dati, piuttosto che affrontare le complessità dell’integrazione dei dati.
AWS Glue è un servizio di integrazione dei dati serverless che rende semplice per gli utenti di analisi scoprire, preparare, spostare e integrare dati da più fonti per analisi, machine learning (ML) e sviluppo di applicazioni. Con AWS Glue puoi scoprire e connetterti a più di 100 origini dati diverse e gestire i tuoi dati in un catalogo dati centralizzato. Puoi creare, eseguire e monitorare visivamente le pipeline di estrazione, trasformazione e caricamento (ETL) per caricare i dati nei tuoi data Lake.
Teradata Corporation è una piattaforma dati multi-cloud connessa leader per l'analisi aziendale, focalizzata sull'aiutare le aziende a utilizzare tutti i propri dati in tutta l'azienda, su larga scala. Come un Competenza su dati e analisi AWS partner, Teradata offre una piattaforma completa di dati e analisi cloud, incluso il machine learning.
Presentazione del connettore nativo AWS Glue per Teradata Vantage
AWS Glue fornisce supporto per Teradata, accessibile tramite gli script AWS Glue Studio e ETL di AWS Glue. Con AWS Glue Studio, puoi beneficiare di un'interfaccia visiva che semplifica il processo di connessione a Teradata e di creazione, esecuzione e monitoraggio dei processi ETL di AWS Glue. Per gli sviluppatori di dati, questo supporto si estende agli script ETL di AWS Glue, dove è possibile utilizzare Python o Scala per creare e gestire attività di integrazione e trasformazione dei dati più specifiche.
Il connettore nativo AWS Glue per Teradata Vantage ti consente di leggere e scrivere in modo efficiente i dati da Teradata senza la necessità di installare o gestire librerie di connettori. Puoi aggiungere Teradata sia come origine che come destinazione all'interno dell'interfaccia visiva drag-and-drop senza codice di AWS Glue Studio oppure utilizzare il connettore direttamente in un processo di script ETL di AWS Glue.
Panoramica della soluzione
In questo esempio, utilizzi AWS Glue Studio per arricchire e caricare i dati archiviati su Amazon S3 su Teradata Vantage. Inizi unendo i file Evento e Sede dal file TICCHETTO set di dati. Successivamente, filtri i risultati in base a una singola regione geografica. Infine, carichi i dati perfezionati su Teradata Vantage.
Il set di dati TICKIT tiene traccia dell'attività di vendita per il sito Web fittizio TICKIT, dove gli utenti acquistano e vendono biglietti online per eventi sportivi, spettacoli e concerti. In questo set di dati, gli analisti possono identificare il movimento dei biglietti nel tempo, le percentuali di successo per i venditori e gli eventi, i luoghi e le stagioni più venduti.
Per questo esempio, utilizzerai AWS Glue Studio per sviluppare una pipeline ETL visiva. Questa pipeline leggerà i dati da Amazon S3, eseguirà le trasformazioni e quindi caricherà i dati trasformati in Teradata. Il diagramma seguente illustra questa architettura.
Alla fine di questo post, il tuo lavoro ETL visivo sarà simile allo screenshot seguente.
Prerequisiti
Per questo esempio, dovresti avere accesso a un endpoint di database Teradata esistente con raggiungibilità di rete da AWS e autorizzazioni per creare tabelle e caricare ed eseguire query sui dati.
AWS Glue necessita dell'accesso alla rete a Teradata per leggere o scrivere dati. Il modo in cui viene configurato dipende da dove viene distribuito il tuo Teradata e dalla configurazione di rete specifica. Per Teradata distribuito su AWS, potrebbe essere necessario configurare Peering VPC or Collegamento privato AWS, gruppi di sicurezza ed elenchi di controllo degli accessi di rete (NACL) per consentire ad AWS Glue di comunicare con Teradata apertamente TCP. Se Teradata è esterno ad AWS, servizi di rete come VPN da sito a sito AWS or AWS Direct Connect potrebbe essere richiesto. L'accesso pubblico a Internet non è consigliato a causa dei rischi per la sicurezza. Se scegli l'accesso pubblico, è più sicuro eseguire il lavoro AWS Glue in un VPC dietro a Gateway NAT. Questo approccio consente di consentire l'elenco di un solo indirizzo IP per il traffico in entrata sul firewall di rete. Per ulteriori informazioni, fare riferimento a Sicurezza dell'infrastruttura in AWS Glue.
Configura Amazon S3
Ogni oggetto in Amazon S3 viene archiviato in un bucket. Prima di poter archiviare i dati in Amazon S3, è necessario crea un bucket S3 per memorizzare i risultati. Completa i seguenti passaggi:
- Sulla console Amazon S3, scegli Secchi nel pannello di navigazione.
- Scegli Crea un secchio.
- Nel Nome, inserisci un nome univoco a livello globale per il tuo bucket; ad esempio tickit8530923.
- Scegli Crea un secchio.
- Scarica la TICCHETTO set di dati e decomprimerlo.
- Crea la cartella tickit nel tuo bucket S3 e carica i file allevents_pipe.txt e place_pipe.txt.
Configura le connessioni Teradata
Per connetterti a Teradata da AWS Glue, consulta Configurazione della connessione Teradata.
È necessario creare e archiviare le credenziali Teradata in un file AWS Secrets Manager segreto e quindi associarlo a una connessione Teradata AWS Glue. Discuteremo questi due passaggi in modo più dettagliato più avanti in questo post.
Crea un ruolo IAM per il lavoro ETL di AWS Glue
Quando crei il lavoro ETL di AWS Glue, specifichi un file Gestione dell'identità e dell'accesso di AWS Ruolo (IAM) per il lavoro da utilizzare. Il ruolo deve garantire l'accesso a tutte le risorse utilizzate dal lavoro, incluso Amazon S3 (per qualsiasi origine, destinazione, script, file di driver e directory temporanee) e Secrets Manager. Per istruzioni, vedere Configura un ruolo IAM per il tuo lavoro ETL.
Crea tabella in Teradata
Utilizzando il tuo strumento di database preferito, accedi a Teradata. Esegui il codice seguente per creare la tabella in Teradata in cui caricherai i tuoi dati:
Memorizza le credenziali di accesso a Teradata
An Connessione AWS Glue è un oggetto Data Catalog che memorizza credenziali di accesso, stringhe URI e altro. Il connettore Teradata richiede Secrets Manager per archiviare il nome utente e la password Teradata utilizzati per connettersi a Teradata.
Per memorizzare il nome utente e la password Teradata in Secrets Manager, completare i seguenti passaggi:
- Nella console di Secrets Manager, selezionare Segreti nel pannello di navigazione.
- Scegli Memorizza un nuovo segreto.
- Seleziona Altro tipo di segreto.
- Inserisci la chiave/valore USER e
teradata_user
, Quindi scegliere Aggiungi riga. - Immettere la chiave/valore PASSWORD e
teradata_user_password
, Quindi scegliere Avanti.
- Nel Nome segreto, inserisci un nome descrittivo, quindi scegli Avanti.
- Scegli Avanti per passare alla fase di revisione, quindi scegliere Negozio.
Crea la connessione Teradata in AWS Glue
Ora sei pronto per creare una connessione AWS Glue a Teradata. Completa i seguenti passaggi:
- Nella console AWS Glue, scegli Connessioni per Catalogo dati nel pannello di navigazione.
- Scegli Crea connessione.
- Nel Nome, inserisci un nome (ad esempio,
teradata_connection
). - Nel Tipo di connessione¸ scegli Teradata.
- Nel URL di Teradata, accedere
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - Nel Segreto AWS, scegli il segreto con le tue credenziali Teradata che hai creato in precedenza.
Crea un processo ETL visivo di AWS Glue per trasformare e caricare i dati in Teradata
Completa i seguenti passaggi per creare il tuo lavoro ETL di AWS Glue:
- Sulla console AWS Glue, sotto Lavori ETL nel pannello di navigazione, scegli ETL visivo.
- Scegli ETL visivo.
- Scegli l'icona della matita per inserire un nome per il tuo lavoro.
Noi aggiungiamo venue_pipe.txt
come il nostro primo set di dati.
- Scegli Aggiungi nodi e scegli Amazon S3 sul canale fonti scheda.
- Inserisci le seguenti proprietà dell'origine dati:
- Nel Nome, inserisci Sede.
- Nel Tipo di sorgente S3, selezionare Posizione S3.
- Nel URL S3, inserisci il percorso S3 a
venue_pipe.txt
. - Nel Formato dei datiscegli CSV.
- Nel delimitatorescegli Pipe.
- Deseleziona La prima riga del file sorgente contiene le intestazioni delle colonne.
Ora aggiungiamo allevents_pipe.txt
come il nostro secondo set di dati.
- Scegli Aggiungi nodi e scegli Amazon S3 sul canale fonti scheda.
- Inserisci le seguenti proprietà dell'origine dati:
- Nel Nome, inserisci Evento.
- Nel Tipo di sorgente S3, selezionare Posizione S3.
- Nel URL S3, inserisci il percorso S3 a
allevents_pipe.txt
. - Nel Formato dei datiscegli CSV.
- Nel delimitatorescegli Pipe.
- Deseleziona La prima riga del file sorgente contiene le intestazioni delle colonne.
Successivamente, rinominiamo le colonne del set di dati Venue.
- Scegli Aggiungi nodi e scegli Cambia schema sul canale Trasformazioni scheda.
- Immettere le seguenti proprietà di trasformazione:
- Nel Nome, inserisci i dati Rinomina sede.
- Nel Genitori del nodo, scegli Luogo.
- Nel Cambia schema sezione, mappare le chiavi di origine alle chiavi di destinazione:
- col0:
venueid
- col1:
venuename
- col2:
venuecity
- col3:
venuestate
- col4:
venueseats
- col0:
Ora filtriamo il set di dati Venue in base a una regione geografica specifica.
- Scegli Aggiungi nodi e scegli Filtro sul canale Trasformazioni scheda.
- Immettere le seguenti proprietà di trasformazione:
- Nel Nome, inserisci Filtro posizione.
- Nel Genitori del nodo, scegli Luogo.
- Nel Condizione del filtroscegli
venuestate
per Lescegli fiammiferi per Funzionamentoe inserisci DC per Valore.
Ora rinominiamo le colonne nel set di dati Event.
- Scegli Aggiungi nodi e scegli Cambia schema sul canale Trasformazioni scheda.
- Immettere le seguenti proprietà di trasformazione:
- Nel Nome, inserisci i dati dell'evento Rinomina.
- Nel Genitori del nodo, scegli Evento.
- Nel Cambia schema sezione, mappare le chiavi di origine alle chiavi di destinazione:
- col0:
eventid
- col1:
e_venueid
- col2:
catid
- col3:
dateid
- col4:
eventname
- col5:
starttime
- col0:
Successivamente, uniamo i set di dati della sede e dell'evento.
- Scegli Aggiungi nodi e scegli Registrati sul canale Trasformazioni scheda.
- Immettere le seguenti proprietà di trasformazione:
- Nel Nome, inserisci Partecipa.
- Nel Genitori del nodo, scegli Filtro posizione e Rinomina dati evento.
- Nel Tipo di unione¸ scegli Unione interna.
- Nel Condizioni di partecipazionescegli
venueid
per Filtro località ede_venueid
per Rinominare i dati dell'evento.
Ora tralasciamo la colonna duplicata.
- Scegli Aggiungi nodi e scegli Cambia schema sul canale Trasformazioni scheda.
- Immettere le seguenti proprietà di trasformazione:
- Nel Nome, inserisci la colonna Rilascia.
- Nel Genitori del nodo, scegli Partecipa.
- Nel Cambia schema sezione, selezionare Cadere per
e_venueid
.
Successivamente, carichiamo i dati nella tabella Teradata.
- Scegli Aggiungi nodi e scegli Teradata sul canale Obiettivi scheda.
- Immettere le seguenti proprietà del sink di dati:
- Nel Nome, inserisci Teradata.
- Nel Genitori del nodo, scegli Elimina colonna.
- Nel Connessione Teradatascegli
teradata_connection
. - Nel Nome della tabella, accedere
schema.tablename
della tabella creata in Teradata.
Infine, eseguiamo il lavoro e carichiamo i dati in Teradata.
- Scegli Risparmi, Quindi scegliere Correre.
Un banner mostrerà che il lavoro è iniziato.
- Scegli Esegue, che visualizza lo stato del lavoro.
Lo stato della corsa cambierà in Riuscito quando il lavoro è completo.
- Connettiti al tuo Teradata e quindi interroga la tabella in cui sono stati caricati i dati.
I dati filtrati e uniti dai due set di dati saranno nella tabella.
ripulire
Per evitare di incorrere in costi aggiuntivi causati dalle risorse create come parte di questo post, assicurati di eliminare gli elementi creati nell'account AWS per questo post:
- La chiave Secrets Manager creata per le credenziali Teradata
- Il connettore nativo AWS Glue per Teradata Vantage
- I dati caricati nel bucket S3
- Il lavoro ETL visivo di AWS Glue
Conclusione
In questo post, hai creato una connessione a Teradata utilizzando AWS Glue e quindi hai creato un processo AWS Glue per trasformare e caricare i dati in Teradata. Il connettore nativo AWS Glue per Teradata Vantage potenzia il tuo percorso di analisi dei dati fornendo un percorso semplice ed efficiente per integrare i tuoi dati con Teradata. Questa nuova funzionalità di AWS Glue non solo semplifica i flussi di lavoro di integrazione dei dati, ma apre anche nuove strade per innovazioni di analisi avanzata, business intelligence e apprendimento automatico.
Con AWS Teradata Connector hai lo strumento migliore a tua disposizione per semplificare le attività di integrazione dei dati. Che tu voglia caricare dati Amazon S3 in Teradata per analisi, reporting o approfondimenti aziendali, questo nuovo connettore semplifica il processo, rendendolo più accessibile ed economico.
Per iniziare con AWS Glue, fare riferimento a Nozioni di base su AWS Glue.
Informazioni sugli autori
Kamen Sharlandjiev è un Senior Big Data e ETL Solutions Architect ed esperto di AWS Glue. La sua missione è semplificare la vita ai clienti che devono affrontare complesse sfide di integrazione dei dati. La sua arma segreta? Servizi AWS completamente gestiti e a basso codice che possono portare a termine il lavoro con il minimo sforzo e senza codifica. Segui Kamen su LinkedIn per rimanere aggiornato sulle ultime novità su AWS Glue!
Sean Bjurstrom è un Technical Account Manager negli account ISV presso Amazon Web Services, dove è specializzato in tecnologie di analisi e attinge al suo background nella consulenza per supportare i clienti nei loro percorsi di analisi e cloud. La sua passione è aiutare le aziende a sfruttare il potere dei dati per promuovere l'innovazione e la crescita. Al di fuori del lavoro gli piace correre e ha partecipato a diverse maratone.
Vinod Jayendra è un responsabile del supporto aziendale negli account ISV presso Amazon Web Services, dove aiuta i clienti a risolvere le loro sfide architettoniche, operative e di ottimizzazione dei costi. Con un focus particolare sulle tecnologie serverless, attinge alla sua vasta esperienza nello sviluppo di applicazioni per aiutare i clienti a creare soluzioni di alto livello. Oltre al lavoro, trova gioia nel tempo di qualità trascorso in famiglia, nell'imbarcarsi in avventure in bicicletta e nell'allenare squadre sportive giovanili.
Doug Mbaya è un Senior Partner Solution Architect specializzato in analisi e machine learning. Doug lavora a stretto contatto con i partner AWS e li aiuta a integrare le loro soluzioni con soluzioni di analisi e machine learning AWS nel cloud.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- :ha
- :È
- :non
- :Dove
- $ SU
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- WRI
- accesso
- accessibile
- Il mio account
- conti
- operanti in
- attività
- aggiungere
- aggiuntivo
- indirizzo
- Avanzate
- avventure
- Tutti
- consentire
- Consentire
- consente
- anche
- Amazon
- Amazon Web Services
- importi
- an
- .
- Gli analisti
- Analitico
- analitica
- ed
- in qualsiasi
- Applicazioni
- Sviluppo di applicazioni
- approccio
- architettonico
- architettura
- SONO
- AS
- Associate
- At
- autore
- viali
- evitare
- AWS
- Colla AWS
- sfondo
- bandiera
- BE
- prima
- dietro
- beneficio
- MIGLIORE
- Al di là di
- Big
- Big Data
- entrambi
- costruire
- affari
- business intelligence
- aziende
- ma
- Acquistare
- by
- Materiale
- Può ottenere
- funzionalità
- capacità
- catalogo
- ha causato
- centralizzata
- sfide
- il cambiamento
- oneri
- Scegli
- strettamente
- Cloud
- istruire
- codice
- codifica
- Colonna
- colonne
- comunicare
- Aziende
- completamento di una
- complesso
- concerti
- Configurazione
- configurato
- Connettiti
- collegato
- Collegamento
- veloce
- consolle
- consulting
- contiene
- di controllo
- costo effettivo
- creare
- creato
- Credenziali
- Clienti
- dati
- analisi dei dati
- Dati Analytics
- integrazione dei dati
- gestione dei dati
- Piattaforma dati
- Banca Dati
- dataset
- Data
- dc
- trattare
- dipende
- schierato
- dettaglio
- sviluppare
- sviluppatori
- Mercato
- dirette
- direttamente
- directory
- scopri
- discutere
- Dsiplay
- display
- smaltimento
- paesaggio differenziato
- fatto
- doug
- disegna
- guidare
- autista
- Cadere
- dovuto
- In precedenza
- più facile
- efficienza
- efficiente
- in modo efficiente
- sforzo
- senza sforzo
- elimina
- Potenzia
- Abilita
- consentendo
- fine
- endpoint
- Migliora
- arricchire
- entrare
- Impresa
- Etere (ETH)
- Evento
- eventi
- esempio
- esistente
- esperto
- esplora
- export
- si estende
- estensivo
- estratto
- di fronte
- famiglia
- immaginario
- Compila il
- File
- filtro
- Infine
- trova
- firewall
- Nome
- Flessibilità
- flusso
- Focus
- concentrato
- seguire
- i seguenti
- Nel
- da
- pieno
- completamente
- geografico
- ottenere
- Globalmente
- concedere
- Gruppo
- Crescita
- cintura da arrampicata
- Avere
- he
- Aiuto
- aiutare
- aiuta
- il suo
- Come
- Tutorial
- HTML
- http
- HTTPS
- ostacoli
- i
- IAM
- ICON
- identificare
- Identità
- if
- illustra
- importare
- in
- Compreso
- In arrivo
- Index
- informazioni
- Innovazione
- innovazioni
- intuizioni
- install
- istruzioni
- integrare
- Integrazione
- integrazione
- integrazioni
- Intelligence
- Interfaccia
- Internet
- accesso ad Internet
- ai miglioramenti
- complessità
- IP
- Indirizzo IP
- isv
- IT
- elementi
- SUO
- Lavoro
- Offerte di lavoro
- join
- congiunto
- accoppiamento
- viaggio
- Journeys
- gioia
- jpg
- mantenere
- Le
- Tasti
- laghi
- grandi
- dopo
- con i più recenti
- portare
- principale
- apprendimento
- biblioteche
- Vita
- linea
- Lista
- elenchi
- caricare
- località
- ceppo
- accesso
- cerca
- macchina
- machine learning
- make
- FA
- Fare
- gestire
- gestito
- gestione
- direttore
- modo
- carta geografica
- Maggio..
- significativo
- forza
- minimo
- Missione
- ML
- Monitorare
- monitoraggio
- Scopri di più
- cambiano
- movimento
- multiplo
- devono obbligatoriamente:
- Nome
- nativo
- Navigazione
- Bisogno
- esigenze
- Rete
- Accesso alla rete
- internazionale
- New
- GENERAZIONE
- no
- nodo
- oggetto
- of
- Offerte
- di frequente
- on
- ONE
- online
- esclusivamente
- apre
- operativa
- or
- nostro
- al di fuori
- ancora
- panoramica
- vetro
- parte
- partecipato
- particolare
- partner
- partner
- appassionato
- Password
- sentiero
- sentiero
- eseguire
- permessi
- conduttura
- piattaforma
- Platone
- Platone Data Intelligence
- PlatoneDati
- possibilità
- Post
- potenziale
- energia
- preferito
- Preparare
- primario
- processi
- proprietà
- fornisce
- fornitura
- la percezione
- Python
- qualità
- piuttosto
- Leggi
- pronto
- raccomandato
- riferimento
- raffinato
- Indipendentemente
- regione
- relazionato
- fare affidamento
- Reportistica
- necessario
- richiede
- Risorse
- colpevole
- Risultati
- recensioni
- rischi
- Ruolo
- Correre
- running
- più sicuro
- vendite
- Scala
- Scala
- copione
- script
- senza soluzione di continuità
- senza soluzione di continuità
- Sean
- stagioni
- Secondo
- Segreto
- segreti
- Sezione
- sicuro
- problemi di
- rischi per la sicurezza
- vedere
- select
- venda
- Sellers
- anziano
- serverless
- servizio
- Servizi
- impostazioni
- alcuni
- dovrebbero
- Spettacoli
- Un'espansione
- semplifica
- semplificando
- singolo
- soluzione
- Soluzioni
- RISOLVERE
- Fonte
- fonti
- specializzata
- specifico
- Sports
- Squadre sportive
- inizia a
- iniziato
- Stato dei servizi
- step
- Passi
- conservazione
- Tornare al suo account
- memorizzati
- negozi
- lineare
- snellire
- linee di corrente
- studio
- il successo
- tale
- supporto
- sicuro
- tavolo
- Target
- obiettivi
- task
- le squadre
- Consulenza
- Tecnologie
- temporaneo
- test
- di
- che
- Il
- L’ORIGINE
- loro
- Li
- poi
- Strumenti Bowman per analizzare le seguenti finiture:
- questo
- quelli
- Attraverso
- biglietto
- biglietti
- tempo
- a
- traffico
- Trasformare
- Trasformazione
- trasformazioni
- trasformato
- seconda
- Digitare
- per
- unico
- sbloccare
- URI
- uso
- utilizzato
- Utente
- utenti
- utilizzando
- vario
- LOCATION
- sedi
- visivo
- visivamente
- Prima
- we
- sito web
- servizi web
- Sito web
- quando
- se
- quale
- OMS
- volere
- con
- entro
- senza
- Lavora
- flussi di lavoro
- lavori
- scrivere
- Tu
- Trasferimento da aeroporto a Sharm
- gioventù
- zefiro
- Codice postale