I dette innlegget utforsker vi hvordan du bruker AWS Lim Innebygd kobling for Teradata Vantage for å strømlinjeforme dataintegrasjoner og låse opp det fulle potensialet til dataene dine.
Bedrifter er ofte avhengige av Amazon enkel lagringstjeneste (Amazon S3) for lagring av store mengder data fra ulike datakilder på en kostnadseffektiv og sikker måte. For de som bruker Teradata for dataanalyse, åpner integrasjoner gjennom AWS Glue native-kontakten for Teradata Vantage nye muligheter. AWS Glue forbedrer fleksibiliteten og effektiviteten til dataadministrasjon, og lar bedrifter sømløst integrere dataene sine, uavhengig av plasseringen, med Teradatas analytiske evner. Denne nye koblingen eliminerer tekniske hindringer knyttet til konfigurasjon, sikkerhet og administrasjon, slik at bedrifter enkelt kan eksportere eller importere datasettene sine til Teradata Vantage. Som et resultat kan bedrifter fokusere mer på å trekke ut meningsfull innsikt fra dataene sine, i stedet for å håndtere vanskelighetene med dataintegrasjon.
AWS Glue er en serverløs dataintegrasjonstjeneste som gjør det enkelt for analysebrukere å oppdage, forberede, flytte og integrere data fra flere kilder for analyse, maskinlæring (ML) og applikasjonsutvikling. Med AWS Glue kan du oppdage og koble til mer enn 100 forskjellige datakilder og administrere dataene dine i en sentralisert datakatalog. Du kan visuelt opprette, kjøre og overvåke ekstrahere, transformere og laste (ETL) rørledninger for å laste data inn i datainnsjøene dine.
Teradata Corporation er en ledende tilkoblet multi-sky-dataplattform for bedriftsanalyse, fokusert på å hjelpe bedrifter med å bruke alle dataene sine på tvers av en bedrift, i stor skala. Som en AWS data- og analysekompetanse partner, Teradata tilbyr en komplett skyanalyse- og dataplattform, inkludert for maskinlæring.
Vi introduserer AWS Glue native-kontakten for Teradata Vantage
AWS Glue gir støtte for Teradata, tilgjengelig gjennom både AWS Glue Studio og AWS Glue ETL-skript. Med AWS Glue Studio drar du nytte av et visuelt grensesnitt som forenkler prosessen med å koble til Teradata og lage, kjøre og overvåke AWS Glue ETL-jobber. For datautviklere strekker denne støtten seg til AWS Glue ETL-skript, der du kan bruke Python eller Scala til å lage og administrere mer spesifikke dataintegrasjon og transformasjonsoppgaver.
AWS Glue native-kontakten for Teradata Vantage lar deg effektivt lese og skrive data fra Teradata uten å måtte installere eller administrere noen koblingsbiblioteker. Du kan legge til Teradata som både kilden og målet i AWS Glue Studios no-code, dra-og-slipp visuelle grensesnitt eller bruke koblingen direkte i en AWS Glue ETL-skriptjobb.
Løsningsoversikt
I dette eksemplet bruker du AWS Glue Studio til å berike og laste opp data lagret på Amazon S3 til Teradata Vantage. Du starter med å bli med i Event- og Venue-filene fra TICKIT datasett. Deretter filtrerer du resultatene til en enkelt geografisk region. Til slutt laster du opp de raffinerte dataene til Teradata Vantage.
TICKIT-datasettet sporer salgsaktivitet for det fiktive TICKIT-nettstedet, der brukere kjøper og selger billetter online til sportsbegivenheter, show og konserter. I dette datasettet kan analytikere identifisere billettbevegelser over tid, suksessrater for selgere og bestselgende arrangementer, arenaer og sesonger.
For dette eksempelet bruker du AWS Glue Studio til å utvikle en visuell ETL-pipeline. Denne rørledningen vil lese data fra Amazon S3, utføre transformasjoner og deretter laste de transformerte dataene inn i Teradata. Følgende diagram illustrerer denne arkitekturen.
Mot slutten av dette innlegget vil den visuelle ETL-jobben din ligne på følgende skjermbilde.
Forutsetninger
For dette eksempelet bør du ha tilgang til et eksisterende Teradata-databaseendepunkt med nettverkstilgang fra AWS og tillatelser til å lage tabeller og laste inn og spørre data.
AWS Glue trenger nettverkstilgang til Teradata for å lese eller skrive data. Hvordan dette konfigureres avhenger av hvor din Teradata er distribuert og den spesifikke nettverkskonfigurasjonen. For Teradata distribuert på AWS, må du kanskje konfigurere VPC-peering or AWS PrivateLink, sikkerhetsgrupper og nettverkstilgangskontrolllister (NACL) for å tillate AWS Glue å kommunisere med Teradata åpen TCP. Hvis Teradata er utenfor AWS, vil nettverkstjenester som f.eks AWS Site-to-Site VPN or AWS Direct Connect kan være nødvendig. Offentlig internettilgang anbefales ikke på grunn av sikkerhetsrisikoer. Hvis du velger offentlig tilgang, er det tryggere å kjøre AWS Glue-jobben i en VPC bak en NAT gateway. Denne tilnærmingen lar deg tillate liste bare én IP-adresse for innkommende trafikk på nettverkets brannmur. For mer informasjon, se Infrastruktursikkerhet i AWS Glue.
Sett opp Amazon S3
Hvert objekt i Amazon S3 er lagret i en bøtte. Før du kan lagre data i Amazon S3, må du lage en S3 bøtte for å lagre resultatene. Fullfør følgende trinn:
- Velg på Amazon S3-konsollen Bøtter i navigasjonsruten.
- Velg Lag bøtte.
- Til Navn, skriv inn et globalt unikt navn for bøtten din; for eksempel tickit8530923.
- Velg Lag bøtte.
- Last ned TICKIT datasettet og pakke det ut.
- Opprett mappen tickit i S3-bøtten din og last opp filene allevents_pipe.txt og venue_pipe.txt.
Konfigurer Teradata-tilkoblinger
For å koble til Teradata fra AWS Glue, se Konfigurere Teradata-tilkobling.
Du må opprette og lagre Teradata-legitimasjonen din i en AWS Secrets Manager hemmelig og deretter assosierer hemmeligheten med en Teradata AWS Glue-tilkobling. Vi diskuterer disse to trinnene mer detaljert senere i dette innlegget.
Opprett en IAM-rolle for AWS Glue ETL-jobben
Når du oppretter AWS Glue ETL-jobben, spesifiserer du en AWS identitets- og tilgangsadministrasjon (IAM) rolle for jobben å bruke. Rollen må gi tilgang til alle ressurser som brukes av jobben, inkludert Amazon S3 (for alle kilder, mål, skript, driverfiler og midlertidige kataloger) og Secrets Manager. For instruksjoner, se Konfigurer en IAM-rolle for ETL-jobben din.
Lag tabell i Teradata
Logg på Teradata ved å bruke ditt foretrukne databaseverktøy. Kjør følgende kode for å lage tabellen i Teradata der du skal laste inn dataene dine:
Lagre påloggingsinformasjon for Teradata
An AWS Limforbindelse er et Data Catalog-objekt som lagrer påloggingsinformasjon, URI-strenger og mer. Teradata-koblingen krever Secrets Manager for å lagre Teradata-brukernavnet og passordet du bruker for å koble til Teradata.
For å lagre Teradata-brukernavnet og passordet i Secrets Manager, fullfør følgende trinn:
- Velg på Secrets Manager-konsollen Secrets i navigasjonsruten.
- Velg Lagre en ny hemmelighet.
- Plukke ut Annen type hemmelighet.
- Skriv inn nøkkelen/verdien USER og
teradata_user
, velg deretter Legg til rad. - Skriv inn nøkkelen/verdien PASSORD og
teradata_user_password
, velg deretter neste.
- Til Hemmelig navn, skriv inn et beskrivende navn og velg neste.
- Velg neste for å gå til gjennomgangstrinnet, og velg deretter Butikk.
Opprett Teradata-tilkoblingen i AWS Glue
Nå er du klar til å opprette en AWS Glue-tilkobling til Teradata. Fullfør følgende trinn:
- Velg på AWS Lim-konsollen Tilkoblinger etter Datakatalog i navigasjonsruten.
- Velg Opprett forbindelse.
- Til Navn, skriv inn et navn (for eksempel,
teradata_connection
). - Til Tilkoblingstype¸ velg Teradata.
- Til Teradata URL, Tast inn
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - Til AWS-hemmelighet, velg hemmeligheten med Teradata-legitimasjonen din som du opprettet tidligere.
Lag en AWS Glue visuell ETL-jobb for å transformere og laste data til Teradata
Fullfør følgende trinn for å lage din AWS Glue ETL-jobb:
- På AWS Limkonsoll, under ETL jobber Velg navigasjonsruten Visuell ETL.
- Velg Visuell ETL.
- Velg blyantikonet for å angi et navn for jobben din.
Vi legger til venue_pipe.txt
som vårt første datasett.
- Velg Legg til noder Og velg Amazon S3 på Kilder fanen.
- Skriv inn følgende datakildeegenskaper:
- Til Navn, skriv inn Venue.
- Til S3 kildetype, plukke ut S3 beliggenhet.
- Til S3 URL, skriv inn S3-banen til
venue_pipe.txt
. - Til Dataformat, velg CSV.
- Til delimiter, velg Pipe.
- oppheve valget Første linje i kildefilen inneholder kolonneoverskrifter.
Nå legger vi til allevents_pipe.txt
som vårt andre datasett.
- Velg Legg til noder Og velg Amazon S3 på Kilder fanen.
- Skriv inn følgende datakildeegenskaper:
- Til Navn, skriv inn Event.
- Til S3 kildetype, plukke ut S3 beliggenhet.
- Til S3 URL, skriv inn S3-banen til
allevents_pipe.txt
. - Til Dataformat, velg CSV.
- Til delimiter, velg Pipe.
- oppheve valget Første linje i kildefilen inneholder kolonneoverskrifter.
Deretter gir vi nytt navn til kolonnene i Venue-datasettet.
- Velg Legg til noder Og velg Endre skjema på Transforms fanen.
- Skriv inn følgende transformasjonsegenskaper:
- Til Navn, skriv inn Gi nytt navn til stedsdata.
- Til Node foreldre, velg Venue.
- på Endre skjema seksjon, tilordne kildenøklene til målnøklene:
- col0:
venueid
- col1:
venuename
- col2:
venuecity
- col3:
venuestate
- col4:
venueseats
- col0:
Nå filtrerer vi Venue-datasettet til en bestemt geografisk region.
- Velg Legg til noder Og velg filtre på Transforms fanen.
- Skriv inn følgende transformasjonsegenskaper:
- Til Navn, skriv inn stedsfilter.
- Til Node foreldre, velg Venue.
- Til Filtertilstand, velg
venuestate
forum nøkkel, velg fyrstikker forum Operasjon, og skriv inn DC for Verdi.
Nå gir vi nytt navn til kolonnene i hendelsesdatasettet.
- Velg Legg til noder Og velg Endre skjema på Transforms fanen.
- Skriv inn følgende transformasjonsegenskaper:
- Til Navn, skriv inn Gi nytt navn til hendelsesdata.
- Til Node foreldre, velg Hendelse.
- på Endre skjema seksjon, tilordne kildenøklene til målnøklene:
- col0:
eventid
- col1:
e_venueid
- col2:
catid
- col3:
dateid
- col4:
eventname
- col5:
starttime
- col0:
Deretter blir vi med i datasettene for sted og arrangement.
- Velg Legg til noder Og velg Bli med på Transforms fanen.
- Skriv inn følgende transformasjonsegenskaper:
- Til Navn, skriv inn Bli med.
- Til Node foreldre, velg Stedsfilter og Gi nytt navn til hendelsesdata.
- Til Bli med type¸ velg Indre bli med.
- Til Bli med betingelser, velg
venueid
forum Stedsfilter oge_venueid
forum Gi nytt navn til hendelsesdata.
Nå slipper vi duplikatkolonnen.
- Velg Legg til noder Og velg Endre skjema på Transforms fanen.
- Skriv inn følgende transformasjonsegenskaper:
- Til Navn, skriv inn Drop-kolonnen.
- Til Node foreldre, velg Bli med.
- på Endre skjema seksjon, velg Drop forum
e_venueid
.
Deretter laster vi dataene inn i Teradata-tabellen.
- Velg Legg til noder Og velg Teradata på Targets fanen.
- Skriv inn følgende datasynkegenskaper:
- Til Navn, skriv inn Teradata.
- Til Node foreldre, velg Slipp kolonne.
- Til Teradata-tilkobling, velg
teradata_connection
. - Til Tabellnavn, Tast inn
schema.tablename
av tabellen du opprettet i Teradata.
Til slutt kjører vi jobben og laster dataene inn i Teradata.
- Velg Spar, velg deretter Kjør.
Et banner vil vise at jobben har startet.
- Velg Kjører, som viser statusen til jobben.
Kjørestatusen vil endres til Etterfølger når jobben er fullført.
- Koble til din Teradata og spør deretter tabellen dataene ble lastet til den.
De filtrerte og sammenføyde dataene fra de to datasettene vil være i tabellen.
Rydd opp
For å unngå ekstra kostnader forårsaket av ressurser opprettet som en del av dette innlegget, sørg for at du sletter elementene du opprettet i AWS-kontoen for dette innlegget:
- Secrets Manager-nøkkelen opprettet for Teradata-legitimasjonen
- AWS Glue native-kontakten for Teradata Vantage
- Dataene lastet inn i S3-bøtten
- AWS Glue Visual ETL-jobben
konklusjonen
I dette innlegget opprettet du en tilkobling til Teradata ved hjelp av AWS Glue og opprettet deretter en AWS Glue-jobb for å transformere og laste inn data til Teradata. AWS Glue native-koblingen for Teradata Vantage styrker din dataanalysereise ved å tilby en sømløs og effektiv vei for å integrere dataene dine med Teradata. Denne nye funksjonen i AWS Glue forenkler ikke bare arbeidsflytene dine for dataintegrering, men åpner også for nye muligheter for avansert analyse, forretningsintelligens og maskinlæringsinnovasjoner.
Med AWS Teradata Connector har du det beste verktøyet til din disposisjon for å forenkle dataintegrasjonsoppgaver. Enten du ønsker å laste Amazon S3-data inn i Teradata for analyser, rapportering eller forretningsinnsikt, strømlinjeformer denne nye koblingen prosessen, noe som gjør den mer tilgjengelig og kostnadseffektiv.
For å komme i gang med AWS Glue, se Komme i gang med AWS Glue.
Om forfatterne
Kamen Sharlandjiev er Sr. Big Data og ETL Solutions Architect og AWS Glue-ekspert. Han er på et oppdrag for å gjøre livet enklere for kunder som står overfor komplekse dataintegrasjonsutfordringer. Hans hemmelige våpen? Fullt administrerte, lavkode AWS-tjenester som kan få jobben gjort med minimal innsats og ingen koding. Følg Kamen på LinkedIn for å holde deg oppdatert med de siste AWS Glue-nyhetene!
Sean Bjurstrøm er en Technical Account Manager i ISV-kontoer hos Amazon Web Services, hvor han spesialiserer seg på analyseteknologier og trekker på sin bakgrunn innen rådgivning for å støtte kunder på deres analyse- og skyreiser. Sean er lidenskapelig opptatt av å hjelpe bedrifter med å utnytte kraften i data for å drive innovasjon og vekst. Utenom jobben liker han å løpe og har deltatt på flere maratonløp.
Vinod Jayendra er en Enterprise Support Lead i ISV-kontoer hos Amazon Web Services, hvor han hjelper kunder med å løse deres arkitektur-, drifts- og kostnadsoptimaliseringsutfordringer. Med et spesielt fokus på serverløse teknologier, henter han fra sin omfattende bakgrunn innen applikasjonsutvikling for å hjelpe kundene med å bygge toppløsninger. Utover jobb finner han glede i kvalitetstid med familien, begi seg ut på sykkeleventyr og trener ungdomsidrettslag.
Doug Mbaya er en Senior Partner Solution-arkitekt med fokus på analyse og maskinlæring. Doug jobber tett med AWS-partnere og hjelper dem med å integrere løsningene sine med AWS-analyse- og maskinlæringsløsninger i skyen.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- : har
- :er
- :ikke
- :hvor
- $OPP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- Om oss
- adgang
- tilgjengelig
- Logg inn
- kontoer
- tvers
- aktivitet
- legge til
- Ytterligere
- adresse
- avansert
- eventyr
- Alle
- tillate
- tillate
- tillater
- også
- Amazon
- Amazon Web Services
- beløp
- an
- analyse
- analytikere
- Analytisk
- analytics
- og
- noen
- Søknad
- Applikasjonutvikling
- tilnærming
- arkitektonisk
- arkitektur
- ER
- AS
- Førsteamanuensis
- At
- forfatter
- veier
- unngå
- AWS
- AWS Lim
- bakgrunn
- banner
- BE
- før du
- bak
- nytte
- BEST
- Beyond
- Stor
- Store data
- både
- bygge
- virksomhet
- business intelligence
- bedrifter
- men
- kjøpe
- by
- CAN
- Kan få
- evner
- evne
- katalog
- forårsaket
- sentralisert
- utfordringer
- endring
- avgifter
- Velg
- tett
- Cloud
- coaching
- kode
- Koding
- Kolonne
- kolonner
- kommunisere
- Selskaper
- fullføre
- komplekse
- konserter
- Konfigurasjon
- konfigurert
- Koble
- tilkoblet
- Tilkobling
- tilkobling
- Konsoll
- konsulent
- inneholder
- kontroll
- kostnadseffektiv
- skape
- opprettet
- Credentials
- Kunder
- dato
- dataanalyse
- Data Analytics
- dataintegrasjon
- Dataledelse
- Dataplattform
- Database
- datasett
- Dato
- dc
- håndtering
- avhenger
- utplassert
- detalj
- utvikle
- utviklere
- Utvikling
- direkte
- direkte
- kataloger
- oppdage
- diskutere
- Vise
- skjermer
- avhending
- diverse
- gjort
- doug
- trekker
- stasjonen
- sjåfør
- Drop
- to
- Tidligere
- enklere
- effektivitet
- effektiv
- effektivt
- innsats
- uanstrengt
- eliminerer
- bemyndiger
- muliggjør
- muliggjør
- slutt
- Endpoint
- Forbedrer
- berike
- Enter
- Enterprise
- Eter (ETH)
- Event
- hendelser
- eksempel
- eksisterende
- Expert
- utforske
- eksportere
- strekker
- omfattende
- trekke ut
- vendt
- familie
- fiktiv
- filet
- Filer
- filtrere
- Endelig
- funn
- brannmur
- Først
- fleksibilitet
- flyten
- Fokus
- fokuserte
- følge
- etter
- Til
- fra
- fullt
- fullt
- geografisk
- få
- Globalt
- innvilge
- Gruppens
- Vekst
- seletøy
- Ha
- he
- hjelpe
- hjelpe
- hjelper
- hans
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- hekk
- i
- IAM
- ICON
- identifisere
- Identitet
- if
- illustrerer
- importere
- in
- Inkludert
- Innkommende
- indeks
- informasjon
- Innovasjon
- innovasjoner
- innsikt
- installere
- instruksjoner
- integrere
- Integrering
- integrering
- integrasjoner
- Intelligens
- Interface
- Internet
- Internettilgang
- inn
- forviklinger
- IP
- IP-adresse
- isv
- IT
- varer
- DET ER
- Jobb
- Jobb
- bli medlem
- ble med
- sammenføyning
- reise
- Journeys
- glede
- jpg
- Hold
- nøkkel
- nøkler
- innsjøer
- stor
- seinere
- siste
- føre
- ledende
- læring
- bibliotekene
- Life
- linje
- Liste
- lister
- laste
- plassering
- logg
- Logg inn
- ser
- maskin
- maskinlæring
- gjøre
- GJØR AT
- Making
- administrer
- fikk til
- ledelse
- leder
- måte
- kart
- Kan..
- meningsfylt
- kunne
- minimal
- Oppdrag
- ML
- Overvåke
- overvåking
- mer
- flytte
- bevegelse
- flere
- må
- navn
- innfødt
- Navigasjon
- Trenger
- behov
- nettverk
- Nettverkstilgang
- nettverk
- Ny
- neste
- Nei.
- node
- objekt
- of
- Tilbud
- ofte
- on
- ONE
- på nett
- bare
- åpner
- operasjonell
- or
- vår
- utenfor
- enn
- oversikt
- brød
- del
- deltok
- Spesielt
- partner
- partnere
- lidenskapelig
- Passord
- banen
- pathway
- utføre
- tillatelser
- rørledning
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- muligheter
- Post
- potensiell
- makt
- trekkes
- Forbered
- primære
- prosess
- egenskaper
- gir
- gi
- offentlig
- Python
- kvalitet
- priser
- heller
- Lese
- klar
- anbefales
- referere
- raffinert
- Uansett
- region
- i slekt
- avhengige
- Rapportering
- påkrevd
- Krever
- Ressurser
- resultere
- Resultater
- anmeldelse
- risikoer
- Rolle
- Kjør
- rennende
- sikrere
- salg
- Skala
- Skala
- script
- skript
- sømløs
- sømløst
- Sean
- årstider
- Sekund
- Secret
- hemmeligheter
- Seksjon
- sikre
- sikkerhet
- sikkerhetsrisiko
- se
- velg
- selger
- selgere
- senior
- server~~POS=TRUNC
- tjeneste
- Tjenester
- innstillinger
- flere
- bør
- Viser
- Enkelt
- forenkler
- forenkle
- enkelt
- løsning
- Solutions
- LØSE
- kilde
- Kilder
- spesialisert
- spesifikk
- Sports
- Sportslag
- Begynn
- startet
- status
- Trinn
- Steps
- lagring
- oppbevare
- lagret
- butikker
- rett fram
- effektivisere
- effektiviserer
- studio
- suksess
- slik
- støtte
- sikker
- bord
- Target
- mål
- oppgaver
- lag
- Teknisk
- Technologies
- midlertidig
- test
- enn
- Det
- De
- Kilden
- deres
- Dem
- deretter
- Disse
- denne
- De
- Gjennom
- billett
- billetter
- tid
- til
- verktøy
- trafikk
- Transform
- Transformation
- transformasjoner
- forvandlet
- to
- typen
- etter
- unik
- låse opp
- URI
- bruke
- brukt
- Bruker
- Brukere
- ved hjelp av
- ulike
- Venue
- arenaer
- visuell
- visuelt
- var
- we
- web
- webtjenester
- Nettsted
- når
- om
- hvilken
- HVEM
- vil
- med
- innenfor
- uten
- Arbeid
- arbeidsflyt
- virker
- skrive
- du
- Din
- ungdom
- zephyrnet
- Zip