I det här inlägget utforskar vi hur man använder AWS-lim inbyggd kontakt för Teradata Vantage för att effektivisera dataintegrationer och låsa upp din datas fulla potential.
Företag förlitar sig ofta på Amazon enkel lagringstjänst (Amazon S3) för att lagra stora mängder data från olika datakällor på ett kostnadseffektivt och säkert sätt. För de som använder Teradata för dataanalys låser integrationer genom AWS Glue native-kontakten för Teradata Vantage upp nya möjligheter. AWS Glue förbättrar flexibiliteten och effektiviteten i datahantering, vilket gör att företag kan sömlöst integrera sin data, oavsett var den befinner sig, med Teradatas analytiska kapacitet. Denna nya anslutning eliminerar tekniska hinder relaterade till konfiguration, säkerhet och hantering, vilket gör det möjligt för företag att enkelt exportera eller importera sina datauppsättningar till Teradata Vantage. Som ett resultat kan företag fokusera mer på att extrahera meningsfulla insikter från sina data snarare än att ta itu med dataintegreringens krångligheter.
AWS Glue är en serverlös dataintegrationstjänst som gör det enkelt för analytiker att upptäcka, förbereda, flytta och integrera data från flera källor för analys, maskininlärning (ML) och applikationsutveckling. Med AWS Glue kan du upptäcka och ansluta till mer än 100 olika datakällor och hantera dina data i en centraliserad datakatalog. Du kan visuellt skapa, köra och övervaka extrahera, transformera och ladda (ETL) pipelines för att ladda data till dina datasjöar.
Teradata Corporation är en ledande ansluten multi-moln dataplattform för företagsanalys, fokuserad på att hjälpa företag att använda all sin data över ett företag, i stor skala. Som en AWS Data & Analytics Kompetens partner, Teradata erbjuder en komplett molnanalys- och dataplattform, inklusive för maskininlärning.
Vi presenterar AWS Glue native-kontakten för Teradata Vantage
AWS Glue ger stöd för Teradata, tillgängligt via både AWS Glue Studio och AWS Glue ETL-skript. Med AWS Glue Studio drar du nytta av ett visuellt gränssnitt som förenklar processen att ansluta till Teradata och skapa, köra och övervaka AWS Glue ETL-jobb. För datautvecklare sträcker sig detta stöd till AWS Glue ETL-skript, där du kan använda Python eller Scala för att skapa och hantera mer specifika dataintegrerings- och transformationsuppgifter.
AWS Glue native-kontakten för Teradata Vantage låter dig effektivt läsa och skriva data från Teradata utan att behöva installera eller hantera några kontaktbibliotek. Du kan lägga till Teradata som både källa och mål i AWS Glue Studios no-code, dra-och-släpp visuella gränssnitt eller använda kontakten direkt i ett AWS Glue ETL-skriptjobb.
Lösningsöversikt
I det här exemplet använder du AWS Glue Studio för att berika och ladda upp data lagrad på Amazon S3 till Teradata Vantage. Du börjar med att gå med i händelse- och platsfilerna från TICKIT dataset. Därefter filtrerar du resultaten till en enda geografisk region. Slutligen laddar du upp den förfinade datan till Teradata Vantage.
TICKIT-datauppsättningen spårar försäljningsaktivitet för den fiktiva TICKIT-webbplatsen, där användare köper och säljer biljetter online till sportevenemang, shower och konserter. I denna datauppsättning kan analytiker identifiera biljettrörelser över tid, framgångsfrekvenser för säljare och bästsäljande evenemang, arenor och säsonger.
I det här exemplet använder du AWS Glue Studio för att utveckla en visuell ETL-pipeline. Denna pipeline kommer att läsa data från Amazon S3, utföra transformationer och sedan ladda de transformerade data till Teradata. Följande diagram illustrerar denna arkitektur.
I slutet av det här inlägget kommer ditt visuella ETL-jobb att likna följande skärmdump.
Förutsättningar
I det här exemplet bör du ha tillgång till en befintlig Teradata-databasslutpunkt med nätverksnålighet från AWS och behörighet att skapa tabeller och ladda och fråga data.
AWS Glue behöver nätverksåtkomst till Teradata för att läsa eller skriva data. Hur detta konfigureras beror på var din Teradata är distribuerad och den specifika nätverkskonfigurationen. För Teradata som distribueras på AWS kan du behöva konfigurera VPC-peering or AWS PrivateLink, säkerhetsgrupper och nätverksåtkomstkontrollistor (NACL) för att tillåta AWS Glue att kommunicera med Teradata open TCP. Om Teradata ligger utanför AWS kan nätverkstjänster som t.ex AWS-plats-till-plats-VPN or AWS Direct Connect kan krävas. Offentlig tillgång till internet rekommenderas inte på grund av säkerhetsrisker. Om du väljer offentlig åtkomst är det säkrare att köra AWS Glue-jobbet i en VPC bakom en NAT-gateway. Det här tillvägagångssättet gör att du kan tillåta att endast lista en IP-adress för inkommande trafik på din nätverksbrandvägg. För mer information, se Infrastruktursäkerhet i AWS Glue.
Konfigurera Amazon S3
Varje objekt i Amazon S3 lagras i en hink. Innan du kan lagra data i Amazon S3 måste du skapa en S3-hink för att lagra resultaten. Slutför följande steg:
- Välj på Amazon S3-konsolen Skopor i navigeringsfönstret.
- Välja Skapa hink.
- För Namn , ange ett globalt unikt namn för din hink; till exempel, tickit8530923.
- Välja Skapa hink.
- ladda ner TICKIT dataset och packa upp det.
- Skapa mappen tickit i din S3-bucket och ladda upp filerna allevents_pipe.txt och venue_pipe.txt.
Konfigurera Teradata-anslutningar
För att ansluta till Teradata från AWS Glue, se Konfigurera Teradata Connection.
Du måste skapa och lagra dina Teradata-uppgifter i en AWS Secrets Manager hemlighet och sedan associera den hemligheten med en Teradata AWS Glue-anslutning. Vi diskuterar dessa två steg mer i detalj senare i det här inlägget.
Skapa en IAM-roll för AWS Glue ETL-jobbet
När du skapar AWS Glue ETL-jobbet anger du en AWS identitets- och åtkomsthantering (IAM) roll för jobbet att använda. Rollen måste ge åtkomst till alla resurser som används av jobbet, inklusive Amazon S3 (för alla källor, mål, skript, drivrutinsfiler och tillfälliga kataloger) och Secrets Manager. För instruktioner, se Konfigurera en IAM-roll för ditt ETL-jobb.
Skapa tabell i Teradata
Använd ditt föredragna databasverktyg och logga in på Teradata. Kör följande kod för att skapa tabellen i Teradata där du ska ladda dina data:
Lagra inloggningsuppgifter för Teradata
An AWS Limanslutning är ett Data Catalog-objekt som lagrar inloggningsuppgifter, URI-strängar och mer. Teradata-anslutaren kräver Secrets Manager för att lagra Teradata-användarnamnet och lösenordet som du använder för att ansluta till Teradata.
För att lagra Teradatas användarnamn och lösenord i Secrets Manager, utför följande steg:
- Välj på Secrets Manager-konsolen Secrets i navigeringsfönstret.
- Välja Lagra en ny hemlighet.
- Välja Annan typ av hemlighet.
- Ange nyckeln/värdet USER och
teradata_user
Och välj sedan Lägg till rad. - Ange nyckeln/värdet LÖSENORD och
teradata_user_password
Och välj sedan Nästa.
- För Hemligt namn, ange ett beskrivande namn och välj sedan Nästa.
- Välja Nästa för att gå till granskningssteget och välj sedan HITTA BUTIK.
Skapa Teradata-anslutningen i AWS Glue
Nu är du redo att skapa en AWS Glue-anslutning till Teradata. Slutför följande steg:
- Välj på AWS Lim-konsolen Anslutningar under Datakatalog i navigeringsfönstret.
- Välja Skapa anslutning.
- För Namn , ange ett namn (t.ex.
teradata_connection
). - För Kopplingstyp¸ välja Teradata.
- För Teradata URL, stiga på
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - För AWS hemlighet, välj hemligheten med dina Teradata-uppgifter som du skapade tidigare.
Skapa ett AWS Glue visual ETL-jobb för att transformera och ladda data till Teradata
Slutför följande steg för att skapa ditt AWS Glue ETL-jobb:
- På AWS Lim-konsolen, under ETL jobb välj i navigeringsfönstret Visuell ETL.
- Välja Visuell ETL.
- Välj pennikonen för att ange ett namn för ditt jobb.
Vi lägger till venue_pipe.txt
som vår första dataset.
- Välja Lägg till noder Och välj Amazon S3 på Källor fliken.
- Ange följande datakällaegenskaper:
- För Namn , ange plats.
- För S3 källtyp, Välj S3-plats.
- För S3 URL, ange S3-sökvägen till
venue_pipe.txt
. - För Dataformatväljer CSV.
- För avgränsareväljer Pipe .
- Välja bort Första raden i källfilen innehåller kolumnrubriker.
Nu lägger vi till allevents_pipe.txt
som vårt andra dataset.
- Välja Lägg till noder Och välj Amazon S3 på Källor fliken.
- Ange följande datakällaegenskaper:
- För Namn , ange Händelse.
- För S3 källtyp, Välj S3-plats.
- För S3 URL, ange S3-sökvägen till
allevents_pipe.txt
. - För Dataformatväljer CSV.
- För avgränsareväljer Pipe .
- Välja bort Första raden i källfilen innehåller kolumnrubriker.
Därefter byter vi namn på kolumnerna i datauppsättningen Venue.
- Välja Lägg till noder Och välj Ändra schema på Trans fliken.
- Ange följande transformeringsegenskaper:
- För Namn , ange Byt namn på platsdata.
- För Nodföräldrar, välj Plats.
- I Ändra schema mappa källnycklarna till målnycklarna:
- col0:
venueid
- col1:
venuename
- col2:
venuecity
- col3:
venuestate
- col4:
venueseats
- col0:
Nu filtrerar vi platsdataset till en specifik geografisk region.
- Välja Lägg till noder Och välj Filter på Trans fliken.
- Ange följande transformeringsegenskaper:
- För Namn , ange platsfilter.
- För Nodföräldrar, välj Plats.
- För Filterförhållandeväljer
venuestate
för Nyckelväljer tändstickor för Drift, och ange DC för Värde.
Nu byter vi namn på kolumnerna i händelsedataset.
- Välja Lägg till noder Och välj Ändra schema på Trans fliken.
- Ange följande transformeringsegenskaper:
- För Namn , ange Byt namn på händelsedata.
- För Nodföräldrar, välj Händelse.
- I Ändra schema mappa källnycklarna till målnycklarna:
- col0:
eventid
- col1:
e_venueid
- col2:
catid
- col3:
dateid
- col4:
eventname
- col5:
starttime
- col0:
Därefter ansluter vi oss till datauppsättningarna för plats och evenemang.
- Välja Lägg till noder Och välj Ansluta sig på Trans fliken.
- Ange följande transformeringsegenskaper:
- För Namn , ange Gå med.
- För Nodföräldrar, välj Platsfilter och Byt namn på händelsedata.
- För Gå med typ¸ välja Inre koppling.
- För Anslut villkorväljer
venueid
för Platsfilter oche_venueid
för Byt namn på händelsedata.
Nu släpper vi dubblettkolumnen.
- Välja Lägg till noder Och välj Ändra schema på Trans fliken.
- Ange följande transformeringsegenskaper:
- För Namn , ange Drop-kolumnen.
- För Nodföräldrar, välj Gå med.
- I Ändra schema avsnitt, välj Drop för
e_venueid
.
Därefter laddar vi in data i Teradata-tabellen.
- Välja Lägg till noder Och välj Teradata på mål fliken.
- Ange följande datasinkegenskaper:
- För Namn , ange Teradata.
- För Nodföräldrar, välj Släpp kolumn.
- För Teradata-anslutningväljer
teradata_connection
. - För Tabellnamn, stiga på
schema.tablename
av tabellen du skapade i Teradata.
Till sist kör vi jobbet och laddar in data i Teradata.
- Välja SaveOch välj sedan Körning.
En banner kommer att visa att jobbet har startat.
- Välja Körs, som visar jobbets status.
Körstatus kommer att ändras till Lyckades när jobbet är klart.
- Anslut till din Teradata och fråga sedan tabellen som data laddades till den.
De filtrerade och sammanfogade data från de två datamängderna kommer att finnas i tabellen.
Städa upp
För att undvika att ådra sig ytterligare avgifter orsakade av resurser som skapats som en del av det här inlägget, se till att du tar bort objekten du skapade i AWS-kontot för detta inlägg:
- Secrets Manager-nyckeln skapad för Teradata-uppgifterna
- AWS Glue native-kontakten för Teradata Vantage
- Datan laddas i S3-hinken
- AWS Glue Visual ETL-jobbet
Slutsats
I det här inlägget skapade du en anslutning till Teradata med AWS Glue och skapade sedan ett AWS Glue-jobb för att transformera och ladda data till Teradata. AWS Glue native-anslutningen för Teradata Vantage ger din dataanalysresa kraft genom att tillhandahålla en sömlös och effektiv väg för att integrera din data med Teradata. Den här nya kapaciteten i AWS Glue förenklar inte bara dina dataintegreringsarbetsflöden utan öppnar också nya vägar för avancerad analys, affärsintelligens och innovationer inom maskininlärning.
Med AWS Teradata Connector har du det bästa verktyget till ditt förfogande för att förenkla dataintegreringsuppgifter. Oavsett om du vill ladda Amazon S3-data i Teradata för analys, rapportering eller affärsinsikter, effektiviserar denna nya anslutning processen, vilket gör den mer tillgänglig och kostnadseffektiv.
För att komma igång med AWS Glue, se Komma igång med AWS Glue.
Om författarna
Kamen Sharlandjiev är Sr. Big Data och ETL Solutions Architect och AWS Glue expert. Han har ett uppdrag att göra livet enklare för kunder som står inför komplexa dataintegrationsutmaningar. Hans hemliga vapen? Fullt hanterade, lågkodade AWS-tjänster som kan få jobbet gjort med minimal ansträngning och ingen kodning. Följ Kamen på LinkedIn för att hålla dig uppdaterad med de senaste AWS Glue-nyheterna!
Sean Bjurström är en Technical Account Manager i ISV-konton på Amazon Web Services, där han är specialiserad på analysteknik och använder sin bakgrund inom konsultverksamhet för att stödja kunder på deras analys- och molnresor. Sean brinner för att hjälpa företag att utnyttja kraften i data för att driva innovation och tillväxt. Utanför jobbet tycker han om att springa och har deltagit i flera maratonlopp.
Vinod Jayendra är en Enterprise Support Lead i ISV-konton på Amazon Web Services, där han hjälper kunder att lösa deras arkitektur-, drifts- och kostnadsoptimeringsutmaningar. Med ett särskilt fokus på serverlös teknologi, hämtar han från sin omfattande bakgrund inom applikationsutveckling för att hjälpa kunder att bygga toppklassiga lösningar. Utöver jobbet finner han glädje i kvalitetstid med familjen, ger sig ut på cykeläventyr och coachar ungdomsidrottslag.
Doug Mbaya är en Senior Partner Solution arkitekt med fokus på analys och maskininlärning. Doug arbetar nära med AWS-partners och hjälper dem att integrera sina lösningar med AWS-analys och maskininlärningslösningar i molnet.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- : har
- :är
- :inte
- :var
- $UPP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- Om oss
- tillgång
- tillgänglig
- Konto
- konton
- tvärs
- aktivitet
- lägga till
- Annat
- adress
- avancerat
- Äventyr
- Alla
- tillåter
- tillåta
- tillåter
- också
- amason
- Amazon Web Services
- mängder
- an
- analys
- analytiker
- Analytisk
- analytics
- och
- vilken som helst
- Ansökan
- Application Development
- tillvägagångssätt
- arkitektoniska
- arkitektur
- ÄR
- AS
- Associate
- At
- författarskap
- vägar
- undvika
- AWS
- AWS-lim
- bakgrund
- banderoll
- BE
- innan
- bakom
- fördel
- BÄST
- Bortom
- Stor
- Stora data
- båda
- SLUTRESULTAT
- företag
- business intelligence
- företag
- men
- Köp
- by
- KAN
- Kan få
- kapacitet
- kapacitet
- katalog
- orsakas
- centraliserad
- utmaningar
- byta
- avgifter
- Välja
- nära
- cloud
- coaching
- koda
- Kodning
- Kolumn
- Kolonner
- kommunicera
- Företag
- fullborda
- komplex
- konserter
- konfiguration
- konfigurerad
- Kontakta
- anslutna
- Anslutning
- anslutning
- Konsol
- rådgivning
- innehåller
- kontroll
- kostnadseffektiv
- skapa
- skapas
- referenser
- Kunder
- datum
- dataanalys
- Data Analytics
- dataintegration
- datahantering
- Dataplattform
- Databas
- datauppsättningar
- Datum
- dc
- som handlar om
- beror
- utplacerade
- detalj
- utveckla
- utvecklare
- Utveckling
- rikta
- direkt
- kataloger
- Upptäck
- diskutera
- Visa
- displayer
- förfogande
- flera
- gjort
- Doug
- drar
- driv
- chaufför
- Drop
- grund
- Tidigare
- lättare
- effektivitet
- effektiv
- effektivt
- ansträngning
- enkelt
- eliminerar
- bemyndigar
- möjliggör
- möjliggör
- änden
- Slutpunkt
- Förbättrar
- berika
- ange
- Företag
- Eter (ETH)
- händelse
- händelser
- exempel
- befintliga
- expert
- utforska
- export
- sträcker
- omfattande
- extrahera
- vänd
- familj
- fiktiva
- Fil
- Filer
- filtrera
- Slutligen
- fynd
- brandvägg
- Förnamn
- Flexibilitet
- flöda
- Fokus
- fokuserade
- följer
- efter
- För
- från
- full
- fullständigt
- geografisk
- skaffa sig
- Globalt
- bevilja
- Gruppens
- Tillväxt
- sele
- Har
- he
- hjälpa
- hjälpa
- hjälper
- hans
- Hur ser din drömresa ut
- How To
- html
- http
- HTTPS
- häck
- i
- IAM
- IKON
- identifiera
- Identitet
- if
- illustrerar
- importera
- in
- Inklusive
- Inkommande
- index
- informationen
- Innovation
- innovationer
- insikter
- installera
- instruktioner
- integrera
- Integrera
- integrering
- integrationer
- Intelligens
- Gränssnitt
- Internet
- internetåtkomst
- in
- intrikat
- IP
- IP-adress
- ISV
- IT
- artikel
- DESS
- Jobb
- Lediga jobb
- delta
- fogade
- sammanfogning
- resa
- Journeys
- glädje
- jpg
- Ha kvar
- Nyckel
- nycklar
- sjöar
- Large
- senare
- senaste
- leda
- ledande
- inlärning
- bibliotek
- livet
- linje
- Lista
- listor
- läsa in
- läge
- log
- logga in
- du letar
- Maskinen
- maskininlärning
- göra
- GÖR
- Framställning
- hantera
- förvaltade
- ledning
- chef
- sätt
- karta
- Maj..
- meningsfull
- kanske
- minimum
- Mission
- ML
- Övervaka
- övervakning
- mer
- flytta
- rörelse
- multipel
- måste
- namn
- nativ
- Navigering
- Behöver
- behov
- nät
- Nätverkstillgång
- nätverk
- Nya
- Nästa
- Nej
- nod
- objektet
- of
- Erbjudanden
- Ofta
- on
- ONE
- nätet
- endast
- öppnas
- operativa
- or
- vår
- utanför
- över
- Översikt
- panelen
- del
- deltog
- särskilt
- partnern
- partner
- brinner
- Lösenord
- bana
- väg
- utföra
- behörigheter
- rörledning
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- Möjligheterna
- Inlägg
- potentiell
- kraft
- föredragen
- Förbered
- primär
- process
- egenskaper
- ger
- tillhandahålla
- allmän
- Python
- kvalitet
- rates
- snarare
- Läsa
- redo
- rekommenderas
- hänvisa
- raffinerade
- Oavsett
- region
- relaterad
- förlita
- Rapportering
- Obligatorisk
- Kräver
- Resurser
- resultera
- Resultat
- översyn
- risker
- Roll
- Körning
- rinnande
- säkrare
- försäljning
- Skala
- Skala
- skript
- skript
- sömlös
- sömlöst
- sean
- säsonger
- Andra
- Secret
- hemligheter
- §
- säkra
- säkerhet
- säkerhetsrisker
- se
- välj
- sälja
- Säljare
- senior
- Server
- service
- Tjänster
- inställningar
- flera
- skall
- Visar
- Enkelt
- förenklar
- förenkla
- enda
- lösning
- Lösningar
- LÖSA
- Källa
- Källor
- specialiserat
- specifik
- Sporter
- Sportlag
- starta
- igång
- status
- Steg
- Steg
- förvaring
- lagra
- lagras
- lagrar
- okomplicerad
- effektivisera
- strömlinjer
- studio
- framgång
- sådana
- stödja
- säker
- bord
- Målet
- mål
- uppgifter
- lag
- Teknisk
- Tekniken
- temporär
- testa
- än
- den där
- Smakämnen
- källan
- deras
- Dem
- sedan
- Dessa
- detta
- de
- Genom
- biljett
- biljetter
- tid
- till
- verktyg
- trafik
- Förvandla
- Transformation
- transformationer
- transformerad
- två
- Typ
- under
- unika
- låsa
- URI
- användning
- Begagnade
- Användare
- användare
- med hjälp av
- olika
- Mötesplats
- arenor
- visuell
- visuellt
- var
- we
- webb
- webbservice
- Webbplats
- när
- om
- som
- VEM
- kommer
- med
- inom
- utan
- Arbete
- arbetsflöden
- fungerar
- skriva
- dig
- Din
- ungdom
- zephyrnet
- Postnummer