I dette indlæg undersøger vi, hvordan du bruger AWS Lim native connector til Teradata Vantage for at strømline dataintegrationer og frigøre det fulde potentiale af dine data.
Virksomheder er ofte afhængige af Amazon Simple Storage Service (Amazon S3) til lagring af store mængder data fra forskellige datakilder på en omkostningseffektiv og sikker måde. For dem, der bruger Teradata til dataanalyse, åbner integrationer gennem AWS Glue native-stikket til Teradata Vantage op for nye muligheder. AWS Glue øger fleksibiliteten og effektiviteten af datahåndtering, hvilket giver virksomheder mulighed for problemfrit at integrere deres data, uanset deres placering, med Teradatas analytiske muligheder. Denne nye forbindelse eliminerer tekniske forhindringer relateret til konfiguration, sikkerhed og administration, hvilket gør det muligt for virksomheder uden besvær at eksportere eller importere deres datasæt til Teradata Vantage. Som et resultat heraf kan virksomheder fokusere mere på at udtrække meningsfuld indsigt fra deres data i stedet for at håndtere forviklingerne ved dataintegration.
AWS Glue er en serverløs dataintegrationstjeneste, der gør det nemt for analysebrugere at opdage, forberede, flytte og integrere data fra flere kilder til analyse, maskinlæring (ML) og applikationsudvikling. Med AWS Glue kan du opdage og oprette forbindelse til mere end 100 forskellige datakilder og administrere dine data i et centraliseret datakatalog. Du kan visuelt oprette, køre og overvåge udtrække, transformere og indlæse (ETL) pipelines for at indlæse data i dine datasøer.
Teradata Corporation er en førende tilsluttet multi-cloud-dataplatform til virksomhedsanalyse, der fokuserer på at hjælpe virksomheder med at bruge alle deres data på tværs af en virksomhed i stor skala. Som en AWS Data & Analytics Kompetence partner, Teradata tilbyder en komplet cloud-analyse- og dataplatform, herunder til Machine Learning.
Vi præsenterer AWS Glue native-stikket til Teradata Vantage
AWS Glue giver support til Teradata, tilgængeligt gennem både AWS Glue Studio og AWS Glue ETL scripts. Med AWS Glue Studio drager du fordel af en visuel grænseflade, der forenkler processen med at oprette forbindelse til Teradata og oprette, køre og overvåge AWS Glue ETL-job. For dataudviklere strækker denne support sig til AWS Glue ETL-scripts, hvor du kan bruge Python eller Scala til at oprette og administrere mere specifikke dataintegrations- og transformationsopgaver.
AWS Glue native-stikket til Teradata Vantage giver dig mulighed for effektivt at læse og skrive data fra Teradata uden at skulle installere eller administrere nogen forbindelsesbiblioteker. Du kan tilføje Teradata som både kilden og målet i AWS Glue Studios no-code, træk-og-slip visuelle grænseflade eller bruge forbindelsen direkte i et AWS Glue ETL-scriptjob.
Løsningsoversigt
I dette eksempel bruger du AWS Glue Studio til at berige og uploade data gemt på Amazon S3 til Teradata Vantage. Du starter med at deltage i Event- og Venue-filerne fra TICKIT datasæt. Derefter filtrerer du resultaterne til et enkelt geografisk område. Til sidst uploader du de raffinerede data til Teradata Vantage.
TICKIT-datasættet sporer salgsaktivitet for det fiktive TICKIT-websted, hvor brugere køber og sælger billetter online til sportsbegivenheder, shows og koncerter. I dette datasæt kan analytikere identificere billetbevægelser over tid, succesrater for sælgere og bedst sælgende begivenheder, spillesteder og sæsoner.
I dette eksempel bruger du AWS Glue Studio til at udvikle en visuel ETL-pipeline. Denne pipeline vil læse data fra Amazon S3, udføre transformationer og derefter indlæse de transformerede data i Teradata. Følgende diagram illustrerer denne arkitektur.
Ved slutningen af dette indlæg vil dit visuelle ETL-job ligne følgende skærmbillede.
Forudsætninger
I dette eksempel skal du have adgang til et eksisterende Teradata-databaseslutpunkt med netværkstilgængelighed fra AWS og tilladelser til at oprette tabeller og indlæse og forespørge data.
AWS Glue har brug for netværksadgang til Teradata for at læse eller skrive data. Hvordan dette konfigureres afhænger af, hvor dine Teradata er installeret, og den specifikke netværkskonfiguration. For Teradata implementeret på AWS skal du muligvis konfigurere VPC peering or AWS PrivateLink, sikkerhedsgrupper og netværksadgangskontrollister (NACL'er) for at tillade AWS Glue at kommunikere med Teradata åbenlys TCP. Hvis Teradata er uden for AWS, kan netværkstjenester som f.eks AWS Site-to-Site VPN or AWS Direct Connect kan være påkrævet. Offentlig internetadgang anbefales ikke på grund af sikkerhedsrisici. Hvis du vælger offentlig adgang, er det mere sikkert at køre AWS Glue-jobbet i en VPC bag en NAT gateway. Denne tilgang giver dig mulighed for kun at tillade liste én IP-adresse for indgående trafik på din netværksfirewall. For mere information, se Infrastruktursikkerhed i AWS Glue.
Konfigurer Amazon S3
Hvert objekt i Amazon S3 er gemt i en spand. Før du kan gemme data i Amazon S3, skal du lav en S3-spand at gemme resultaterne. Udfør følgende trin:
- På Amazon S3-konsollen skal du vælge spande i navigationsruden.
- Vælg Opret spand.
- Til Navn, indtast et globalt unikt navn til din spand; for eksempel tickit8530923.
- Vælg Opret spand.
- Download TICKIT datasættet og udpak det.
- Opret mappen tickit i din S3 bucket og upload allevents_pipe.txt og venue_pipe.txt filerne.
Konfigurer Teradata-forbindelser
For at oprette forbindelse til Teradata fra AWS Glue, se Konfiguration af Teradata-forbindelse.
Du skal oprette og gemme dine Teradata-legitimationsoplysninger i en AWS Secrets Manager hemmelig og tilknyt derefter denne hemmelighed med en Teradata AWS Glue-forbindelse. Vi diskuterer disse to trin mere detaljeret senere i dette indlæg.
Opret en IAM-rolle til AWS Glue ETL-jobbet
Når du opretter AWS Glue ETL-jobbet, angiver du en AWS identitets- og adgangsstyring (IAM) rolle for jobbet at bruge. Rollen skal give adgang til alle ressourcer, der bruges af jobbet, inklusive Amazon S3 (for alle kilder, mål, scripts, driverfiler og midlertidige mapper) og Secrets Manager. For instruktioner, se Konfigurer en IAM-rolle til dit ETL-job.
Opret tabel i Teradata
Brug dit foretrukne databaseværktøj til at logge ind på Teradata. Kør følgende kode for at oprette tabellen i Teradata, hvor du vil indlæse dine data:
Gem Teradata login-legitimationsoplysninger
An AWS Limforbindelse er et Data Catalog-objekt, der gemmer loginoplysninger, URI-strenge og mere. Teradata-forbindelsen kræver Secrets Manager til lagring af Teradata-brugernavnet og adgangskoden, som du bruger til at oprette forbindelse til Teradata.
For at gemme Teradata-brugernavnet og adgangskoden i Secrets Manager skal du udføre følgende trin:
- På Secrets Manager-konsollen skal du vælge hemmeligheder i navigationsruden.
- Vælg Gem en ny hemmelighed.
- Type Anden type hemmelighed.
- Indtast nøglen/værdien USER og
teradata_user
, Og vælg derefter Tilføj række. - Indtast nøglen/værdien PASSWORD og
teradata_user_password
, Og vælg derefter Næste.
- Til Hemmeligt navn, indtast et beskrivende navn, og vælg derefter Næste.
- Vælg Næste for at gå til gennemgangstrinnet, og vælg derefter Butik.
Opret Teradata-forbindelsen i AWS Glue
Nu er du klar til at oprette en AWS Glue-forbindelse til Teradata. Udfør følgende trin:
- På AWS Glue-konsollen skal du vælge Tilslutninger under Datakatalog i navigationsruden.
- Vælg Opret forbindelse.
- Til Navn, indtast et navn (f.eks.
teradata_connection
). - Til Tilslutningstype¸ vælg Teradata.
- Til Teradata URL, gå ind
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - Til AWS hemmelighed, vælg hemmeligheden med dine Teradata-legitimationsoplysninger, som du oprettede tidligere.
Opret et AWS Glue visuel ETL-job for at transformere og indlæse data til Teradata
Udfør følgende trin for at oprette dit AWS Glue ETL-job:
- På AWS Glue-konsollen, under ETL job i navigationsruden skal du vælge Visuel ETL.
- Vælg Visuel ETL.
- Vælg blyantikonet for at indtaste et navn til dit job.
Vi tilføjer venue_pipe.txt
som vores første datasæt.
- Vælg Tilføj noder Og vælg Amazon S3 på den Kilder fane.
- Indtast følgende datakildeegenskaber:
- Til Navn, indtast Venue.
- Til S3 kildetype, Vælg S3 placering.
- Til S3 URL, indtast S3-stien til
venue_pipe.txt
. - Til Dataformat, vælg CSV.
- Til Afgrænser, vælg Rør.
- Fravælg Første linje i kildefilen indeholder kolonneoverskrifter.
Nu tilføjer vi allevents_pipe.txt
som vores andet datasæt.
- Vælg Tilføj noder Og vælg Amazon S3 på den Kilder fane.
- Indtast følgende datakildeegenskaber:
- Til Navn, indtast Begivenhed.
- Til S3 kildetype, Vælg S3 placering.
- Til S3 URL, indtast S3-stien til
allevents_pipe.txt
. - Til Dataformat, vælg CSV.
- Til Afgrænser, vælg Rør.
- Fravælg Første linje i kildefilen indeholder kolonneoverskrifter.
Dernæst omdøber vi kolonnerne i Venue-datasættet.
- Vælg Tilføj noder Og vælg Skift skema på den transformationer fane.
- Indtast følgende transformationsegenskaber:
- Til Navn, indtast Omdøb spillestedsdata.
- Til Node forældre, vælg Mødested.
- I Skift skema sektion, kortlæg kildenøglerne til målnøglerne:
- col0:
venueid
- col1:
venuename
- col2:
venuecity
- col3:
venuestate
- col4:
venueseats
- col0:
Nu filtrerer vi Venue-datasættet til et specifikt geografisk område.
- Vælg Tilføj noder Og vælg filtre på den transformationer fane.
- Indtast følgende transformationsegenskaber:
- Til Navn, indtast Placeringsfilter.
- Til Node forældre, vælg Mødested.
- Til Filtertilstand, vælg
venuestate
forum Nøgle, vælg tændstikker forum Produktion, og indtast DC for Værdi.
Nu omdøber vi kolonnerne i hændelsesdatasættet.
- Vælg Tilføj noder Og vælg Skift skema på den transformationer fane.
- Indtast følgende transformationsegenskaber:
- Til Navn, indtast Omdøb begivenhedsdata.
- Til Node forældre, vælg Begivenhed.
- I Skift skema sektion, kortlæg kildenøglerne til målnøglerne:
- col0:
eventid
- col1:
e_venueid
- col2:
catid
- col3:
dateid
- col4:
eventname
- col5:
starttime
- col0:
Dernæst slutter vi os til datasættene Venue og Event.
- Vælg Tilføj noder Og vælg Bliv Medlem på den transformationer fane.
- Indtast følgende transformationsegenskaber:
- Til Navn, indtast Deltag.
- Til Node forældre, vælg Placeringsfilter og Omdøb begivenhedsdata.
- Til Deltag type¸ vælg Indvendig sammenføjning.
- Til Tilmeldingsbetingelser, vælg
venueid
forum Placeringsfilter ,e_venueid
forum Omdøb begivenhedsdata.
Nu dropper vi duplikatkolonnen.
- Vælg Tilføj noder Og vælg Skift skema på den transformationer fane.
- Indtast følgende transformationsegenskaber:
- Til Navn, indtast Drop-kolonnen.
- Til Node forældre, vælg Deltag.
- I Skift skema sektion, vælg Drop forum
e_venueid
.
Dernæst indlæser vi dataene i Teradata-tabellen.
- Vælg Tilføj noder Og vælg Teradata på den Mål fane.
- Indtast følgende datasink-egenskaber:
- Til Navn, indtast Teradata.
- Til Node forældre, vælg Drop kolonne.
- Til Teradata forbindelse, vælg
teradata_connection
. - Til Tabelnavn, gå ind
schema.tablename
af den tabel, du oprettede i Teradata.
Til sidst kører vi jobbet og indlæser dataene i Teradata.
- Vælg Gem, Og vælg derefter Kør.
Et banner vil vise, at jobbet er startet.
- Vælg Kører, som viser jobbets status.
Kørselsstatus ændres til lykkedes når jobbet er færdigt.
- Opret forbindelse til din Teradata, og forespørg derefter tabellen, dataene blev indlæst til den.
De filtrerede og sammenføjede data fra de to datasæt vil være i tabellen.
Ryd op
For at undgå at pådrage sig yderligere gebyrer forårsaget af ressourcer oprettet som en del af dette indlæg, skal du sørge for at slette de elementer, du har oprettet på AWS-kontoen for dette indlæg:
- Secrets Manager-nøglen oprettet til Teradata-legitimationsoplysningerne
- AWS Glue native stik til Teradata Vantage
- Dataene indlæst i S3-bøtten
- AWS Glue Visual ETL-jobbet
Konklusion
I dette indlæg oprettede du en forbindelse til Teradata ved hjælp af AWS Glue og oprettede derefter et AWS Glue-job til at transformere og indlæse data til Teradata. AWS Glue native-stikket til Teradata Vantage styrker din dataanalyserejse ved at give en sømløs og effektiv vej til integration af dine data med Teradata. Denne nye funktion i AWS Glue forenkler ikke kun dine dataintegrationsarbejdsgange, men åbner også nye muligheder for avanceret analyse, business intelligence og maskinlæringsinnovationer.
Med AWS Teradata Connector har du det bedste værktøj til din rådighed til at forenkle dataintegrationsopgaver. Uanset om du ønsker at indlæse Amazon S3-data i Teradata til analyser, rapportering eller forretningsindsigt, strømliner denne nye forbindelse processen, hvilket gør den mere tilgængelig og omkostningseffektiv.
For at komme i gang med AWS Glue, se Kom godt i gang med AWS Glue.
Om forfatterne
Kamen Sharlandjiev er Sr. Big Data og ETL Solutions Architect og AWS Glue-ekspert. Han har en mission om at gøre livet lettere for kunder, der står over for komplekse dataintegrationsudfordringer. Hans hemmelige våben? Fuldt administrerede, lavkode AWS-tjenester, der kan få arbejdet gjort med minimal indsats og ingen kodning. Følg Kamen på LinkedIn for at holde dig ajour med de seneste AWS Glue-nyheder!
Sean Bjurstrøm er Technical Account Manager i ISV-konti hos Amazon Web Services, hvor han har specialiseret sig i analyseteknologier og trækker på sin baggrund inden for rådgivning for at støtte kunderne på deres analyse- og cloudrejser. Sean brænder for at hjælpe virksomheder med at udnytte kraften i data til at drive innovation og vækst. Uden for arbejdet nyder han at løbe og har deltaget i flere maratonløb.
Vinod Jayendra er en Enterprise Support Lead i ISV-konti hos Amazon Web Services, hvor han hjælper kunder med at løse deres arkitektoniske, driftsmæssige og omkostningsoptimerende udfordringer. Med et særligt fokus på serverløse teknologier trækker han fra sin omfattende baggrund i applikationsudvikling for at hjælpe kunder med at bygge top-tier løsninger. Ud over arbejdet finder han glæde i kvalitetstid med familien, begiver sig ud på cykeleventyr og træner ungdomssportshold.
Doug Mbaya er en Senior Partner Solution arkitekt med fokus på analytics og machine learning. Doug arbejder tæt sammen med AWS-partnere og hjælper dem med at integrere deres løsninger med AWS-analyse- og maskinlæringsløsninger i skyen.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- :har
- :er
- :ikke
- :hvor
- $OP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- Om
- adgang
- tilgængelig
- Konto
- Konti
- tværs
- aktivitet
- tilføje
- Yderligere
- adresse
- fremskreden
- eventyr
- Alle
- tillade
- tillade
- tillader
- også
- Amazon
- Amazon Web Services
- beløb
- an
- analyse
- Analytikere
- Analytisk
- analytics
- ,
- enhver
- Anvendelse
- Application Development
- tilgang
- arkitektonisk
- arkitektur
- ER
- AS
- Associate
- At
- forfatter
- veje
- undgå
- AWS
- AWS Lim
- baggrund
- banner
- BE
- før
- bag
- gavner det dig
- BEDSTE
- Beyond
- Big
- Big data
- både
- bygge
- virksomhed
- business intelligence
- virksomheder
- men
- købe
- by
- CAN
- Kan få
- kapaciteter
- kapacitet
- katalog
- forårsagede
- centraliseret
- udfordringer
- lave om
- afgifter
- Vælg
- nøje
- Cloud
- coaching
- kode
- Kodning
- Kolonne
- Kolonner
- kommunikere
- Virksomheder
- fuldføre
- komplekse
- koncerter
- Konfiguration
- konfigureret
- Tilslut
- tilsluttet
- Tilslutning
- tilslutning
- Konsol
- rådgivning
- indeholder
- kontrol
- omkostningseffektiv
- skabe
- oprettet
- Legitimationsoplysninger
- Kunder
- data
- dataanalyse
- Dataanalyse
- dataintegration
- datastyring
- Dataplatform
- Database
- datasæt
- Dato
- dc
- beskæftiger
- afhænger
- indsat
- detail
- udvikle
- udviklere
- Udvikling
- direkte
- direkte
- mapper
- opdage
- diskutere
- Skærm
- displays
- bortskaffelse
- forskelligartede
- færdig
- Doug
- trækker
- køre
- driver
- Drop
- grund
- tidligere
- lettere
- effektivitet
- effektiv
- effektivt
- indsats
- ubesværet
- eliminerer
- bemyndiger
- muliggør
- muliggør
- ende
- Endpoint
- Forbedrer
- berige
- Indtast
- Enterprise
- Ether (ETH)
- begivenhed
- begivenheder
- eksempel
- eksisterende
- ekspert
- udforske
- eksport
- udvider
- omfattende
- ekstrakt
- vender
- familie
- fiktive
- File (Felt)
- Filer
- filtrere
- Endelig
- fund
- firewall
- Fornavn
- Fleksibilitet
- flow
- Fokus
- fokuserede
- følger
- efter
- Til
- fra
- fuld
- fuldt ud
- geografiske
- få
- Globalt
- indrømme
- Gruppens
- Vækst
- seletøj
- Have
- he
- hjælpe
- hjælpe
- hjælper
- hans
- Hvordan
- How To
- HTML
- http
- HTTPS
- Hurdles
- i
- IAM
- ICON
- identificere
- Identity
- if
- illustrerer
- importere
- in
- Herunder
- Indgående
- indeks
- oplysninger
- Innovation
- innovationer
- indsigt
- installere
- anvisninger
- integrere
- Integration
- integration
- integrationer
- Intelligens
- grænseflade
- Internet
- Internetadgang
- ind
- snørklede
- IP
- IP-adresse
- ISV
- IT
- Varer
- ITS
- Job
- Karriere
- deltage
- sluttede
- sammenføjning
- rejse
- Journeys
- glæde
- jpg
- Holde
- Nøgle
- nøgler
- søer
- stor
- senere
- seneste
- føre
- førende
- læring
- biblioteker
- Livet
- Line (linje)
- Liste
- Lister
- belastning
- placering
- log
- Logge på
- leder
- maskine
- machine learning
- lave
- maerker
- Making
- administrere
- lykkedes
- ledelse
- leder
- måde
- kort
- Kan..
- meningsfuld
- måske
- mindste
- Mission
- ML
- Overvåg
- overvågning
- mere
- bevæge sig
- bevægelse
- flere
- skal
- navn
- indfødte
- Navigation
- Behov
- behov
- netværk
- Netværksadgang
- netværk
- Ny
- næste
- ingen
- node
- objekt
- of
- Tilbud
- tit
- on
- ONE
- online
- kun
- åbner
- operationelle
- or
- vores
- uden for
- i løbet af
- oversigt
- brød
- del
- deltog
- særlig
- partner
- partnere
- lidenskabelige
- Adgangskode
- sti
- pathway
- udføre
- Tilladelser
- pipeline
- perron
- plato
- Platon Data Intelligence
- PlatoData
- muligheder
- Indlæg
- potentiale
- magt
- foretrækkes
- Forbered
- primære
- behandle
- egenskaber
- giver
- leverer
- offentlige
- Python
- kvalitet
- priser
- hellere
- Læs
- klar
- anbefales
- henvise
- raffinerede
- Uanset
- region
- relaterede
- stole
- Rapportering
- påkrævet
- Kræver
- Ressourcer
- resultere
- Resultater
- gennemgå
- risici
- roller
- Kør
- kører
- sikrere
- salg
- Scala
- Scale
- script
- scripts
- sømløs
- problemfrit
- Sean
- sæsoner
- Anden
- Secret
- hemmeligheder
- Sektion
- sikker
- sikkerhed
- sikkerhedsrisici
- se
- Vælg
- sælger
- Sælgere
- senior
- Serverless
- tjeneste
- Tjenester
- indstillinger
- flere
- bør
- Shows
- Simpelt
- forenkler
- forenkle
- enkelt
- løsninger
- Løsninger
- SOLVE
- Kilde
- Kilder
- specialiseret
- specifikke
- Sport
- Sportshold
- starte
- påbegyndt
- Status
- Trin
- Steps
- opbevaring
- butik
- opbevaret
- forhandler
- ligetil
- strømline
- strømliner
- Studio
- succes
- sådan
- support
- sikker
- bord
- mål
- mål
- opgaver
- hold
- Teknisk
- Teknologier
- midlertidig
- prøve
- end
- at
- The Source
- deres
- Them
- derefter
- Disse
- denne
- dem
- Gennem
- billet
- billetter
- tid
- til
- værktøj
- Trafik
- Transform
- Transformation
- transformationer
- omdannet
- to
- typen
- under
- enestående
- låse
- URI
- brug
- anvendte
- Bruger
- brugere
- ved brug af
- forskellige
- Venue
- handelssystemer
- visuel
- visuelt
- var
- we
- web
- webservices
- Hjemmeside
- hvornår
- hvorvidt
- som
- WHO
- vilje
- med
- inden for
- uden
- Arbejde
- arbejdsgange
- virker
- skriver
- dig
- Din
- ungdom
- zephyrnet
- Zip