I dagens datadrivna värld är förmågan att enkelt flytta och analysera data över olika plattformar avgörande. Amazon App Flow, en fullständigt hanterad dataintegrationstjänst, har varit i framkant när det gäller att effektivisera dataöverföring mellan AWS-tjänster, SaaS-applikationer (Software as a Service) och nu Google BigQuery. I det här blogginlägget utforskar du det nya Google BigQuery-anslutare i Amazon AppFlow och upptäck hur det förenklar processen att överföra data från Googles datalager till Amazon Simple Storage Service (Amazon S3), vilket ger betydande fördelar för dataproffs och organisationer, inklusive demokratisering av dataåtkomst i flera moln.
Översikt över Amazon AppFlow
Amazon App Flow är en helt hanterad integrationstjänst som du kan använda för att säkert överföra data mellan SaaS-applikationer som Google BigQuery, Salesforce, SAP, Hubspot och ServiceNow, och AWS-tjänster som Amazon S3 och Amazon RedShift, med bara några klick. Med Amazon AppFlow kan du köra dataflöden i nästan vilken skala som helst med den frekvens du väljer – enligt ett schema, som svar på en affärshändelse eller på begäran. Du kan konfigurera datatransformationsfunktioner som filtrering och validering för att generera rik, färdig att använda data som en del av själva flödet, utan ytterligare steg. Amazon AppFlow krypterar automatiskt data i rörelse och låter dig begränsa data från att flöda över det offentliga internet för SaaS-applikationer som är integrerade med AWS PrivateLink, vilket minskar exponeringen för säkerhetshot.
Vi presenterar Google BigQuery-anslutaren
Den nya Google BigQuery-anslutare i Amazon avslöjar AppFlow möjligheter för organisationer som vill använda den analytiska förmågan i Googles datalager, och att enkelt integrera, analysera, lagra eller vidarebearbeta data från BigQuery och omvandla den till handlingsbara insikter.
arkitektur
Låt oss se över arkitekturen för att överföra data från Google BigQuery till Amazon S3 med Amazon AppFlow.
- Välj en datakälla: In Amazon App Flow, välj Google BigQuery som din datakälla. Ange de tabeller eller datauppsättningar du vill extrahera data från.
- Fältkartläggning och transformation: Konfigurera dataöverföringen med det intuitiva visuella gränssnittet i Amazon AppFlow. Du kan mappa datafält och tillämpa transformationer efter behov för att anpassa data till dina krav.
- Överföringsfrekvens: Bestäm hur ofta du vill överföra data – som dagligen, veckovis eller månadsvis – med stöd för flexibilitet och automatisering.
- Destination: Ange en S3-bucket som destination för dina data. Amazon AppFlow kommer effektivt att flytta data, vilket gör den tillgänglig i din Amazon S3-lagring.
- Förbrukning: Användning Amazonas Athena för att analysera data i Amazon S3.
Förutsättningar
Datauppsättningen som används i denna lösning genereras av Synthea, en syntetisk patientpopulationssimulator och opensource-projekt under Apache-licens 2.0. Ladda in denna data i Google BigQuery eller använd din befintliga datauppsättning.
Anslut Amazon AppFlow till ditt Google BigQuery-konto
För det här inlägget använder du ett Google-konto, OAuth-klient med lämpliga behörigheter och Google BigQuery-data. För att aktivera Google BigQuery-åtkomst från Amazon AppFlow måste du konfigurera en ny OAuth-klient i förväg. För instruktioner, se Google BigQuery-anslutare för Amazon AppFlow.
Konfigurera Amazon S3
Varje objekt i Amazon S3 lagras i en hink. Innan du kan lagra data i Amazon S3 måste du skapa en S3-hink för att lagra resultaten.
Skapa en ny S3-hink för Amazon AppFlow-resultat
Utför följande steg för att skapa en S3-skopa:
- På AWS Management-konsolen för Amazon S3väljer Skapa hink.
- Ange en globalt unik namn på din hink; till exempel,
appflow-bq-sample
. - Välja Skapa hink.
Skapa en ny S3-hink för Amazon Athena-resultat
Utför följande steg för att skapa en S3-skopa:
- På AWS Management-konsolen för Amazon S3väljer Skapa hink.
- Ange en globalt unik namn på din hink; till exempel,
athena-results
. - Välja Skapa hink.
Användarroll (IAM-roll) för AWS Glue Data Catalog
För att katalogisera data som du överför med ditt flöde måste du ha rätt användarroll i AWS Identity and Access Management (IAM). Du tillhandahåller denna roll till Amazon AppFlow för att ge de behörigheter den behöver för att skapa en AWS limdatakatalog, tabeller, databaser och partitioner.
För ett exempel på IAM-policy som har de nödvändiga behörigheterna, se Identitetsbaserade policyexempel för Amazon AppFlow.
Genomgång av designen
Låt oss nu gå igenom ett praktiskt användningsfall för att se hur Amazon AppFlow Google BigQuery till Amazon S3-kontakten fungerar. För användningsfallet kommer du att använda Amazon AppFlow för att arkivera historisk data från Google BigQuery till Amazon S3 för långtidslagring och analys.
Konfigurera Amazon AppFlow
Skapa ett nytt Amazon AppFlow-flöde för att överföra data från Google Analytics till Amazon S3.
- På Amazon AppFlow-konsolväljer Skapa flöde.
- Ange ett namn för ditt flöde; till exempel,
my-bq-flow
. - Lägg till nödvändigt Tags; till exempel för Nyckel Till New Earth
env
och för Värde Till New Earthdev
.
- Välja Nästa.
- För KÄLLNAMNväljer Google BigQuery.
- Välja Skapa ny anslutning.
- Ange din OAuth kund-ID och Klienthemlighet, namnge sedan din anslutning; till exempel,
bq-connection
.
- I popup-fönstret väljer du att tillåta amazon.com åtkomst till Google BigQuery API.
- För Välj Google BigQuery-objektväljer Bord.
- För Välj Google BigQuery-underobjektväljer BigQueryProjectName.
- För Välj Google BigQuery-underobjektväljer Databas namn.
- För Välj Google BigQuery-underobjektväljer Tabellnamn.
- För Destinationsnamnväljer Amazon S3.
- För Hinkdetaljer, välj Amazon S3-hinken som du skapade för att lagra Amazon AppFlow-resultat i förutsättningarna.
- ange
raw
som en prefix.
- Nästa, ge AWS limdatakatalog inställningar för att skapa en tabell för vidare analys.
- Välj Användarroll (IAM-roll) skapas i förutsättningarna.
- Skapa ny databas till exempel,
healthcare
. - Tillhandahålla en tabellprefix inställning till exempel,
bq
.
- Välja Kör på begäran.
- Välja Nästa.
- Välja Kartlägg fält manuellt.
- Välj följande sex fält för Källfältsnamn av tabellen Allergier:
- Start
- Patient
- Koda
- Beskrivning
- Typ
- Kategori
- Välja Karta fält direkt.
- Välja Nästa.
- In Lägg till filter avsnitt väljer Nästa.
- Välja Skapa flöde.
Kör flödet
När du har skapat ditt nya flöde kan du köra det på begäran.
- På Amazon AppFlow-konsolväljer
my-bq-flow
. - Välja Kör flöde.
För den här genomgången, välj kör jobbet på begäran för att underlätta förståelsen. I praktiken kan du välja ett schemalagt jobb och periodvis extrahera endast nytillkomna data.
Fråga genom Amazon Athena
När du väljer de valfria inställningarna för AWS Glue Data Catalog skapar Data Catalog katalogen för data, vilket gör att Amazon Athena kan utföra frågor.
Om du uppmanas att konfigurera en sökresultatplats, navigera till Inställningar fliken och välj hantera. Under Hantera inställningar, välj Athena resultat-bucket som skapats i förutsättningar och välj Save.
- På Amazon Athena-konsol, välj Datakälla som
AWSDataCatalog
. - Välj sedan Databas as
healthcare
. - Nu kan du välja tabellen som skapats av AWS Glue-sökroboten och förhandsgranska den.
- Du kan också köra en anpassad fråga för att hitta de 10 bästa allergierna som visas i följande fråga.
Anmärkningar: I frågan nedan, ersätt tabellnamnet, i det här fallet bq_appflow_mybqflow_1693588670_latest
, med namnet på tabellen som genererats i ditt AWS-konto.
- Välja Kör fråga.
Detta resultat visar de 10 bästa allergierna efter antal fall.
Städa upp
För att undvika att ådra sig avgifter, rensa resurserna i ditt AWS-konto genom att slutföra följande steg:
- Välj på Amazon AppFlow-konsolen flöden i navigeringsfönstret.
- Välj flödet från listan över flöden
my-bq-flow
och radera den. - Ange delete för att ta bort flödet.
- Välja Anslutningar i navigeringsfönstret.
- Välja Google BigQuery från listan över anslutningar väljer du
bq-connector
och radera den. - Ange delete för att ta bort anslutningen.
- Välj på IAM-konsolen roller på navigeringssidan, välj sedan rollen du skapade för AWS Glue Crawler och ta bort den.
- På Amazon Athena-konsolen:
- Ta bort tabellerna som skapats under databasen
healthcare
använder AWS Glue crawler. - Släpp databasen
healthcare
- Ta bort tabellerna som skapats under databasen
- På Amazon S3-konsolen, sök efter Amazon AppFlow-resultathinken som du skapade, välj Tom för att ta bort objekten, radera sedan hinken.
- På Amazon S3-konsolen, sök efter Amazon Athena-resultathinken som du skapade, välj Tom för att ta bort objekten, radera sedan hinken.
- Rensa upp resurser i ditt Google-konto genom att ta bort projektet som innehåller Google BigQuery-resurserna. Följ dokumentationen till rensa upp Googles resurser.
Slutsats
Google BigQuery-anslutningen i Amazon AppFlow effektiviserar processen att överföra data från Googles datalager till Amazon S3. Denna integration förenklar analys och maskininlärning, arkivering och långtidslagring, vilket ger betydande fördelar för dataproffs och organisationer som vill utnyttja de båda plattformarnas analytiska förmåga.
Med Amazon AppFlow elimineras komplexiteten med dataintegration, vilket gör att du kan fokusera på att härleda handlingsbara insikter från din data. Oavsett om du arkiverar historisk data, utför komplexa analyser eller förbereder data för maskininlärning, förenklar denna anslutning processen och gör den tillgänglig för ett bredare utbud av dataproffs.
Om du är intresserad av att se hur data överförs från Google BigQuery till Amazon S3 med Amazon AppFlow, ta en titt på steg-för-steg video tutorial. I den här handledningen går vi igenom hela processen, från att konfigurera anslutningen till att köra dataöverföringsflödet. För mer information om Amazon AppFlow, besök Amazon App Flow.
Om författarna
Kartikay Khator är en lösningsarkitekt för Global Life Science på Amazon Web Services. Han brinner för att hjälpa kunder på deras molnresa med fokus på AWS-analystjänster. Han är en ivrig löpare och tycker om att vandra.
Kamen Sharlandjiev är Sr. Big Data och ETL Solutions Architect och Amazon AppFlow-expert. Han har ett uppdrag att göra livet enklare för kunder som står inför komplexa dataintegrationsutmaningar. Hans hemliga vapen? Fullt hanterade, lågkodade AWS-tjänster som kan få jobbet gjort med minimal ansträngning och ingen kodning.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/big-data/simplify-data-transfer-google-bigquery-to-amazon-s3-using-amazon-appflow/
- : har
- :är
- $UPP
- 10
- 100
- 14
- 16
- 17
- 22
- 321
- 8
- 9
- a
- förmåga
- Om oss
- tillgång
- Behörighets förvaltning
- tillgänglig
- Konto
- tvärs
- lägga till
- lagt till
- Annat
- avancera
- rikta
- Allergier
- tillåter
- tillåta
- tillåter
- också
- amason
- Amazonas Athena
- Amazon Web Services
- Amazon.com
- an
- analys
- Analytisk
- analytics
- analysera
- och
- vilken som helst
- api
- tillämpningar
- Ansök
- lämpligt
- arkitektur
- arkiv
- ÄR
- AS
- At
- automatiskt
- Automation
- undvika
- AWS
- AWS-lim
- AWS Management Console
- varit
- innan
- nedan
- Fördelarna
- mellan
- Stor
- Stora data
- BigQuery
- Blogg
- båda
- bredare
- företag
- by
- KAN
- Kan få
- kapacitet
- kapacitet
- Vid
- fall
- katalog
- Kategori
- utmaningar
- avgifter
- Välja
- klient
- cloud
- Kodning
- COM
- fullborda
- fullborda
- komplex
- komplexiteter
- anslutning
- Konsol
- innehåller
- sökrobot
- skapa
- skapas
- skapar
- Skapa
- beställnings
- Kunder
- dagligen
- datum
- datatillgång
- dataintegration
- datalagret
- data driven
- Databas
- databaser
- datauppsättningar
- beslutar
- Efterfrågan
- demokratisering
- beskrivning
- destination
- Upptäck
- flera
- dokumentation
- gjort
- lätta
- lättare
- effektivt
- ansträngning
- enkelt
- utslagen
- möjliggöra
- möjliggör
- Hela
- väsentlig
- Eter (ETH)
- händelse
- exempel
- exempel
- befintliga
- expert
- utforska
- Exponering
- extrahera
- vänd
- få
- fält
- Fält
- filtrering
- hitta
- Flexibilitet
- flöda
- Strömmande
- flöden
- Fokus
- följer
- efter
- För
- förgrunden
- Frekvens
- ofta
- från
- fullständigt
- ytterligare
- generera
- genereras
- skaffa sig
- Välgörenhet
- Globalt
- Google Analytics
- Googles
- bevilja
- Grupp
- sele
- Har
- he
- hälso-och sjukvård
- hjälpa
- vandring
- hans
- historisk
- Hur ser din drömresa ut
- html
- http
- HTTPS
- HubSpot
- IAM
- Identitet
- identitets- och åtkomsthantering
- in
- Inklusive
- informationen
- insikter
- instruktioner
- integrera
- integrerade
- integrering
- intresserad
- Gränssnitt
- Internet
- in
- intuitiv
- IT
- sig
- Jobb
- resa
- bara
- inlärning
- Licens
- livet
- Livsvetenskap
- BEGRÄNSA
- Lista
- läsa in
- läge
- lång sikt
- se
- Maskinen
- maskininlärning
- göra
- Framställning
- förvaltade
- ledning
- karta
- kartläggning
- minimum
- Mission
- mer
- rörelse
- flytta
- måste
- namn
- Navigera
- Navigering
- nästan
- nödvändigt för
- behövs
- behov
- Nya
- nytt
- Nej
- nu
- antal
- oauth
- objektet
- objekt
- of
- on
- On-Demand
- endast
- OpenSource
- or
- beställa
- organisationer
- över
- sida
- panelen
- del
- brinner
- Patienten
- utföra
- utför
- behörigheter
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- policy
- pop-up
- befolkning
- Möjligheterna
- Inlägg
- Praktisk
- praktiken
- förbereda
- förutsättningar
- Förhandsvisning
- process
- yrkesmän/kvinnor
- projektet
- ge
- tillhandahålla
- allmän
- sökfrågor
- område
- reducerande
- ersätta
- Obligatorisk
- Krav
- Resurser
- respons
- begränsa
- resultera
- Resultat
- översyn
- Rik
- Roll
- Körning
- runner
- rinnande
- SaaS
- Salesforce
- SAP
- Skala
- tidtabellen
- planerad
- Vetenskap
- Sök
- Secret
- §
- säkert
- säkerhet
- Säkerhetshot
- se
- söker
- service
- ServiceNow
- Tjänster
- in
- inställning
- inställningar
- visas
- Visar
- signifikant
- Enkelt
- förenkla
- Simulatorn
- SEX
- Mjukvara
- mjukvara som en service
- lösning
- Lösningar
- Källa
- Steg
- förvaring
- lagra
- lagras
- rationalisering
- sådana
- syntetisk
- bord
- Ta
- den där
- Smakämnen
- deras
- sedan
- detta
- hot
- Genom
- till
- dagens
- topp
- Top 10
- överföring
- Överföra
- Transformation
- transformationer
- omvandla
- handledning
- Typ
- under
- förståelse
- unika
- presenterar
- användning
- användningsfall
- Begagnade
- Användare
- med hjälp av
- godkännande
- värde
- Besök
- gå
- genomgång
- vill
- Warehouse
- we
- webb
- webbservice
- vecka
- om
- VEM
- kommer
- fönster
- med
- utan
- fungerar
- världen
- dig
- Din
- Youtube
- zephyrnet