Vereinfachen Sie die Datenübertragung: Google BigQuery zu Amazon S3 mit Amazon AppFlow | Amazon Web Services

Neuauflage von Plato

Verfolger: 0

In der heutigen datengesteuerten Welt ist die Fähigkeit, Daten mühelos über verschiedene Plattformen hinweg zu verschieben und zu analysieren, von entscheidender Bedeutung. Amazon App-Flow, ein vollständig verwalteter Datenintegrationsdienst, war Vorreiter bei der Optimierung der Datenübertragung zwischen AWS-Diensten, Software-as-a-Service-Anwendungen (SaaS) und jetzt Google BigQuery. In diesem Blogbeitrag erkunden Sie das Neue Google BigQuery-Connector in Amazon AppFlow und entdecken Sie, wie es den Prozess der Datenübertragung aus dem Data Warehouse von Google vereinfacht Einfacher Amazon-Speicherdienst (Amazon S3)Dies bietet erhebliche Vorteile für Datenexperten und -organisationen, einschließlich der Demokratisierung des Multi-Cloud-Datenzugriffs.

Übersicht über Amazon AppFlow

Amazon App-Flow ist ein vollständig verwalteter Integrationsdienst, mit dem Sie Daten sicher zwischen SaaS-Anwendungen wie Google BigQuery, Salesforce, SAP, Hubspot und ServiceNow und AWS-Diensten wie Amazon S3 und übertragen können Amazon RedShift, mit nur wenigen Klicks. Mit Amazon AppFlow können Sie Datenflüsse in nahezu jedem Maßstab und in der von Ihnen gewählten Häufigkeit ausführen – nach einem Zeitplan, als Reaktion auf ein Geschäftsereignis oder nach Bedarf. Sie können Datentransformationsfunktionen wie Filterung und Validierung konfigurieren, um ohne zusätzliche Schritte umfangreiche, gebrauchsfertige Daten als Teil des Flows selbst zu generieren. Amazon AppFlow verschlüsselt automatisch Daten in Bewegung und ermöglicht es Ihnen, den Datenfluss über das öffentliche Internet für integrierte SaaS-Anwendungen einzuschränken AWS PrivateLink, wodurch die Gefährdung durch Sicherheitsbedrohungen verringert wird.

Einführung des Google BigQuery-Connectors

The new Google BigQuery-Connector in Amazon AppFlow eröffnet Möglichkeiten für Unternehmen, die die Analysefunktionen des Data Warehouse von Google nutzen und Daten aus BigQuery mühelos integrieren, analysieren, speichern oder weiterverarbeiten und in umsetzbare Erkenntnisse umwandeln möchten.

Architektur

Sehen wir uns die Architektur zum Übertragen von Daten von Google BigQuery an Amazon S3 mithilfe von Amazon AppFlow an.

Wählen Sie eine Datenquelle aus: In Amazon App-Flow, wählen Sie Google BigQuery als Datenquelle aus. Geben Sie die Tabellen oder Datensätze an, aus denen Sie Daten extrahieren möchten.
Feldzuordnung und -transformation: Konfigurieren Sie die Datenübertragung mithilfe der intuitiven visuellen Oberfläche von Amazon AppFlow. Sie können Datenfelder zuordnen und bei Bedarf Transformationen anwenden, um die Daten an Ihre Anforderungen anzupassen.
Übertragungshäufigkeit: Entscheiden Sie, wie häufig Sie Daten übertragen möchten – z. B. täglich, wöchentlich oder monatlich – und unterstützen Sie so Flexibilität und Automatisierung.
Ziel: Geben Sie einen S3-Bucket als Ziel für Ihre Daten an. Amazon AppFlow verschiebt die Daten effizient und macht sie in Ihrem Amazon S3-Speicher zugänglich.
Verbrauch: Nutzung Amazonas Athena um die Daten in Amazon S3 zu analysieren.

Voraussetzungen:

Das in dieser Lösung verwendete Dataset wird generiert von Synthea, ein synthetischer Patientenpopulationssimulator und Open-Source-Projekt unter dem Apache-Lizenz 2.0. Laden Sie diese Daten in Google BigQuery oder verwenden Sie Ihren vorhandenen Datensatz.

Verbinden Sie Amazon AppFlow mit Ihrem Google BigQuery-Konto

Für diesen Beitrag verwenden Sie ein Google-Konto, einen OAuth-Client mit entsprechenden Berechtigungen und Google BigQuery-Daten. Um den Zugriff auf Google BigQuery über Amazon AppFlow zu ermöglichen, müssen Sie im Voraus einen neuen OAuth-Client einrichten. Anweisungen finden Sie unter Google BigQuery-Connector für Amazon AppFlow.

Richten Sie Amazon S3 ein

Jedes Objekt in Amazon S3 wird in einem Bucket gespeichert. Bevor Sie Daten in Amazon S3 speichern können, müssen Sie dies tun Erstellen Sie einen S3-Bucket um die Ergebnisse zu speichern.

Erstellen Sie einen neuen S3-Bucket für Amazon AppFlow-Ergebnisse

Führen Sie die folgenden Schritte aus, um einen S3-Bucket zu erstellen:

Auf der AWS-Managementkonsole für Amazon S3, wählen Eimer erstellen.
Geben Sie ein weltweit eindeutiges ein Name für Ihren Eimer; beispielsweise, appflow-bq-sample.
Auswählen Eimer erstellen.

Erstellen Sie einen neuen S3-Bucket für Amazon Athena-Ergebnisse

Führen Sie die folgenden Schritte aus, um einen S3-Bucket zu erstellen:

Auf der AWS-Managementkonsole für Amazon S3, wählen Eimer erstellen.
Geben Sie ein weltweit eindeutiges ein Name für Ihren Eimer; beispielsweise, athena-results.
Auswählen Eimer erstellen.

Benutzerrolle (IAM-Rolle) für AWS Glue Data Catalog

Um die Daten zu katalogisieren, die Sie mit Ihrem Flow übertragen, müssen Sie über die entsprechende Benutzerrolle verfügen AWS Identitäts- und Zugriffsverwaltung (IAM). Sie stellen Amazon AppFlow diese Rolle zur Verfügung, um die Berechtigungen zu erteilen, die zum Erstellen eines benötigt werden AWS Glue-Datenkatalog, Tabellen, Datenbanken und Partitionen.

Eine Beispiel-IAM-Richtlinie mit den erforderlichen Berechtigungen finden Sie unter Beispiele für identitätsbasierte Richtlinien für Amazon AppFlow.

Exemplarische Vorgehensweise zum Entwurf

Lassen Sie uns nun einen praktischen Anwendungsfall durchgehen, um zu sehen, wie der Amazon AppFlow Google BigQuery-zu-Amazon-S3-Connector funktioniert. Für den Anwendungsfall verwenden Sie Amazon AppFlow, um historische Daten von Google BigQuery zur Langzeitspeicherung und Analyse in Amazon S3 zu archivieren.

Richten Sie Amazon AppFlow ein

Erstellen Sie einen neuen Amazon AppFlow-Flow, um Daten von Google Analytics an Amazon S3 zu übertragen.

Auf dem Amazon AppFlow-Konsole, wählen Fluss erzeugen.
Geben Sie einen Namen für Ihren Flow ein. Zum Beispiel, my-bq-flow.
Notwendig hinzufügen Schlüsselwörter; zum Beispiel für Wesentliche eingeben env und für Wert eingeben dev.

Auswählen Weiter.
Aussichten für Quellenname, wählen Google BigQuery.
Auswählen Neue Verbindung erstellen.
Geben Sie Ihren OAuth ein Kunden-ID und Kundengeheimnis, dann benennen Sie Ihre Verbindung; Zum Beispiel, bq-connection.

Wählen Sie im Popup-Fenster aus, ob Sie amazon.com Zugriff auf die Google BigQuery-API gewähren möchten.

Aussichten für Wählen Sie das Google BigQuery-Objekt, wählen Tisch.
Aussichten für Wählen Sie das Unterobjekt „Google BigQuery“ aus, wählen BigQueryProjectName.
Aussichten für Wählen Sie das Unterobjekt „Google BigQuery“ aus, wählen Datenbankname.
Aussichten für Wählen Sie das Unterobjekt „Google BigQuery“ aus, wählen Tabellenname.
Aussichten für Zielname, wählen Amazon S3.
Aussichten für Bucket-Details, wählen Sie den Amazon S3-Bucket aus, den Sie zum Speichern von Amazon AppFlow-Ergebnissen in den Voraussetzungen erstellt haben.
Enter raw als ein Präfix.

Als nächstes stellen Sie bereit AWS Glue-Datenkatalog Einstellungen, um eine Tabelle für die weitere Analyse zu erstellen.
1. Wähle aus Benutzer-Rolle (IAM-Rolle), die in den Voraussetzungen erstellt wurde.
2. Neues Datenbank zum Beispiel, healthcare.
3. Bieten eine Tabellenpräfix Einstellung zum Beispiel, bq.

Auswählen Bei Bedarf ausführen.

Auswählen Weiter.
Auswählen Felder manuell zuordnen.
Wählen Sie die folgenden sechs Felder aus Quellfeldname Aus der Tabelle Allergien:
1. Startseite
2. Patient
3. Code
4. Beschreibung
5. Typ
6. Kategorie
Auswählen Felder direkt zuordnen.

Auswählen Weiter.
In die Filter hinzufügen Wählen Sie im Abschnitt Weiter.
Auswählen Fluss erzeugen.

Führen Sie den Flow aus

Nachdem Sie Ihren neuen Flow erstellt haben, können Sie ihn bei Bedarf ausführen.

Auf dem Amazon AppFlow-Konsole, wählen my-bq-flow.
Auswählen Ablauf ausführen.

Wählen Sie für diese exemplarische Vorgehensweise zum besseren Verständnis die Option „Auftrag bei Bedarf ausführen“. In der Praxis können Sie einen geplanten Job auswählen und regelmäßig nur neu hinzugefügte Daten extrahieren.

Abfrage über Amazon Athena

Wenn Sie die optionalen AWS Glue Data Catalog-Einstellungen auswählen, erstellt Data Catalog den Katalog für die Daten, sodass Amazon Athena Abfragen durchführen kann.

Wenn Sie aufgefordert werden, einen Speicherort für Abfrageergebnisse zu konfigurieren, navigieren Sie zu Einstellungen Tab und wählen Verwalten. Unter Einstellungen verwalten, wählen Sie den in den Voraussetzungen erstellten Athena-Ergebnis-Bucket aus und wählen Sie Speichern.

Auf dem Amazon Athena-Konsole, wählen Sie die Datenquelle als aus AWSDataCatalog.
Als nächstes wählen Sie Datenbase as healthcare.
Jetzt können Sie die vom AWS Glue-Crawler erstellte Tabelle auswählen und eine Vorschau anzeigen.

Sie können auch eine benutzerdefinierte Abfrage ausführen, um die zehn häufigsten Allergien zu finden, wie in der folgenden Abfrage dargestellt.

Note: Ersetzen Sie in der folgenden Abfrage den Tabellennamen bq_appflow_mybqflow_1693588670_latest, mit dem Namen der in Ihrem AWS-Konto generierten Tabelle.

SELECT type,
category, "description",
count(*) as number_of_cases
FROM "healthcare"."bq_appflow_mybqflow_1693588670_latest"
GROUP BY type,
category, "description"
ORDER BY number_of_cases DESC
LIMIT 10;

Auswählen Abfrage ausführen.

Dieses Ergebnis zeigt die Top-10-Allergien nach Fallzahlen.

Aufräumen

Um Gebühren zu vermeiden, bereinigen Sie die Ressourcen in Ihrem AWS-Konto, indem Sie die folgenden Schritte ausführen:

Wählen Sie in der Amazon AppFlow-Konsole aus Fließt im Navigationsbereich.
Wählen Sie aus der Flow-Liste den Flow aus my-bq-flow, und löschen Sie es.
Geben Sie delete ein, um den Flow zu löschen.
Auswählen Verbindungen im Navigationsbereich.
Auswählen Google BigQuery Wählen Sie aus der Liste der Konnektoren aus bq-connector, und löschen Sie es.
Geben Sie delete ein, um den Connector zu löschen.
Wählen Sie in der IAM-Konsole Rollen Wählen Sie dann auf der Navigationsseite die Rolle aus, die Sie für den AWS Glue-Crawler erstellt haben, und löschen Sie sie.
Auf der Amazon Athena-Konsole:
1. Löschen Sie die unter der Datenbank erstellten Tabellen healthcare Verwendung des AWS Glue-Crawlers.
2. Löschen Sie die Datenbank healthcare
Suchen Sie in der Amazon S3-Konsole nach dem von Ihnen erstellten Amazon AppFlow-Ergebnis-Bucket und wählen Sie „ leer um die Objekte zu löschen, löschen Sie dann den Bucket.
Suchen Sie auf der Amazon S3-Konsole nach dem von Ihnen erstellten Amazon Athena-Ergebnis-Bucket und wählen Sie „ leer um die Objekte zu löschen, löschen Sie dann den Bucket.
Bereinigen Sie die Ressourcen in Ihrem Google-Konto, indem Sie das Projekt löschen, das die Google BigQuery-Ressourcen enthält. Befolgen Sie die Dokumentation, um Bereinigen Sie die Google-Ressourcen.

Zusammenfassung

Der Google BigQuery-Connector in Amazon AppFlow optimiert den Prozess der Datenübertragung vom Google Data Warehouse zu Amazon S3. Diese Integration vereinfacht Analysen und maschinelles Lernen, Archivierung und Langzeitspeicherung und bietet erhebliche Vorteile für Datenexperten und Organisationen, die die Analysefunktionen beider Plattformen nutzen möchten.

Mit Amazon AppFlow entfällt die Komplexität der Datenintegration, sodass Sie sich darauf konzentrieren können, aus Ihren Daten umsetzbare Erkenntnisse abzuleiten. Unabhängig davon, ob Sie historische Daten archivieren, komplexe Analysen durchführen oder Daten für maschinelles Lernen vorbereiten, vereinfacht dieser Connector den Prozess und macht ihn einem breiteren Spektrum von Datenexperten zugänglich.

Wenn Sie sehen möchten, wie die Datenübertragung von Google BigQuery zu Amazon S3 mithilfe von Amazon AppFlow erfolgt, schauen Sie sich die Schritt-für-Schritt-Anleitung an Video-Tutorial. In diesem Tutorial durchlaufen wir den gesamten Prozess, vom Einrichten der Verbindung bis zum Ausführen des Datenübertragungsflusses. Weitere Informationen zu Amazon AppFlow finden Sie unter Amazon App-Flow.

Über die Autoren

Kartikay Khator ist Lösungsarchitekt für Global Life Science bei Amazon Web Services. Es ist ihm eine Leidenschaft, Kunden auf ihrer Cloud-Reise zu unterstützen, wobei der Schwerpunkt auf AWS-Analysediensten liegt. Er ist ein begeisterter Läufer und geht gerne wandern.

Kamen Sharlandjiev ist Senior Big Data and ETL Solutions Architect und Amazon AppFlow-Experte. Seine Mission ist es, Kunden, die vor komplexen Herausforderungen bei der Datenintegration stehen, das Leben zu erleichtern. Seine Geheimwaffe? Vollständig verwaltete Low-Code-AWS-Services, die Ihre Arbeit mit minimalem Aufwand und ohne Programmieraufwand erledigen können.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/big-data/simplify-data-transfer-google-bigquery-to-amazon-s3-using-amazon-appflow/

Zeitstempel: 5. Oktober 2023

Zeitstempel: 27. April 2023

Datenübertragung vereinfachen: Google BigQuery zu Amazon S3 mit Amazon AppFlow | Amazon Web Services

Neuauflage von Plato

Übersicht über Amazon AppFlow

Einführung des Google BigQuery-Connectors

Architektur

Voraussetzungen:

Verbinden Sie Amazon AppFlow mit Ihrem Google BigQuery-Konto

Richten Sie Amazon S3 ein

Erstellen Sie einen neuen S3-Bucket für Amazon AppFlow-Ergebnisse

Erstellen Sie einen neuen S3-Bucket für Amazon Athena-Ergebnisse

Benutzerrolle (IAM-Rolle) für AWS Glue Data Catalog

Exemplarische Vorgehensweise zum Entwurf

Richten Sie Amazon AppFlow ein

Führen Sie den Flow aus

Abfrage über Amazon Athena

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Big Data

Vereinfachen Sie OLAP-Abfragen (Online Analytical Processing) in Amazon Redshift mithilfe neuer SQL-Konstrukte wie ROLLUP, CUBE und GROUPING SETS

Konfigurieren Sie ADFS Identity Federation mit Amazon QuickSight

Das AWS Specialist Insights Team verwendet Amazon QuickSight, um betriebliche Einblicke in die gesamte AWS Worldwide Specialist Organization bereitzustellen

Arbeiten mit Perkolatoren im Amazon OpenSearch Service

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto