Simplifique la transferencia de datos: Google BigQuery a Amazon S3 mediante Amazon AppFlow | Servicios web de Amazon

Reeditado por Platón

seguidores: 0

En el mundo actual impulsado por los datos, la capacidad de mover y analizar datos sin esfuerzo a través de diversas plataformas es esencial. Flujo de aplicaciones de Amazon, un servicio de integración de datos totalmente administrado, ha estado a la vanguardia de la optimización de la transferencia de datos entre los servicios de AWS, las aplicaciones de software como servicio (SaaS) y ahora Google BigQuery. En esta publicación de blog, exploras lo nuevo Conector de Google BigQuery en Amazon AppFlow y descubra cómo simplifica el proceso de transferencia de datos desde el almacén de datos de Google a Servicio de almacenamiento simple de Amazon (Amazon S3), proporcionando importantes beneficios para las organizaciones y profesionales de datos, incluida la democratización del acceso a datos en múltiples nubes.

Descripción general de Amazon AppFlow

Flujo de aplicaciones de Amazon es un servicio de integración totalmente administrado que puede utilizar para transferir datos de forma segura entre aplicaciones SaaS como Google BigQuery, Salesforce, SAP, Hubspot y ServiceNow, y servicios de AWS como Amazon S3 y Desplazamiento al rojo de Amazon, en tan sólo unos pocos clics. Con Amazon AppFlow, puede ejecutar flujos de datos en casi cualquier escala con la frecuencia que elija: según un cronograma, en respuesta a un evento comercial o según demanda. Puede configurar capacidades de transformación de datos, como filtrado y validación, para generar datos enriquecidos y listos para usar como parte del propio flujo, sin pasos adicionales. Amazon AppFlow cifra automáticamente los datos en movimiento y le permite restringir el flujo de datos a través de la Internet pública para aplicaciones SaaS que están integradas con Enlace privado de AWS, reduciendo la exposición a amenazas a la seguridad.

Presentamos el conector de Google BigQuery

El nuevo Conector de Google BigQuery en Amazon AppFlow revela posibilidades para las organizaciones que buscan utilizar la capacidad analítica del almacén de datos de Google e integrar, analizar, almacenar o procesar datos de BigQuery sin esfuerzo, transformándolos en información procesable.

Arquitectura

Repasemos la arquitectura para transferir datos de Google BigQuery a Amazon S3 usando Amazon AppFlow.

Seleccione una fuente de datos: En Flujo de aplicaciones de Amazon, seleccione Google BigQuery como fuente de datos. Especifique las tablas o conjuntos de datos de los que desea extraer datos.
Mapeo y transformación de campos: configure la transferencia de datos utilizando la interfaz visual intuitiva de Amazon AppFlow. Puede asignar campos de datos y aplicar transformaciones según sea necesario para alinear los datos con sus requisitos.
Frecuencia de transferencia: decida con qué frecuencia desea transferir datos (por ejemplo, diaria, semanal o mensual), lo que respalda la flexibilidad y la automatización.
Destino: especifique un depósito de S3 como destino de sus datos. Amazon AppFlow moverá los datos de manera eficiente, haciéndolos accesibles en su almacenamiento de Amazon S3.
Consumo: Uso Atenea amazónica para analizar los datos en Amazon S3.

Requisitos previos

El conjunto de datos utilizado en esta solución es generado por Sintea, un simulador sintético de población de pacientes y un proyecto de código abierto bajo el Licencia Apache 2.0. Cargue estos datos en Google BigQuery o utilice su conjunto de datos existente.

Conecte Amazon AppFlow a su cuenta de Google BigQuery

Para esta publicación, utiliza una cuenta de Google, un cliente OAuth con los permisos adecuados y datos de Google BigQuery. Para habilitar el acceso a Google BigQuery desde Amazon AppFlow, debe configurar un nuevo cliente OAuth con anticipación. Para obtener instrucciones, consulte Conector de Google BigQuery para Amazon AppFlow.

Configurar Amazon S3

Cada objeto de Amazon S3 se almacena en un depósito. Antes de poder almacenar datos en Amazon S3, debe crear un cubo S3 para almacenar los resultados.

Cree un nuevo depósito de S3 para los resultados de Amazon AppFlow

Para crear un depósito de S3, complete los siguientes pasos:

En la consola de administración de AWS para Amazon S3, escoger Crear cubeta.
Ingrese un globalmente único nombre para tu cubo; por ejemplo, appflow-bq-sample.
Elige Crea un cubo.

Cree un nuevo depósito de S3 para los resultados de Amazon Athena

Para crear un depósito de S3, complete los siguientes pasos:

En la consola de administración de AWS para Amazon S3, escoger Crear cubeta.
Ingrese un globalmente único nombre para tu cubo; por ejemplo, athena-results.
Elige Crea un cubo.

Rol de usuario (rol de IAM) para AWS Glue Data Catalog

Para catalogar los datos que transfiere con su flujo, debe tener el rol de usuario adecuado en Administración de acceso e identidad de AWS (IAM). Usted proporciona este rol a Amazon AppFlow para otorgar los permisos que necesita para crear un Catálogo de datos de AWS Glue, tablas, bases de datos y particiones.

Para ver un ejemplo de política de IAM que tiene los permisos necesarios, consulte Ejemplos de políticas basadas en identidad para Amazon AppFlow.

Tutorial del diseño.

Ahora, veamos un caso de uso práctico para ver cómo funciona el conector Amazon AppFlow Google BigQuery a Amazon S3. Para el caso de uso, utilizará Amazon AppFlow para archivar datos históricos de Google BigQuery en Amazon S3 para su almacenamiento y análisis a largo plazo.

Configurar Amazon AppFlow

Cree un nuevo flujo de Amazon AppFlow para transferir datos de Google Analytics a Amazon S3.

En Consola de Amazon AppFlow, escoger Crear flujo.
Ingrese un nombre para su flujo; Por ejemplo, my-bq-flow.
Agregar necesario Etiquetas; por ejemplo, para Clave entrar env y para Valor entrar dev.

Elige Siguiente.
Nombre de la fuente, escoger Google BigQuery.
Elige Crear nueva conexión.
Ingrese su OAuth ID de cliente y Secreto del cliente, luego nombra tu conexión; Por ejemplo, bq-connection.

En la ventana emergente, elija permitir el acceso de amazon.com a la API de Google BigQuery.

Elija el objeto Google BigQuery, escoger Mesa.
Elija el subobjeto de Google BigQuery, escoger Nombre del proyecto de BigQuery.
Elija el subobjeto de Google BigQuery, escoger DatabaseName.
Elija el subobjeto de Google BigQuery, escoger Nombre de tabla.
Nombre del destino, escoger Amazon S3.
Detalles del cubo, elija el depósito de Amazon S3 que creó para almacenar los resultados de Amazon AppFlow en los requisitos previos.
Participar raw como herramienta de edición del prefijo.

A continuación, proporcione Catálogo de datos de AWS Glue configuración para crear una tabla para análisis posteriores.
1. Seleccione Rol de usuario (rol de IAM) creado en los requisitos previos.
2. Crear nuevo base de datos por ejemplo, healthcare.
3. Proporcionar una Tabla de prefijos configurando por ejemplo, bq.

Seleccione Ejecutar bajo demanda.

Elige Siguiente.
Seleccione Asignar campos manualmente.
Seleccione los siguientes seis campos para Nombre del campo de origen de la mesa Alergias:
1. Inicio
2. Pacientes
3. Código
4. Descripción
5. Tipo de Propiedad
6. Categoría
Elige Asignar campos directamente.

Elige Siguiente.
In Agregar filtros sección, elija Siguiente.
Elige Crear flujo.

Ejecuta el flujo

Después de crear su nuevo flujo, puede ejecutarlo según demanda.

En Consola de Amazon AppFlow, escoger my-bq-flow.
Elige Ejecutar flujo.

Para este tutorial, elija ejecutar el trabajo bajo demanda para facilitar su comprensión. En la práctica, puede elegir un trabajo programado y extraer periódicamente sólo los datos recién agregados.

Consulta a través de Amazon Athena

Cuando selecciona la configuración opcional de AWS Glue Data Catalog, Data Catalog crea el catálogo de datos, lo que permite a Amazon Athena realizar consultas.

Si se le solicita que configure una ubicación de resultados de consulta, navegue hasta la Ajustes pestaña y elegir Gestiona. Debajo Administrar configuración, elija el depósito de resultados de Athena creado en los requisitos previos y elija Guardar.

En Consola Amazon Atenea, seleccione la fuente de datos como AWSDataCatalog.
Luego, selecciona Base de datos as healthcare.
Ahora puede seleccionar la tabla creada por el rastreador de AWS Glue y obtener una vista previa de ella.

También puede ejecutar una consulta personalizada para encontrar las 10 alergias principales, como se muestra en la siguiente consulta.

Note: En la siguiente consulta, reemplace el nombre de la tabla, en este caso bq_appflow_mybqflow_1693588670_latest, con el nombre de la tabla generada en su cuenta de AWS.

SELECT type,
category, "description",
count(*) as number_of_cases
FROM "healthcare"."bq_appflow_mybqflow_1693588670_latest"
GROUP BY type,
category, "description"
ORDER BY number_of_cases DESC
LIMIT 10;

Elige Ejecutar consulta.

Este resultado muestra las 10 principales alergias por número de casos.

Limpiar

Para evitar incurrir en cargos, limpie los recursos de su cuenta de AWS completando los siguientes pasos:

En la consola de Amazon AppFlow, elija Flujos en el panel de navegación.
De la lista de flujos, seleccione el flujo my-bq-flowy eliminarlo.
Ingrese eliminar para eliminar el flujo.
Elige Conexiones en el panel de navegación.
Elige Google BigQuery de la lista de conectores, seleccione bq-connectory eliminarlo.
Ingrese eliminar para eliminar el conector.
En la consola de IAM, elija Roles en la página de navegación, luego seleccione el rol que creó para el rastreador de AWS Glue y elimínelo.
En la consola de Amazon Athena:
1. Eliminar las tablas creadas en la base de datos. healthcare utilizando el rastreador de AWS Glue.
2. Suelta la base de datos healthcare
En la consola de Amazon S3, busque el depósito de resultados de Amazon AppFlow que creó, elija Vacío para eliminar los objetos, luego elimine el cubo.
En la consola de Amazon S3, busque el depósito de resultados de Amazon Athena que creó, elija Vacío para eliminar los objetos, luego elimine el cubo.
Limpie los recursos de su cuenta de Google eliminando el proyecto que contiene los recursos de Google BigQuery. Siga la documentación para limpiar los recursos de Google.

Conclusión

El conector Google BigQuery en Amazon AppFlow agiliza el proceso de transferencia de datos desde el almacén de datos de Google a Amazon S3. Esta integración simplifica el análisis y el aprendizaje automático, el archivado y el almacenamiento a largo plazo, lo que brinda importantes beneficios para los profesionales de datos y las organizaciones que buscan aprovechar las capacidades analíticas de ambas plataformas.

Con Amazon AppFlow, se eliminan las complejidades de la integración de datos, lo que le permite concentrarse en obtener información útil a partir de sus datos. Ya sea que esté archivando datos históricos, realizando análisis complejos o preparando datos para el aprendizaje automático, este conector simplifica el proceso y lo hace accesible a una gama más amplia de profesionales de datos.

Si está interesado en ver cómo se transfieren los datos de Google BigQuery a Amazon S3 usando Amazon AppFlow, consulte el paso a paso. tutorial de vídeo. En este tutorial, recorremos todo el proceso, desde configurar la conexión hasta ejecutar el flujo de transferencia de datos. Para obtener más información sobre Amazon AppFlow, visite Flujo de aplicaciones de Amazon.

Sobre los autores

Kartikay Khator es arquitecto de soluciones para ciencias biológicas globales en Amazon Web Services. Le apasiona ayudar a los clientes en su viaje a la nube centrándose en los servicios de análisis de AWS. Es un ávido corredor y le gusta el senderismo.

Kamen Sharlandjiev es un arquitecto senior de soluciones ETL y Big Data y experto en Amazon AppFlow. Su misión es hacer la vida más fácil a los clientes que enfrentan desafíos complejos de integración de datos. ¿Su arma secreta? Servicios de AWS totalmente administrados y de bajo código que pueden realizar el trabajo con el mínimo esfuerzo y sin codificación.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/big-data/simplify-data-transfer-google-bigquery-to-amazon-s3-using-amazon-appflow/

Sello de tiempo: 5 de Octubre de 2023

Sello de tiempo: 8 de marzo, 2023

Simplifique la transferencia de datos: Google BigQuery a Amazon S3 usando Amazon AppFlow | Servicios web de Amazon

Reeditado por Platón

Descripción general de Amazon AppFlow

Presentamos el conector de Google BigQuery

Arquitectura

Requisitos previos

Conecte Amazon AppFlow a su cuenta de Google BigQuery

Configurar Amazon S3

Cree un nuevo depósito de S3 para los resultados de Amazon AppFlow

Cree un nuevo depósito de S3 para los resultados de Amazon Athena

Rol de usuario (rol de IAM) para AWS Glue Data Catalog

Tutorial del diseño.

Configurar Amazon AppFlow

Ejecuta el flujo

Consulta a través de Amazon Athena

Limpiar

Conclusión

Sobre los autores

Mas de Big Data de AWS

Cómo Ontraport redujo el costo de procesamiento de datos en un 80 % con AWS Glue | Servicios web de Amazon

Cree, implemente y ejecute trabajos de Spark en Amazon EMR con la herramienta EMR CLI de código abierto

Modernice una aplicación heredada de análisis en tiempo real con Amazon Managed Service para Apache Flink | Servicios web de Amazon

Mejore los conocimientos operativos para Amazon MSK con Amazon Managed Service for Prometheus y Amazon Managed Grafana

Automatice el proceso de archivado y purga de datos de Amazon RDS para PostgreSQL mediante pg_partman, Amazon S3 y AWS Glue | Servicios web de Amazon

Cree una captura de datos de cambios de extremo a extremo con Amazon MSK Connect y AWS Glue Schema Registry

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta