在当今数据驱动的世界中,跨不同平台轻松移动和分析数据的能力至关重要。 亚马逊AppFlow是一项完全托管的数据集成服务,一直处于简化 AWS 服务、软件即服务 (SaaS) 应用程序和现在的 Google BigQuery 之间数据传输的最前沿。 在这篇博文中,您将探索新的 Google BigQuery 连接器 Amazon AppFlow 并了解它如何简化将数据从 Google 数据仓库传输到 亚马逊简单存储服务(Amazon S3),为数据专业人员和组织提供显着的好处,包括多云数据访问的民主化。
Amazon AppFlow 概述
亚马逊AppFlow 是一项完全托管的集成服务,您可以使用它在 SaaS 应用程序(例如 Google BigQuery、Salesforce、SAP、Hubspot 和 ServiceNow)与 AWS 服务(例如 Amazon S3 和 亚马逊Redshift,只需点击几下。 借助 Amazon AppFlow,您可以按您选择的频率(按计划、响应业务事件或按需)运行几乎任何规模的数据流。 您可以配置数据转换功能(例如过滤和验证),以生成丰富的、随时可用的数据作为流程本身的一部分,而无需执行其他步骤。 Amazon AppFlow 自动加密动态数据,并允许您限制与集成的 SaaS 应用程序的数据在公共互联网上流动 AWS私有链接,减少安全威胁。
Google BigQuery 连接器简介
新的 Google BigQuery 连接器 Amazon AppFlow 为寻求使用 Google 数据仓库分析功能的组织提供了可能性,并轻松集成、分析、存储或进一步处理来自 BigQuery 的数据,将其转化为可操作的见解。
建筑
让我们回顾一下使用 Amazon AppFlow 将数据从 Google BigQuery 传输到 Amazon S3 的架构。
- 选择数据源:在 亚马逊AppFlow,选择 Google BigQuery 作为您的数据源。 指定要从中提取数据的表或数据集。
- 字段映射和转换:使用 Amazon AppFlow 直观的可视化界面配置数据传输。 您可以根据需要映射数据字段并应用转换,以使数据符合您的要求。
- 传输频率:决定传输数据的频率(例如每天、每周或每月)以支持灵活性和自动化。
- 目标:指定 S3 存储桶作为数据的目标。 Amazon AppFlow 将高效地移动数据,使其可以在您的 Amazon S3 存储中访问。
- 消耗:使用 亚马逊雅典娜 分析 Amazon S3 中的数据。
先决条件
此解决方案中使用的数据集由 合成,一个合成患者群体模拟器和开源项目 Apache许可2.0。 将此数据加载到 Google BigQuery 中或使用您现有的数据集。
将 Amazon AppFlow 连接到您的 Google BigQuery 帐户
在本文中,您将使用 Google 帐户、具有适当权限的 OAuth 客户端以及 Google BigQuery 数据。 要启用从 Amazon AppFlow 访问 Google BigQuery,您必须提前设置新的 OAuth 客户端。 有关说明,请参阅 适用于 Amazon AppFlow 的 Google BigQuery 连接器.
设置亚马逊 S3
Amazon S3 中的每个对象都存储在一个存储桶中。 在 Amazon S3 中存储数据之前,您必须 创建一个S3存储桶 存储结果。
为 Amazon AppFlow 结果创建新的 S3 存储桶
要创建 S3 存储桶,请完成以下步骤:
- 在 AWS 管理控制台上 Amazon S3,选择 创建存储桶.
- 输入一个全球唯一的 您的存储桶的名称; 例如,
appflow-bq-sample
. - 创建存储桶。
为 Amazon Athena 结果创建新的 S3 存储桶
要创建 S3 存储桶,请完成以下步骤:
- 在 AWS 管理控制台上 Amazon S3,选择 创建存储桶.
- 输入一个全球唯一的 您的存储桶的名称; 例如,
athena-results
. - 创建存储桶。
AWS Glue 数据目录的用户角色(IAM 角色)
要对随流传输的数据进行编目,您必须具有适当的用户角色 AWS身份和访问管理(IAM)。 您将此角色提供给 Amazon AppFlow 以授予其创建应用程序所需的权限 AWS Glue数据目录、表、数据库和分区。
有关具有所需权限的 IAM 策略示例,请参阅 Amazon AppFlow 基于身份的策略示例。
设计演练
现在,让我们通过一个实际用例来了解 Amazon AppFlow Google BigQuery 到 Amazon S3 连接器的工作原理。 对于该用例,您将使用 Amazon AppFlow 将历史数据从 Google BigQuery 存档到 Amazon S3,以进行长期存储和分析。
设置 Amazon AppFlow
创建新的 Amazon AppFlow 流以将数据从 Google Analytics 传输到 Amazon S3。
- 点击 Amazon AppFlow 控制台,选择 创建流程.
- 输入流程的名称; 例如,
my-bq-flow
. - 添加必要 标签; 例如,对于 键 进入
env
和为 值 进入dev
.
- 下一页.
- 针对 来源名称,选择 Google BigQuery.
- 创建新连接.
- 输入您的 OAuth 客户ID 和 客户机密,然后命名您的连接; 例如,
bq-connection
.
- 在弹出窗口中,选择允许 amazon.com 访问 Google BigQuery API。
- 针对 选择 Google BigQuery 对象,选择 表.
- 针对 选择 Google BigQuery 子对象,选择 BigQuery项目名称.
- 针对 选择 Google BigQuery 子对象,选择 数据库名称.
- 针对 选择 Google BigQuery 子对象,选择 表名.
- 针对 目的地名称,选择 Amazon S3.
- 针对 桶详情,在先决条件中选择您创建的用于存储 Amazon AppFlow 结果的 Amazon S3 存储桶。
- 输入
raw
作为一个 字首.
- 接下来,提供 AWS Glue数据目录 设置以创建表格以供进一步分析。
- 点击 用户角色 (IAM 角色)在先决条件中创建。
- 创建新 数据库 例如,
healthcare
. - 提供一个 表前缀 设置例如,
bq
.
- 选择 按需运行.
- 下一步。
- 选择 手动映射字段.
- 选择以下六个字段 源字段名称 从表 过敏:
- Start 开始
- 病人
- 代码
- 课程描述
- Type
- 产品类别
- 直接映射字段.
- 下一页.
- In 添加过滤器 部分中,选择 下一页.
- 创建流程.
运行流
创建新流程后,您可以按需运行它。
- 点击 Amazon AppFlow 控制台,选择
my-bq-flow
. - 运行流程.
对于本演练,选择按需运行作业以便于理解。 在实践中,您可以选择计划作业并定期仅提取新添加的数据。
通过Amazon Athena查询
当您选择可选的 AWS Glue 数据目录设置时,数据目录会创建数据目录,从而允许 Amazon Athena 执行查询。
如果系统提示您配置查询结果位置,请导航至 个人设置 标签并选择 管理。 下 管理设置,选择在先决条件中创建的 Athena 结果存储桶,然后选择 保存.
- 点击 亚马逊雅典娜控制台,选择数据源为
AWSDataCatalog
. - 接下来,选择 数据库 as
healthcare
. - 现在您可以选择 AWS Glue 爬网程序创建的表并进行预览。
- 您还可以运行自定义查询来查找前 10 种过敏,如以下查询所示。
备注:在下面的查询中,替换表名,本例中 bq_appflow_mybqflow_1693588670_latest
,以及您的 AWS 账户中生成的表的名称。
- 运行查询.
此结果按病例数显示前 10 种过敏。
清理
为避免产生费用,请完成以下步骤来清理您的 AWS 账户中的资源:
- 在Amazon AppFlow控制台上,选择 流动 在导航窗格中。
- 从流列表中,选择流
my-bq-flow
, 并将其删除。 - 输入 delete 以删除流。
- 连接 在导航窗格中。
- Google BigQuery 从连接器列表中,选择
bq-connector
, 并将其删除。 - 输入 delete 以删除连接器。
- 在IAM控制台上,选择 角色 在导航页面中,然后选择您为 AWS Glue 爬网程序创建的角色并将其删除。
- 在 Amazon Athena 控制台上:
- 删除数据库下创建的表
healthcare
使用 AWS Glue 爬网程序。 - 删除数据库
healthcare
- 删除数据库下创建的表
- 在 Amazon S3 控制台上,搜索您创建的 Amazon AppFlow 结果存储桶,选择 空的 删除对象,然后删除存储桶。
- 在 Amazon S3 控制台上,搜索您创建的 Amazon Athena 结果存储桶,选择 空的 删除对象,然后删除存储桶。
- 通过删除包含 Google BigQuery 资源的项目来清理 Google 帐户中的资源。 按照文档进行操作 清理Google资源.
结论
Amazon AppFlow 中的 Google BigQuery 连接器简化了将数据从 Google 数据仓库传输到 Amazon S3 的过程。 这种集成简化了分析和机器学习、归档和长期存储,为寻求利用两个平台的分析功能的数据专业人员和组织提供了显着的好处。
借助 Amazon AppFlow,消除了数据集成的复杂性,使您能够专注于从数据中获取可行的见解。 无论您是归档历史数据、执行复杂分析还是为机器学习准备数据,此连接器都可以简化流程,让更广泛的数据专业人员可以使用它。
如果您有兴趣了解如何使用 Amazon AppFlow 将数据从 Google BigQuery 传输到 Amazon S3,请查看分步说明 视频教程。 在本教程中,我们将介绍从设置连接到运行数据传输流的整个过程。 有关 Amazon AppFlow 的更多信息,请访问 亚马逊AppFlow.
关于作者
卡蒂凯·哈托尔 是 Amazon Web Services 全球生命科学的解决方案架构师。 他热衷于帮助客户踏上云之旅,重点关注 AWS 分析服务。 他是一位狂热的跑步者,喜欢徒步旅行。
卡门·沙兰德吉耶夫 是高级大数据和 ETL 解决方案架构师和 Amazon AppFlow 专家。 他的使命是让面临复杂数据集成挑战的客户的生活变得更轻松。 他的秘密武器? 完全托管、低代码的 AWS 服务可以以最少的努力完成工作,无需编码。
- :具有
- :是
- $UP
- 10
- 100
- 14
- 16
- 17
- 22
- 321
- 8
- 9
- a
- 对,能力--
- 关于
- ACCESS
- 访问管理
- 无障碍
- 账号管理
- 横过
- 加
- 添加
- 额外
- 推进
- 对齐
- 过敏
- 让
- 允许
- 允许
- 还
- Amazon
- 亚马逊雅典娜
- 亚马逊网络服务
- Amazon.com
- an
- 分析
- 分析
- 分析
- 分析
- 和
- 任何
- API
- 应用领域
- 使用
- 适当
- 架构
- 档案
- 保健
- AS
- At
- 自动
- 自动化和干细胞工程
- 避免
- AWS
- AWS胶水
- AWS管理控制台
- 很
- before
- 如下。
- 好处
- 之间
- 大
- 大数据运用
- BigQuery的
- 博客
- 都
- 更广泛
- 商业
- by
- CAN
- 可以得到
- 能力
- 能力
- 案件
- 例
- 检索目录
- 产品类别
- 挑战
- 收费
- 客户
- 云端技术
- 编码
- COM的
- 完成
- 完成
- 复杂
- 复杂性
- 地都
- 安慰
- 包含
- 履带
- 创建信息图
- 创建
- 创建
- 创造
- 习俗
- 合作伙伴
- 每天
- data
- 数据访问
- 数据集成
- 数据仓库
- 数据驱动
- 数据库
- 数据库
- 数据集
- 决定
- 需求
- 民主化
- 描述
- 目的地
- 通过各种方式找到
- 不同
- 文件
- 完成
- 缓解
- 更容易
- 有效
- 努力
- 费力
- 淘汰
- enable
- 使
- 整个
- 必要
- 醚(ETH)
- 活动
- 例子
- 例子
- 现有
- 技术专家
- 探索
- 曝光
- 提取
- 面对
- 少数
- 部分
- 字段
- 过滤
- 找到最适合您的地方
- 高度灵活
- 流
- 流动
- 流动
- 专注焦点
- 遵循
- 以下
- 针对
- 第一线
- 频率
- 频繁
- 止
- 充分
- 进一步
- 生成
- 产生
- 得到
- 全球
- 在全球范围内
- 谷歌
- Google Analytics
- 谷歌的
- 授予
- 团队
- 马具
- 有
- he
- 医疗保健
- 帮助
- 徒步旅行
- 他的
- 历史的
- 创新中心
- HTML
- HTTP
- HTTPS
- HubSpot
- IAM
- 身分
- 身份和访问管理
- in
- 包含
- 信息
- 可行的洞见
- 说明
- 整合
- 集成
- 积分
- 有兴趣
- 接口
- 网络
- 成
- 直观的
- IT
- 本身
- 工作
- 旅程
- 只是
- 学习
- 执照
- 生活
- 生命科学
- 极限
- 清单
- 加载
- 圖書分館的位置
- 长期
- 看
- 机
- 机器学习
- 使
- 制作
- 管理
- 颠覆性技术
- 地图
- 制图
- 最小
- 使命
- 更多
- 运动
- 移动
- 必须
- 姓名
- 导航
- 旅游导航
- 几乎
- 必要
- 打印车票
- 需要
- 全新
- 新
- 没有
- 现在
- 数
- OAuth的
- 对象
- 对象
- of
- on
- 点播
- 仅由
- 开源
- or
- 秩序
- 组织
- 超过
- 页
- 面包
- 部分
- 多情
- 病人
- 演出
- 执行
- 权限
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 政策
- 弹出式
- 人口
- 可能性
- 帖子
- 实用
- 在练习上
- 准备
- 先决条件
- 预览
- 过程
- 专业人士
- 项目
- 提供
- 优
- 国家
- 查询
- 范围
- 减少
- 更换
- 必须
- 岗位要求
- 资源
- 响应
- 限制
- 导致
- 成果
- 检讨
- 丰富
- 角色
- 运行
- 亚军
- 运行
- SaaS的
- Salesforce的
- 树液
- 鳞片
- 始你
- 预定
- 科学
- 搜索
- 秘密
- 部分
- 安全
- 保安
- 安全威胁
- 看到
- 寻求
- 服务
- ServiceNow
- 特色服务
- 集
- 设置
- 设置
- 如图
- 作品
- 显著
- 简易
- 简化
- 模拟器
- SIX
- 软件
- 软件作为一种服务
- 方案,
- 解决方案
- 来源
- 步骤
- 存储
- 商店
- 存储
- 精简
- 这样
- 合成的
- 表
- 采取
- 这
- 其
- 然后
- Free Introduction
- 威胁
- 通过
- 至
- 今天的
- 最佳
- 返回顶部
- 转让
- 传输
- 转型
- 转换
- 转型
- 教程
- 类型
- 下
- 理解
- 独特
- 推出
- 使用
- 用例
- 用过的
- 用户
- 运用
- 验证
- 折扣值
- 参观
- 走
- 演练
- 想
- 仓库保管
- we
- 卷筒纸
- Web服务
- 每周
- 是否
- WHO
- 将
- 窗口
- 也完全不需要
- 合作
- 世界
- 您
- 您一站式解决方案
- YouTube的
- 和风网