在这篇文章中,我们将探讨如何使用 AWS胶水 Teradata Vantage 的本机连接器可简化数据集成并释放数据的全部潜力。
企业往往依赖 亚马逊简单存储服务 (Amazon S3),用于以经济高效且安全的方式存储来自各种数据源的大量数据。 对于使用 Teradata 进行数据分析的用户来说,通过 Teradata Vantage 的 AWS Glue 本机连接器进行集成可以释放新的可能性。 AWS Glue 增强了数据管理的灵活性和效率,使公司能够将其数据(无论其数据位于何处)与 Teradata 的分析功能无缝集成。 这种新的连接器消除了与配置、安全和管理相关的技术障碍,使公司能够轻松地将其数据集导出或导入到 Teradata Vantage。 因此,企业可以更加专注于从数据中提取有意义的见解,而不是处理复杂的数据集成。
AWS Glue 是一种无服务器数据集成服务,使分析用户可以轻松地发现、准备、移动和集成来自多个来源的数据,以进行分析、机器学习 (ML) 和应用程序开发。 借助 AWS Glue,您可以发现并连接到 100 多个不同的数据源,并在集中式数据目录中管理您的数据。 您可以直观地创建、运行和监控提取、转换和加载 (ETL) 管道,以将数据加载到数据湖中。
Teradata公司 是用于企业分析的领先互联多云数据平台,专注于帮助公司大规模使用整个企业的所有数据。 作为一个 AWS 数据和分析能力 合作伙伴 Teradata 提供完整的云分析和数据平台,包括机器学习平台。
推出适用于 Teradata Vantage 的 AWS Glue 本机连接器
AWS Glue 提供对 Teradata 的支持,可通过 AWS Glue Studio 和 AWS Glue ETL 脚本访问。 借助 AWS Glue Studio,您可以从可视化界面中受益,该界面简化了连接到 Teradata 以及编写、运行和监控 AWS Glue ETL 作业的过程。 对于数据开发人员来说,此支持扩展到 AWS Glue ETL 脚本,您可以在其中使用 Python 或 Scala 创建和管理更具体的数据集成和转换任务。
适用于 Teradata Vantage 的 AWS Glue 本机连接器允许您高效地从 Teradata 读取和写入数据,而无需安装或管理任何连接器库。 您可以在 AWS Glue Studio 的无代码拖放可视界面中添加 Teradata 作为源和目标,或者直接在 AWS Glue ETL 脚本作业中使用连接器。
解决方案概述
在此示例中,您使用 AWS Glue Studio 丰富存储在 Amazon S3 上的数据并将其上传到 Teradata Vantage。 您首先从以下位置加入事件和场地文件 票 数据集。 接下来,您将结果过滤到单个地理区域。 最后,您将精炼后的数据上传到 Teradata Vantage。
TICKIT 数据集跟踪虚构的 TICKIT 网站的销售活动,用户在该网站上在线购买和出售体育赛事、表演和音乐会的门票。 在此数据集中,分析师可以确定门票随时间的变化、卖家的成功率以及最畅销的活动、场地和季节。
在本示例中,您使用 AWS Glue Studio 开发可视化 ETL 管道。 该管道将从 Amazon S3 读取数据,执行转换,然后将转换后的数据加载到 Teradata。 下图说明了这种架构。
在本文结束时,您的可视化 ETL 作业将类似于以下屏幕截图。
先决条件
对于此示例,您应该有权访问现有的 Teradata 数据库终端节点,并且具有 AWS 的网络可达性以及创建表以及加载和查询数据的权限。
AWS Glue 需要对 Teradata 进行网络访问才能读取或写入数据。 如何配置取决于 Teradata 的部署位置和特定的网络配置。 对于部署在 AWS 上的 Teradata,您可能需要配置 VPC 对等 or AWS私有链接、安全组和网络访问控制列表 (NACL),以允许 AWS Glue 通过 TCP 与 Teradata 进行通信。 如果 Teradata 位于 AWS 外部,则网络服务(例如 AWS站点到站点VPN or AWS Direct Connect 可能需要。 由于安全风险,不建议使用公共互联网。 如果您选择公共访问,则在 VPC 后面的 VPC 中运行 AWS Glue 作业会更安全。 NAT网关。 此方法使您能够在网络防火墙上仅允许列出一个传入流量的 IP 地址。 欲了解更多信息,请参阅 AWS Glue 中的基础设施安全.
设置亚马逊 S3
Amazon S3 中的每个对象都存储在一个存储桶中。 在 Amazon S3 中存储数据之前,您必须 创建一个S3存储桶 来存储结果。 完成以下步骤:
- 在Amazon S3控制台上,选择 水桶 在导航窗格中。
- 创建存储桶.
- 针对 姓名,为您的存储桶输入一个全局唯一的名称; 例如,tickit8530923。
- 创建存储桶.
- 下载 票 数据集并解压它。
- 在 S3 存储桶中创建文件夹tickit 并上传 allevents_pipe.txt 和venue_pipe.txt 文件。
配置 Teradata 连接
要从 AWS Glue 连接到 Teradata,请参阅 配置 Teradata 连接.
您必须创建 Teradata 凭证并将其存储在 AWS机密管理器 密钥,然后将该密钥与 Teradata AWS Glue 连接相关联。 我们将在本文后面更详细地讨论这两个步骤。
为 AWS Glue ETL 作业创建 IAM 角色
当您创建 AWS Glue ETL 作业时,您指定 AWS身份和访问管理 作业使用的 (IAM) 角色。 该角色必须授予对作业使用的所有资源的访问权限,包括 Amazon S3(对于任何源、目标、脚本、驱动程序文件和临时目录)和 Secrets Manager。 有关说明,请参阅 为您的 ETL 作业配置 IAM 角色.
在 Teradata 中创建表
使用您首选的数据库工具登录 Teradata。 运行以下代码在 Teradata 中创建将在其中加载数据的表:
存储 Teradata 登录凭据
An AWS Glue 连接 是一个数据目录对象,用于存储登录凭据、URI 字符串等。 Teradata 连接器需要 Secrets Manager 来存储用于连接到 Teradata 的 Teradata 用户名和密码。
要将 Teradata 用户名和密码存储在 Secrets Manager 中,请完成以下步骤:
- 在Secrets Manager控制台上,选择 秘密 在导航窗格中。
- 储存新秘密.
- 选择 其他类型的秘密.
- 输入键/值 USER 并
teradata_user
,然后选择 添加行. - 输入键/值密码并
teradata_user_password
,然后选择 下一页.
- 针对 秘密名称,输入描述性名称,然后选择 下一页.
- 下一页 转到审核步骤,然后选择 线上商城.
在 AWS Glue 中创建 Teradata 连接
现在您已准备好创建与 Teradata 的 AWS Glue 连接。 完成以下步骤:
- 在 AWS Glue 控制台上,选择 连接 下 资料目录 在导航窗格中。
- 创建连接.
- 针对 姓名,输入名称(例如,
teradata_connection
). - 针对 连接类型¸选择 Teradata数据.
- 针对 Teradata 网址,输入
jdbc:teradata://url_of_teradata/database=name_of_your_database
. - 针对 AWS 秘密,使用您之前创建的 Teradata 凭证选择密钥。
创建 AWS Glue 可视化 ETL 作业以转换数据并将其加载到 Teradata
完成以下步骤来创建您的 AWS Glue ETL 作业:
- 在AWS Glue控制台上的 ETL 职位 在导航窗格中,选择 可视化ETL.
- 可视化ETL.
- 选择铅笔图标来输入您的作业名称。
我们增加 venue_pipe.txt
作为我们的第一个数据集。
- 添加节点 并选择 Amazon S3 在 来源 标签。
- 输入以下数据源属性:
- 针对 姓名,进入会场。
- 针对 S3 源类型, 选择 S3位置.
- 针对 S3 网址,输入S3路径
venue_pipe.txt
. - 针对 资料格式,选择 CSV.
- 针对 分隔符,选择 U型槽 .
- 取消选择 源文件的第一行包含列标题.
现在我们添加 allevents_pipe.txt
作为我们的第二个数据集。
- 添加节点 并选择 Amazon S3 在 来源 标签。
- 输入以下数据源属性:
- 针对 姓名,输入事件。
- 针对 S3 源类型, 选择 S3位置.
- 针对 S3 网址,输入S3路径
allevents_pipe.txt
. - 针对 资料格式,选择 CSV.
- 针对 分隔符,选择 U型槽 .
- 取消选择 源文件的第一行包含列标题.
接下来,我们重命名 Venue 数据集的列。
- 添加节点 并选择 改变模式 在 变换 标签。
- 输入以下变换属性:
- 针对 姓名,输入重命名场地数据。
- 针对 节点父节点,选择场地。
- 在 改变模式 部分,将源键映射到目标键:
- 列0:
venueid
- 列1:
venuename
- 列2:
venuecity
- 列3:
venuestate
- 列4:
venueseats
- 列0:
现在我们将 Venue 数据集过滤到特定的地理区域。
- 添加节点 并选择 筛选器 在 变换 标签。
- 输入以下变换属性:
- 针对 姓名,输入位置过滤器。
- 针对 节点父节点,选择场地。
- 针对 过滤条件,选择
venuestate
键,选择 火柴 操作,然后输入 DC 值.
现在我们重命名事件数据集中的列。
- 添加节点 并选择 改变模式 在 变换 标签。
- 输入以下变换属性:
- 针对 姓名,输入重命名事件数据。
- 针对 节点父节点,选择事件。
- 在 改变模式 部分,将源键映射到目标键:
- 列0:
eventid
- 列1:
e_venueid
- 列2:
catid
- 列3:
dateid
- 列4:
eventname
- 列5:
starttime
- 列0:
接下来,我们加入场地和事件数据集。
- 添加节点 并选择 加入 在 变换 标签。
- 输入以下变换属性:
- 针对 姓名,输入加入。
- 针对 节点父节点,选择位置过滤器和重命名事件数据。
- 针对 联接类型¸选择 内部联接.
- 针对 加盟条件,选择
venueid
位置过滤器 和e_venueid
重命名事件数据.
现在我们删除重复的列。
- 添加节点 并选择 改变模式 在 变换 标签。
- 输入以下变换属性:
- 针对 姓名,输入丢弃列。
- 针对 节点父节点,选择加入。
- 在 改变模式 部分,选择 下降
e_venueid
.
接下来,我们将数据加载到 Teradata 表中。
- 添加节点 并选择 Teradata数据 在 目标 标签。
- 输入以下数据接收器属性:
- 针对 姓名,输入 Teradata。
- 针对 节点父节点,选择删除列。
- 针对 Teradata 连接,选择
teradata_connection
. - 针对 表名,输入
schema.tablename
您在 Teradata 中创建的表的名称。
最后,我们运行作业并将数据加载到 Teradata 中。
- 保存,然后选择 运行.
横幅将显示作业已开始。
- 运行,它显示作业的状态。
运行状态将更改为 得手 当工作完成时。
- 连接到 Teradata,然后查询已加载数据的表。
从两个数据集中过滤和连接的数据将显示在表中。
清理
为了避免因在本文中创建的资源而产生额外费用,请确保删除您在 AWS 账户中为本篇文章创建的项目:
- 为 Teradata 凭证创建的 Secrets Manager 密钥
- 适用于 Teradata Vantage 的 AWS Glue 本机连接器
- S3存储桶中加载的数据
- AWS Glue 可视化 ETL 作业
结论
在本文中,您使用 AWS Glue 创建了与 Teradata 的连接,然后创建了一个 AWS Glue 作业以将数据转换并加载到 Teradata 中。 适用于 Teradata Vantage 的 AWS Glue 本机连接器为您的数据与 Teradata 集成提供无缝且高效的途径,从而助力您的数据分析之旅。 AWS Glue 中的这项新功能不仅简化了您的数据集成工作流程,还为高级分析、商业智能和机器学习创新开辟了新途径。
借助 AWS Teradata Connector,您可以使用最佳工具来简化数据集成任务。 无论您希望将 Amazon S3 数据加载到 Teradata 中进行分析、报告还是业务洞察,这个新的连接器都可以简化流程,使其更易于访问且更具成本效益。
要开始使用 AWS Glue,请参阅 AWS Glue 入门.
作者简介
卡门·沙兰德吉耶夫 是高级大数据和 ETL 解决方案架构师和 AWS Glue 专家。 他的使命是让面临复杂数据集成挑战的客户的生活变得更轻松。 他的秘密武器? 完全托管、低代码的 AWS 服务可以以最少的努力完成工作,无需编码。 在 LinkedIn 上关注 Kamen,了解最新的 AWS Glue 新闻!
肖恩·比尤斯特罗姆 是 Amazon Web Services ISV 帐户的技术客户经理,他专门研究分析技术,并利用自己的咨询背景为客户的分析和云之旅提供支持。 Sean 热衷于帮助企业利用数据的力量来推动创新和增长。 工作之余,他喜欢跑步,参加过多次马拉松比赛。
维诺德·贾延德拉 是 Amazon Web Services ISV 帐户的企业支持主管,帮助客户解决架构、运营和成本优化挑战。 他特别关注无服务器技术,利用自己在应用程序开发方面的丰富背景来帮助客户构建顶级解决方案。 除了工作之外,他还享受优质的家庭时光、骑自行车探险以及担任青少年运动队的教练。
道格·姆巴亚 是一位高级合作伙伴解决方案架构师,专注于分析和机器学习。 Doug 与 AWS 合作伙伴密切合作,帮助他们将其解决方案与云中的 AWS 分析和机器学习解决方案集成。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/prepare-and-load-amazon-s3-data-into-teradata-using-aws-glue-through-its-native-connector-for-teradata-vantage/
- :具有
- :是
- :不是
- :在哪里
- $UP
- 10
- 100
- 12
- 14
- 16
- 19
- 20
- 22
- 25
- 361
- 400
- 8
- a
- 关于
- ACCESS
- 无障碍
- 账号管理
- 账户
- 横过
- 活动
- 加
- 额外
- 地址
- 高级
- 冒险
- 所有类型
- 让
- 允许
- 允许
- 还
- Amazon
- 亚马逊网络服务
- 量
- an
- 分析
- 分析师
- 分析
- 分析
- 和
- 任何
- 应用领域
- 应用程序开发
- 的途径
- 建筑的
- 架构
- 保健
- AS
- 律师
- At
- 创作
- 大道
- 避免
- AWS
- AWS胶水
- 背景
- 旗帜
- BE
- before
- 背后
- 得益
- 最佳
- 超越
- 大
- 大数据运用
- 都
- 建立
- 商业
- 商业智能
- 企业
- 但是
- 购买
- by
- CAN
- 可以得到
- 能力
- 能力
- 检索目录
- 造成
- 集中
- 挑战
- 更改
- 收费
- 密切
- 云端技术
- 教练
- 码
- 编码
- 柱
- 列
- 通信
- 公司
- 完成
- 复杂
- 音乐会
- 配置
- 配置
- 分享链接
- 已联繫
- 连接
- 地都
- 安慰
- 咨询
- 包含
- 控制
- 经济有效
- 创建信息图
- 创建
- 资历
- 合作伙伴
- data
- 数据分析
- 数据分析
- 数据集成
- 数据管理
- 数据平台
- 数据库
- 数据集
- 日期
- dc
- 处理
- 依靠
- 部署
- 细节
- 开发
- 开发
- 研发支持
- 直接
- 直接
- 目录
- 通过各种方式找到
- 讨论
- 屏 显:
- 显示器
- 处理
- 不同
- 完成
- 豆豆
- 借鉴
- 驾驶
- 司机
- 下降
- 两
- 此前
- 更容易
- 效率
- 高效
- 有效
- 努力
- 费力
- 消除
- 如虎添翼
- 使
- 使
- 结束
- 端点
- 增强
- 丰富
- 输入
- 企业
- 醚(ETH)
- 活动
- 事件
- 例子
- 现有
- 技术专家
- 探索
- 出口
- 扩展
- 广泛
- 提取
- 面对
- 家庭
- 虚构
- 文件
- 档
- 过滤
- 终于
- 发现
- 火墙
- (名字)
- 高度灵活
- 流
- 专注焦点
- 重点
- 遵循
- 以下
- 针对
- 止
- ,
- 充分
- 地理
- 得到
- 在全球范围内
- 授予
- 组的
- 事业发展
- 马具
- 有
- he
- 帮助
- 帮助
- 帮助
- 他的
- 创新中心
- How To
- HTML
- HTTP
- HTTPS
- 跨栏
- i
- IAM
- ICON
- 鉴定
- 身分
- if
- 说明
- 进口
- in
- 包含
- 来电
- 指数
- 信息
- 創新
- 创新
- 可行的洞见
- 安装
- 说明
- 整合
- 整合
- 积分
- 集成
- 房源搜索
- 接口
- 网络
- 互联网接入
- 成
- 错综复杂
- IP
- IP地址
- ISV
- IT
- 项目
- 它的
- 工作
- 工作机会
- 加入
- 加盟
- 加盟
- 旅程
- 旅程
- 喜悦
- JPG
- 保持
- 键
- 键
- 湖泊
- 大
- 后来
- 最新
- 铅
- 领导
- 学习
- 库
- 生活
- Line
- 清单
- 书单
- 加载
- 圖書分館的位置
- 日志
- 登录
- 寻找
- 机
- 机器学习
- 使
- 制作
- 制作
- 管理
- 管理
- 颠覆性技术
- 经理
- 方式
- 地图
- 可能..
- 有意义的
- 可能
- 最小
- 使命
- ML
- 显示器
- 监控
- 更多
- 移动
- 运动
- 多
- 必须
- 姓名
- 本地人
- 旅游导航
- 需求
- 需要
- 网络
- 网络访问
- 工业网络
- 全新
- 下页
- 没有
- 节点
- 对象
- of
- 优惠精选
- 经常
- on
- 一
- 在线
- 仅由
- 打开
- 操作
- or
- 我们的
- 学校以外
- 超过
- 简介
- 面包
- 部分
- 参加
- 特别
- 合伙人
- 伙伴
- 多情
- 密码
- 径
- 路
- 演出
- 权限
- 管道
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 可能性
- 帖子
- 潜力
- 功率
- 首选
- Prepare
- 小学
- 过程
- 提供
- 优
- 国家
- 蟒蛇
- 质量
- 价格表
- 宁
- 阅读
- 准备
- 建议
- 参考
- 精
- 而不管
- 地区
- 有关
- 依靠
- 报告
- 必须
- 需要
- 资源
- 导致
- 成果
- 检讨
- 风险
- 角色
- 运行
- 运行
- 更安全
- 销售
- 斯卡拉
- 鳞片
- 脚本
- 脚本
- 无缝的
- 无缝
- 肖恩
- 季节
- 其次
- 秘密
- 秘密
- 部分
- 安全
- 保安
- 安全风险
- 看到
- 选择
- 出售
- 卖家
- 前辈
- 无服务器
- 服务
- 特色服务
- 设置
- 几个
- 应该
- 作品
- 简易
- 简化
- 简化
- 单
- 方案,
- 解决方案
- 解决
- 来源
- 来源
- 专业
- 具体的
- 运动
- 运动队
- 开始
- 开始
- Status
- 步
- 步骤
- 存储
- 商店
- 存储
- 商店
- 简单的
- 精简
- 流线
- 工作室
- 成功
- 这样
- SUPPORT
- 肯定
- 表
- 目标
- 目标
- 任务
- 队
- 文案
- 技术
- 临时
- test
- 比
- 这
- 其
- 他们
- 然后
- 博曼
- Free Introduction
- 那些
- 通过
- 票
- 门票
- 次
- 至
- 工具
- 交通
- 改造
- 转型
- 转换
- 转化
- 二
- 类型
- 下
- 独特
- 开锁
- 的URI
- 使用
- 用过的
- 用户
- 用户
- 运用
- 各个
- 地点
- 场馆
- 视觉
- 视觉
- 是
- we
- 卷筒纸
- Web服务
- 您的网站
- ,尤其是
- 是否
- 这
- WHO
- 将
- 中
- 也完全不需要
- 工作
- 工作流程
- 合作
- 写
- 您
- 您一站式解决方案
- 青少年
- 和风网
- 压缩