使用 Amazon SageMaker Data Wrangler 只需单击几下即可启动处理作业

源节点: 1600104

亚马逊SageMaker数据牧马人 通过使用可视化界面,数据科学家和工程师可以更快地为机器学习 (ML) 应用程序准备数据。 以前,当您创建 Data Wrangler 数据流时,您可以选择不同的导出选项以将该数据流轻松集成到您的数据处理管道中。 Data Wrangler 提供导出选项以 亚马逊简单存储服务 (Amazon S3), SageMaker管道SageMaker功能商店,或作为 Python 代码。 导出选项创建一个 Jupyter notebook 并要求您运行代码以启动由 SageMaker处理.

我们很高兴地宣布目标节点和 Data Wrangler 中的创建作业功能的全面发布。 此功能使您能够将对数据集所做的所有转换导出到目标节点,只需单击几下。 这允许您完全通过可视化界面创建数据处理作业并导出到 Amazon S3,而无需生成、运行或管理 Jupyter 笔记本,从而增强低代码体验。 为了演示这个新功能,我们使用 泰坦尼克号数据集 并展示如何将您的转换导出到目标节点。

先决条件

在我们学习如何将目标节点与 Data Wrangler 一起使用之前,您应该已经了解如何 访问并开始使用 Data Wrangler. 您还需要知道什么是 数据流 意味着与 Data Wrangler 的上下文以及如何通过从 Data Wrangler 支持的不同数据源导入数据来创建一个。

解决方案概述

考虑以下名为 example-titanic.flow:

  • 它导入了 Titanic 数据集 XNUMX 次。 您可以将这些不同的导入视为数据流中的独立分支。
  • 对于每个分支,它应用一组转换和可视化。
  • 它将分支连接到具有所有转换和可视化效果的单个节点中。

使用此流程,您可能希望处理部分数据并将其保存到特定分支或位置。

在以下步骤中,我们将演示如何创建目标节点、将它们导出到 Amazon S3 以及创建和启动处理作业。

创建目标节点

您可以使用以下过程创建目标节点并将它们导出到 S3 存储桶:

  1. 确定要保存流文件的哪些部分(转换)。
  2. 选择代表您要导出的转换的节点旁边的加号。 (如果它是折叠节点,则必须为该节点选择选项图标(三个点))。
  3. 笼罩 添加目的地.
  4. Amazon S3.
  5. 指定字段,如以下屏幕截图所示。
  6. 对于第二个加入节点,按照相同的步骤将 Amazon S3 添加为目标并指定字段。

对于数据流中所需的任意多个节点,您可以根据需要多次重复这些步骤。 稍后,您选择要包含在处理作业中的目标节点。

启动处理作业

使用以下过程创建处理作业并选择要导出到的目标节点:

  1. 点击 数据流 标签,选择 建立工作.
  2. 针对 工作名称¸ 输入导出作业的名称。
  3. 选择要导出的目标节点。
  4. (可选)指定 AWS密钥管理服务 (AWS KMS) 密钥 ARN。

KMS 密钥是可用于保护数据的加密密钥。 有关 KMS 密钥的详细信息,请参阅 AWS 密钥开发人员指南.

  1. 接下来,2.配置作业.
  2. 或者,您可以根据需要配置作业,方法是更改​​实例类型或计数,或添加任何标签以与作业关联。
  3. 运行 运行作业。

成功创建作业时会出现一条成功消息。

查看最终数据

最后,您可以使用以下步骤查看导出的数据:

  1. 创建作业后,选择提供的链接。

将打开一个新选项卡,显示 SageMaker 控制台上的处理作业。

  1. 作业完成后,在 Amazon S3 控制台上查看导出的数据。

您应该会看到一个包含您选择的作业名称的新文件夹。

  1. 选择作业名称以查看包含最终数据的 CSV 文件(或多个文件)。

常见问题

在本节中,我们将解决有关此新功能的一些常见问题:

  • “导出”选项卡发生了什么变化? 有了这个新功能,我们删除了 出口 Data Wrangler 中的选项卡。 您仍然可以通过 Data Wrangler 从您在数据流中创建的任何节点生成的 Jupyter 笔记本来促进导出功能,步骤如下:
    1. 选择要导出的节点旁边的加号。
    2. 输出到.
    3. Amazon S3(通过 Jupyter Notebook).
    4. 运行 Jupyter 笔记本。
  • 我可以在一个作业中包含多少个目的地节点? 每个处理作业最多有 10 个目的地。
  • 流文件中可以有多少个目标节点? 您可以拥有任意数量的目标节点。
  • 我可以在目标节点之后添加转换吗? 不,这个想法是目标节点是之后没有进一步步骤的终端节点。
  • 我可以与目标节点一起使用的受支持来源是什么? 在撰写本文时,我们仅支持将 Amazon S3 作为目标源。 将来会添加对更多目标源类型的支持。 如果您想查看特定的内容,请与我们联系。

总结

在本文中,我们演示了如何使用新启动的目标节点创建处理作业,并通过 Data Wrangler 可视化界面将转换后的数据集直接保存到 Amazon S3。 通过这个附加功能,我们增强了 Data Wrangler 的工具驱动的低代码体验。

作为后续步骤,我们建议您尝试本文中演示的示例。 如果您有任何疑问或想了解更多信息,请参阅 出口 或者在评论区留下问题。


作者简介

阿方索·奥斯汀-里维拉 是 Amazon SageMaker Data Wrangler 的前端工程师。 他热衷于构建能激发快乐的直观用户体验。 在业余时间,您会发现他在攀岩馆与地心引力作斗争,或者在户外驾驶无人机。

帕萨沙博达吉 是 AWS 的技术作家,专攻机器学习和人工智能。 他为 Amazon SageMaker Data Wrangler 和 Amazon SageMaker Feature Store 撰写技术文档。 在空闲时间,他喜欢冥想、听有声读物、举重和看单口相声。 他永远不会成为单口相声演员,但至少他妈妈认为他很有趣。

巴拉吉图马拉 是 Amazon SageMaker 的一名软件开发工程师。 他帮助支持 Amazon SageMaker Data Wrangler,热衷于构建高性能和可扩展的软件。 工作之余,他喜欢阅读小说和打排球。

阿伦普拉萨特·香卡(Arunprasath Shankar) 是 AWS 的人工智能和机器学习 (AI/ML) 专家解决方案架构师,帮助全球客户在云中有效和高效地扩展他们的 AI 解决方案。 在业余时间,阿伦喜欢看科幻电影和听古典音乐。

来源:https://aws.amazon.com/blogs/machine-learning/launch-processing-jobs-with-a-few-clicks-using-amazon-sagemaker-data-wrangler/

时间戳记:

更多来自 AWS机器学习博客