使用 Amazon SageMaker Data Wrangler 准备和分析 JSON 和 ORC 数据

源节点: 1600106

亚马逊SageMaker数据牧马人 是一项新功能 亚马逊SageMaker 这使得数据科学家和工程师可以更快地通过可视化界面为机器学习 (ML) 应用程序准备数据。 数据准备是 ML 生命周期的关键步骤,Data Wrangler 提供端到端解决方案,以无缝、可视化、低代码的体验为 ML 导入、准备、转换、特征化和分析数据。 它可以让您轻松快速地连接到 AWS 组件,例如 亚马逊简单存储服务 (Amazon S3), 亚马逊雅典娜, 亚马逊RedshiftAWS湖形成,以及 Snowflake 等外部资源。 Data Wrangler 还支持 CSV 和 Parquet 等标准数据类型。

Data Wrangler 现在还额外支持优化行列(ORC)、JavaScript 对象表示法 (JSON) 和 JSON 行 (JSONL) 文件格式:

  • ORC – ORC 文件格式提供了一种高效的方式来存储 Hive 数据。 它旨在克服其他 Hive 文件格式的限制。 使用 ORC 文件可以提高 Hive 读取、写入和处理数据时的性能。 ORC 在 Hadoop 生态系统中被广泛使用。
  • JSON – JSON 文件格式是一种轻量级、常用的数据交换格式。
  • JSONL – JSON 行,也称为换行分隔的 JSON,是一种用于存储结构化数据的方便格式,可以一次处理一条记录。

在将数据集导入 Data Wrangler 之前,您可以预览 ORC、JSON 和 JSONL 数据。 导入数据后,您还可以使用其中一个新推出的转换器来处理包含嵌套 JSON 中常见的 JSON 字符串或数组的列。

使用 Data Wrangler 导入和分析 ORC 数据

在 Data Wrangler 中导入 ORC 数据很容易,类似于以任何其他支持的格式导入文件。 浏览到您在 Amazon S3 和 详细信息 窗格中,在导入过程中选择 ORC 作为文件类型。

如果您是 Data Wrangler 的新手,请查看 开始使用 Data Wrangler。 另外,请参阅 进口 了解各种导入选项。

使用 Data Wrangler 导入和分析 JSON 数据

现在让我们使用 Data Wrangler 导入 JSON 格式的文件,并处理包含 JSON 字符串或数组的列。 我们还演示了如何处理嵌套的 JSON。 使用 Data Wrangler,从 Amazon S3 导入 JSON 文件是一个无缝过程。 这类似于以任何其他支持的格式导入文件。 导入文件后,您可以预览 JSON 文件,如以下屏幕截图所示。 确保在中将文件类型设置为 JSON 详细信息 窗格。

接下来,让我们处理导入的 JSON 文件中的结构化列。

为了处理 JSON 文件中的结构化列,Data Wrangler 引入了两个新的转换: 展平结构化列分解数组列,可以在 处理结构化列 在选项 添加变换 窗格。

让我们从应用开始 分解数组列 转换为我们导入的数据中的一列。 在应用转换之前,我们可以看到列 topping 是一个 JSON 对象数组 idtype 键。

应用转换后,我们可以观察到作为结果添加的新行。 数组中的每个元素现在都是生成的 DataFrame 中的新行。

现在让我们应用 展平结构化列 变换在 topping_flattened 作为结果创建的列 分解数组列 我们在上一步中应用的转换。

在应用转换之前,我们可以看到键 idtype ,在 topping_flattened 列。

应用转换后,我们现在可以观察键 idtype 在下面 topping_flattened 列作为新列 topping_flattened_idtopping_flattened_type,它们是由于转换而创建的。 您还可以选择仅通过输入以逗号分隔的键名来展平特定键 压平的键. 如果留空,则 JSON 字符串或结构中的所有键都会被展平。

结论

在本文中,我们演示了如何使用 Data Wrangler 轻松导入 ORC 和 JSON 格式的文件。 我们还应用了新推出的转换,允许我们转换 JSON 数据中的任何结构化列。 这使得使用包含 JSON 字符串或数组的列成为一种无缝体验。

作为后续步骤,我们建议您在自己的 Data Wrangler 可视化界面中复制演示的示例。 如果您对 Data Wrangler 有任何疑问,请随时将其留在评论部分。


作者简介

巴拉吉图马拉 是 Amazon SageMaker 的一名软件开发工程师。 他帮助支持 Amazon SageMaker Data Wrangler,热衷于构建高性能和可扩展的软件。 工作之余,他喜欢阅读小说和打排球。

阿伦普拉萨特·香卡(Arunprasath Shankar) 是 AWS 的人工智能和机器学习 (AI/ML) 专家解决方案架构师,帮助全球客户在云中有效和高效地扩展他们的 AI 解决方案。 在业余时间,阿伦喜欢看科幻电影和听古典音乐。

来源:https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

时间戳记:

更多来自 AWS机器学习博客