您需要合成数据的 5 个原因

由柏拉图重新发布

关注： 0

您需要综合数据的 5 个原因
生成的合成数据库布里奇

要训练机器学习模型，您需要数据。数据科学任务通常不是 Kaggle 竞赛，在 Kaggle 竞赛中，你有一个预先标记好的大型精选数据集。有时您必须收集、组织和清理自己的数据。这种在现实世界中收集和标记数据的过程可能非常耗时、繁琐、昂贵、不准确，有时甚至是危险的。此外，在此过程结束时，您可能会得到您在现实世界中遇到的数据，在质量、多样性（例如，类不平衡）和数量方面不一定是您想要的数据。以下是您在处理真实数据时可能遇到的常见问题：

真实的数据收集和标记是不可扩展的
手动标记真实数据有时是不可能的
真实数据存在隐私和安全问题
真实数据不可编程
专门在真实数据上训练的模型性能不够（例如，开发速度慢）

幸运的是，这些问题可以通过合成数据来解决。你可能想知道，什么是合成数据？合成数据可以定义为人工生成的数据，通常使用模拟现实世界过程的算法创建，从其他道路使用者的行为一直到光与表面相互作用时的行为。这篇文章讨论了现实世界数据的局限性，以及合成数据如何帮助克服这些问题并提高模型性能。

对于小型数据集，通常可以收集并手动标记数据；然而，许多复杂的机器学习任务需要大量数据集进行训练。例如，为自动驾驶汽车应用训练的模型需要从连接到汽车或无人机的传感器收集大量数据。这个数据收集过程很慢，可能需要几个月甚至几年的时间。一旦收集到原始数据，就必须由人工进行人工标注，这既昂贵又耗时。此外，不能保证返回的标记数据作为训练数据是有益的，因为它可能不包含告知模型当前知识差距的示例。

[嵌入内容][嵌入内容]

标记这些数据通常需要人工在传感器数据上绘制标签。这是非常昂贵的，因为高薪 ML 团队通常花费大量时间来确保标签正确并将错误发回给标签者。合成数据的一个主要优势在于，您可以根据需要生成尽可能多的完美标记数据。您所需要的只是一种生成高质量合成数据的方法。

生成合成数据的开源软件： 库布里奇 （具有分割蒙版、深度图和光流的多目标视频）和 SDV （表格、关系和时间序列数据）。

一些（许多）销售产品或构建可以生成合成数据的平台的公司包括 格蕾特艾 （确保真实数据隐私的合成数据集）， NVIDIA公司 （全方位），和 并行域 （自动驾驶车辆）。更多， 查看2022年合成数据公司名单.

您需要综合数据的 5 个原因
图片来源：并行域

有些数据是人类无法完全解释和标记的。以下是合成数据是唯一选择的一些用例：

准确估计深度和光流从单个图像
利用人眼不可见的雷达数据的自动驾驶应用程序
生成可用于测试人脸识别系统的深度造假

您需要综合数据的 5 个原因
图片由迈克尔·加拉尼克（Michael Galarnyk）

合成数据对于无法轻松获取真实数据的领域中的应用程序非常有用。这包括某些类型的车祸数据和大多数类型的具有隐私限制的健康数据（例如，电子健康记录). 近年来，医疗保健研究人员一直对使用 ECG 和 PPG 信号预测房颤（心律不齐）感兴趣。开发心律失常检测器不仅具有挑战性，因为这些信号的注释既乏味又昂贵，而且还因为隐私限制。这是为什么有的原因之一模拟这些信号的研究.

需要强调的是，收集真实数据不仅需要时间和精力，而且实际上可能很危险。自动驾驶汽车等机器人应用的核心问题之一是它们是机器学习的物理应用。您不能在现实世界中部署不安全的模型并由于缺乏相关数据而崩溃。使用合成数据扩充数据集可以帮助模型避免这些问题。

以下是一些使用合成数据来提高应用程序安全性的公司： 丰田, Waymo及 游艇观光.

您需要综合数据的 5 个原因
图片来源：并行域

在加利福尼亚郊区风格的环境中，一个骑着自行车的儿童从校车后面出现并骑自行车过马路的合成图像。

自动驾驶汽车应用程序通常处理相对“不常见”（相对于正常驾驶条件）的事件，例如夜间的行人或骑自行车的人在马路中间。模型通常需要数十万甚至数百万个示例来学习一个场景。一个主要问题是收集的现实世界数据在质量、多样性（例如，类别不平衡、天气条件、位置）和数量方面可能不是您正在寻找的数据。另一个问题是，对于自动驾驶汽车和机器人，您并不总是知道自己需要什么数据，这与具有固定数据集和固定基准的传统机器学习任务不同。虽然一些系统地或随机地改变图像的数据增强技术是有帮助的, 这些技术可以介绍自己的问题.

这就是合成数据的用武之地。合成数据生成 API 允许您设计数据集。这些 API 可以为您节省很多钱，因为在现实世界中构建机器人和收集数据非常昂贵。尝试使用合成数据集生成来生成数据并找出工程原理会更好更快。

以下是强调可编程合成数据如何帮助模型学习的示例： 防止欺诈交易（美国运通）, 更好的骑车人检测（平行域）及 手术分析与回顾（Hutom.io）.

您需要综合数据的 5 个原因
模型开发周期的阶段 | 图片来自朱尔斯·丹吉

在工业上，有许多因素会影响机器学习项目在开发和生产中的可行性/性能（例如，数据采集、注释、模型训练、缩放、部署、监控、模型再训练和开发速度）。最近， 18 位机器学习工程师参加了访谈研究其目标是了解跨组织和应用程序（例如，自动驾驶汽车、计算机硬件、零售、广告、推荐系统等）的常见 MLOps 实践和挑战。该研究的结论之一是开发速度的重要性，它可以粗略地定义为快速原型化和迭代想法的能力。

影响开发速度的一个因素是需要有数据来进行初始模型训练和评估 以及频繁的模型再训练 由于数据漂移、概念漂移，甚至是训练-服务偏差，模型性能会随着时间的推移而衰减。

您需要综合数据的 5 个原因
图片来源：显然是人工智能

该研究还报告说，这种需求导致一些组织成立了一个团队来经常标记实时数据。这是昂贵、耗时的，并且限制了组织频繁重新训练模型的能力。

您需要综合数据的 5 个原因
图片来源：格蕾特艾

请注意，此图并未涵盖合成数据如何也可用于诸如推荐系统中的 MLOps 测试.

合成数据有可能在机器学习生命周期（如上图）中与真实世界的数据一起使用，以帮助组织更长时间地保持其模型的性能。

合成数据生成在机器学习工作流程中变得越来越普遍。实际上， Gartner公司预测到 2030 年，合成数据将比现实世界的数据更多地用于训练机器学习模型。如果您对这篇文章有任何疑问或想法，请随时在下面的评论中或通过 Twitter.

迈克尔·加拉尼克（Michael Galarnyk） 是一名数据科学专家，在 Anyscale 从事开发人员关系工作。