随着机器学习模型和人工智能(包括生成人工智能、生成对抗网络、计算机视觉和变压器)的新进展和应用的出现,许多企业正在寻求使用两种类型的合成数据来解决最紧迫的现实世界数据挑战:结构化和非结构化。结构化合成数据类型是定量的,包括表格数据,例如数字或值,而非结构化合成数据类型是定性的,包括文本、图像和视频。各行业的商业领袖和数据科学家强调需要新的数据合成来解决数据差距、保护敏感信息并提高其上市速度。他们已经在识别和探索合成数据的几个现实用例,例如:
- 生成合成表格数据以增加样本大小和边缘情况。您可以将此数据与真实数据集结合起来,以提高 AI 模型训练和预测准确性。
- 创建综合测试数据以加快新应用程序和功能的测试、优化和验证。
- 使用基于代理的模拟合成的合成数据来探索“假设”场景或新业务事件。
- 使用合成数据来防止机器学习算法中敏感数据的泄露。
- 与内部利益相关者或外部业务合作伙伴共享高质量、受隐私保护的合成副本并从中获利。
也就是说,合成数据可以更好地保护传统数据隐私和数据匿名技术(例如屏蔽),同时还能更好地保留数据的效用。然而,企业领导人之间仍然缺乏信任。为了建立这种信任并推动广泛采用,合成数据生成工具的供应商需要解决许多企业领导者提出的两个关键问题: 合成数据会让我的企业面临额外的数据隐私风险吗?合成数据反映我现有数据的准确性如何?
幸运的是,已经有最佳实践来帮助企业评估这些问题,并有望建立对合成数据所需的信任,以便在当今不断变化的市场中更具竞争力。让我们来看看。
确保合成数据隐私
尽管由于合成数据是由计算机生成而不是由实际事件(例如客户购买、互联网登录或患者诊断)创建而被视为人造数据或“虚假数据”,但合成数据在使用时仍然可以泄露个人身份信息 (PII)作为人工智能模型的训练数据。例如,如果企业在生成合成数据时优先考虑准确性,则生成的输出可能会无意中包含太多个人可识别属性,从而在不知不觉中增加公司的隐私风险暴露。此外,随着数据科学中的建模技术变得越来越复杂,包括深度学习、预测和生成模型,公司和供应商必须努力防止可能泄露个人身份并使他们遭受第三方攻击的无意连接。
幸运的是,对合成数据感兴趣的企业可以采取措施降低隐私风险:
将您的数据保留在原处
虽然许多公司正在将现有的软件应用程序迁移到云端以节省成本、提高性能和可扩展性,但本地部署在增强隐私和保护方面继续发挥着关键作用。对于合成数据来说,这部分是正确的。在处理完全合成数据(在没有用于模型训练的现有数据的情况下生成的数据)或不包含机密或 PII 的合成数据时,使用公共云部署方法的相关风险很小。然而,当公司的合成数据依赖于现有的敏感数据时,公司应该考虑本地部署。尽管第三方云提供商提供强大的内置安全和隐私保护措施,但在此类云中发送和存储敏感的 PII 客户数据可能会让您的组织面临潜在风险,并可能被您的隐私团队阻止。
拥有控制和强大的保护
并非所有合成数据用例都需要隐私,但有些用例需要。因此,风险、安全和合规领导者应实施一种机制,在合成数据生成过程中控制其所需的隐私风险级别。 “差异隐私”就是这样一种机制,使数据科学家和风险团队能够管理他们所需的隐私级别(通常在 1 到 10 的 epsilon 范围内,其中 1 代表最高隐私)。这种方法掩盖了任何个人的贡献,使得无法推断出一个人的具体信息,包括他们的信息是否被使用。它会自动识别易受攻击的个人数据点,并引入“噪音”来掩盖其特定信息。尽管添加噪声会稍微降低输出准确性(这是差异隐私的“成本”),但与传统的数据屏蔽技术相比,它不会损害效用或数据质量。换句话说,差分隐私合成数据集仍然反映真实数据集的统计属性。此外,使用差分隐私技术还有很多好处,包括针对潜在隐私攻击的强大数据保护、针对连续数据发布的累积风险的可证明隐私保证以及数据透明度,因为无需对差分隐私计算或参数保密。
深入了解隐私相关指标
当差异隐私不可行时,企业用户应该关注隐私相关指标,以帮助他们了解隐私暴露的程度。以下是两个常见指标,虽然并不全面,但可以作为坚实的基础:
- 泄漏分数:此分数衡量合成数据集中与原始数据集相同的行的比例。虽然合成数据集可以实现高精度,但它可能会因包含过多的原始数据而损害隐私。当原始数据或实际数据包含有关目标的信息,但当使用人工智能模型进行预测或分析时,这些数据将无法访问时,就会发生数据泄漏。
- 邻近度分数:通过计算原始数据和合成数据集之间的距离来确定邻近度。距离越小表示隐私风险越高,因为它更容易将某些行与合成表格数据隔离开来。
评估合成数据质量
企业范围内的采用还要求企业领导者和数据科学家对合成数据输出的质量有信心。具体来说,他们必须快速轻松地掌握合成数据与现有数据模型的统计特性的保持程度。虽然某些用例需要较低保真度的合成数据,例如用于创建真实产品演示的说明性数据、内部培训资产或某些人工智能模型训练场景,但其他用例需要高度保真度,例如在医疗保健中合成患者数据时。在后一种用例中,由于医疗保健公司可能会使用综合输出来识别新的患者见解,从而为下游决策提供信息,因此业务领导者必须确保综合数据准确反映其实际业务的状况。
让我们更仔细地看看保真度和其他与质量相关的指标:
保真度
一个重要的指标是“保真度”。它根据合成数据与真实数据和数据模型的相似性来评估合成数据的质量。企业不仅应该深入了解列分布,还应该深入了解其他列之间的关系,包括一对一(单变量)和一对多(多变量)。由于大多数现有数据表的复杂性和规模,了解后者至关重要。幸运的是,最新的神经网络和生成人工智能模型擅长捕获数据库表和时间序列数据中的这些复杂关系。保真度指标使用条形图和相关表显示,虽然可能很长,但提供了有价值的见解。如果您还没有访问保真度分析的权限,您可以首先使用开源 Python 包,例如 标准差指标.
公用事业
人工智能模型需要足够的数据来进行有效的训练,而获取真实的数据集可能非常耗时。合成数据为训练机器学习模型提供了更快的替代方案。因此,在与适当的团队共享合成数据之前,了解合成数据在人工智能模型训练中的效用是很有价值的。本质上,该指标衡量机器学习模型在真实数据与合成数据上进行训练时的相对预测准确性。
公平
另一个重要的指标是“公平性”,由于企业收集的数据集中存在潜在偏差,这个话题越来越受到重视。如果现有数据集存在偏差,则合成数据也会存在偏差。深入了解这种偏见的程度可以帮助企业认识到并可能纠正它。虽然在当今的合成数据解决方案中并不那么普遍,也不像隐私、保真度或实用性那么重要,但了解合成数据中的偏见将有助于企业做出明智的决策。
如何开始使用 watsonx.ai 中的合成数据
AI 构建者和数据科学家可以通过从数据库导入数据、上传文件或在 IBM® watsonx.ai™ 中创建自定义数据模式来生成合成表格数据。这种基于统计的模型可用于生成数据,通过边缘案例和更大的样本量来帮助提高人工智能训练模型的预测准确性。这些数据还可用于帮助增强客户演示和员工培训材料的真实性。
Watsonx.ai 是一个企业级下一代人工智能工作室,用于机器学习和生成人工智能,由基础模型提供支持。借助 watsonx.ai 工作室,人工智能构建者(包括数据科学家、应用程序开发人员和业务分析师)可以训练、验证、调整和部署传统机器学习和新的生成式人工智能功能。 Watsonx.ai 旨在促进人工智能应用程序开发中的协作和可扩展性,并且可以部署在混合云环境中。
查看我们的综合数据生成器服务 沃森x.ai 由任一 访问我们的免费试用版 or 安排 30 分钟的通话 我们其中一个 沃森x.ai 产品专家进行指导演练。
IBM 时事通讯
获取我们的时事通讯和主题更新,提供最新的思想领导力和对新兴趋势的见解。
现在订阅
更多新闻通讯
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 10
- 17
- 2020
- 2023
- 25
- 28
- 29
- 30
- 300
- 31
- 32
- 40
- 400
- 7
- 72
- 8
- 9
- a
- 关于
- 加速
- ACCESS
- 访问
- 无障碍
- 精准的
- 准确
- 横过
- 实际
- 添加
- 额外
- 另外
- 地址
- 采用
- 采用
- 进步
- 对抗
- 广告
- 后
- 驳
- AI
- 人工智能的采用
- AI模型
- 人工智能培训
- 人工智能用例
- 算法
- 所有类型
- 允许
- 已经
- 还
- 替代
- 尽管
- Amazon
- 亚马逊RDS
- 其中
- amp
- an
- 分析
- 分析师
- 分析
- 和
- 任何
- 应用领域
- 应用程序开发
- 应用领域
- 适当
- 保健
- 刊文
- 人造的
- 人工智能
- 人工智能(AI)
- AS
- 问
- 评估
- 办公室文员:
- 相关
- At
- 攻击
- 属性
- 听众
- 八月
- 2年XNUMX月
- 作者
- 自动
- 可使用
- 背部
- 酒吧
- 基于
- BE
- 因为
- 成为
- before
- 好处
- 最佳
- 最佳实践
- 更好
- 之间
- 偏见
- 偏
- 偏见
- 封锁
- 博客
- 蓝色
- 都
- 带来
- 广阔
- 建立
- 建立信任
- 建设者
- 建筑物
- 内建的
- 商业
- 商业领袖
- 企业
- 但是
- 按键
- by
- 计算
- CAN
- 能力
- 捕获
- 捕获
- 碳
- 卡
- 牌
- 案件
- 例
- 喵星人
- 产品类别
- 一定
- 挑战
- 查
- 界
- 程
- 客户
- 密切
- 云端技术
- 码
- 合作
- 颜色
- 柱
- 列
- 结合
- 相当常见
- 社体的一部分
- 公司
- 公司
- 公司的
- 相比
- 竞争的
- 复杂
- 符合
- 理解
- 全面
- 妥协
- 妥协
- 计算
- 一台
- 计算机视觉
- 计算机生成的
- 条件
- 信心
- 连接
- 考虑
- 考虑
- CONTACT
- 容器
- 包含
- 内容
- 继续
- 继续
- 贡献
- 控制
- 正确
- 相关
- 价格
- 节约成本
- 可以
- 创建
- 创造
- 危急
- 关键
- 的CSS
- 习俗
- 顾客
- 客户数据
- 合作伙伴
- 每天
- 日常交易
- data
- 数据泄漏
- 数据点
- 数据隐私
- 数据保护
- 数据质量
- 数据科学
- 数据仓库
- 数据库
- 数据库
- 数据集
- 日期
- 处理
- 几十年
- 决策
- 决定
- 深
- 深入学习
- 默认
- 定义
- 学位
- 交付
- 示 范 曲
- 依赖
- 部署
- 部署
- 部署
- 部署
- 描述
- 设计
- 期望
- 决心
- 开发
- 研发支持
- 诊断
- 用心
- 直接
- 距离
- 分布
- do
- 文件
- 不
- 做
- 驾驶
- 两
- ,我们将参加
- 每
- 缓解
- 更容易
- 容易
- 易
- 经济
- 边缘
- 有效
- 或
- 出现
- 新兴经济体的新市场。
- 强调
- 员工
- enable
- 使
- 提高
- 加强
- 确保
- 确保
- 保证
- 输入
- 企业
- 整个
- 环境中
- 本质上
- 醚(ETH)
- 评估
- 甚至
- 事件
- EVER
- 千变万化
- 进化
- Excel
- 激动
- 展品
- 现有
- 存在
- Exit 退出
- 促进
- 探索
- 曝光
- 程度
- 外部
- 促进
- false
- 高效率
- 快
- 特征
- 感觉
- 保真度
- 文件
- 遵循
- 以下
- 字体
- 针对
- 强迫
- 幸好
- 基金会
- 分数
- 框架
- Free
- 免费试用
- 止
- 充分
- 此外
- Gain增益
- 获得
- 获得
- 差距
- 生成
- 产生
- 发电
- 代
- 生成的
- 生成对抗网络
- 生成式人工智能
- 发电机
- 得到
- 图表
- 把握
- 格
- 增长
- 担保
- 制导
- 民政事务总署
- 有
- 标题
- 医疗保健
- 高度
- 帮助
- 此处
- 高
- 高品质
- 更高
- 最高
- 希望
- 创新中心
- 但是
- HTTP
- HTTPS
- 杂交种
- 混合云
- IBM
- 首次代币发行
- ICON
- 相同
- 识别
- 鉴定
- 确定
- 身分
- if
- 图片
- 图片
- 想像力
- 巨大
- 影响力故事
- 实施
- 重要
- 输入
- 不可能
- 改善
- 改善
- in
- 其他
- 不经意间
- 包括
- 包括
- 包含
- 增加
- 增加
- 增加
- 日益
- 指数
- 表示
- 个人
- 行业
- 通知
- 信息
- 通知
- 创新
- 输入
- 洞察
- 可行的洞见
- 例
- 房源搜索
- 有兴趣
- 内部
- 网络
- 成
- 错综复杂
- 推出
- IT
- 迭代
- 它的
- 本身
- 工作
- JPG
- 保持
- 键
- 缺乏
- 滞后
- 大
- 大
- 最新
- 领导人
- 领导团队
- 泄漏
- 学习
- 最少
- Level
- 借力
- 喜欢
- Line
- 本地
- 当地
- 登录
- 看
- 降低
- 机
- 机器学习
- 主流
- 保持
- 维护
- 使
- 制作
- 制作
- 管理
- 许多
- 市场
- 市场份额
- 市场
- 面膜
- 物料
- 到期
- 最大宽度
- 可能..
- 手段
- 措施
- 机制
- 方法
- 公
- 指标
- 迁移
- 分钟
- 最小
- 分钟
- 联络号码
- 模型
- 造型
- 模型
- 更多
- 最先进的
- 许多
- 必须
- my
- 旅游导航
- 需求
- 网络
- 神经
- 神经网络
- 全新
- 新闻简报
- 下一代
- 没有
- 噪声
- 没什么
- 十一月
- 现在
- 数字
- 获得
- of
- 折扣
- 提供
- 优惠精选
- on
- 一
- 仅由
- 打开
- 开放源码
- 乐观
- 优化
- 优化
- 附加选项
- 附加选项
- or
- 组织
- 组织
- 原版的
- 其他名称
- 我们的
- 输出
- 产量
- 包
- 页
- 参数
- 特别
- 伙伴
- 病人
- 患者资料
- 性能
- 人
- 亲自
- PHP
- ii
- 关键的
- 地方
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 播放
- 插入
- 点
- 政策
- 热门
- 声望
- 位置
- 帖子
- 潜力
- 可能
- 供电
- 做法
- 预测
- 预测
- 当下
- 保存
- 紧迫
- 流行
- 防止
- 小学
- 优先
- 隐私
- 隐私技术
- 私立
- 过程
- 处理
- 产品
- 进展
- 突出
- 保护
- 保护
- 可证明的
- 供应商
- 提供
- 国家
- 公共云
- 采购
- 蟒蛇
- 定性
- 质量
- 量
- 季
- 有疑问吗?
- 快速
- 很快
- 范围
- 快
- 宁
- 阅读
- 真实
- 真实的世界
- 现实
- 最近
- 承认
- 红色
- 减少
- 减少
- 反映
- 反映
- 关于
- 关系
- 相对的
- 发布
- 可靠性
- 依靠
- 再生
- 回复
- 代表
- 要求
- 需要
- 研究人员
- 响应
- 导致
- 揭示
- 收入
- 风险
- 风险
- 机器人
- 健壮
- 角色
- 运行
- 保障
- 说
- 储
- 可扩展性
- 情景
- 科学
- 科学家
- 得分了
- 屏风
- 脚本
- 秘密
- 安全
- 保安
- 看到
- 寻找
- 寻求
- 看到
- 发送
- 敏感
- 搜索引擎优化
- 服务
- 服务
- 集
- 几个
- Share
- 共享
- 应该
- 如图
- 视力
- 显著
- 网站
- 尺寸
- 尺寸
- 小
- 小
- 软件
- 固体
- 方案,
- 解决方案
- 一些
- 东西
- 极致
- 来源
- 专家
- 具体的
- 特别是
- 速度
- 赞助商
- 广场
- 利益相关者
- 开始
- 开始
- 统计
- 步骤
- 仍
- 结构化
- 工作室
- 订阅
- 这样
- 足够
- 调查
- SVG的
- 合成
- 合成的
- 综合数据
- 产品
- 采取
- 谈论
- 目标
- 任务
- 团队
- 队
- 技术
- 条款
- 第三
- test
- 测试
- 文本
- 比
- 这
- 世界
- 其
- 他们
- 主题
- 然后
- 那里。
- 从而
- 因此
- 博曼
- 他们
- 认为
- 第三方
- Free Introduction
- 思想
- 精神领袖
- 通过
- 次
- 耗时的
- 标题
- 至
- 今天的
- 一起
- 也有
- 工具
- 最佳
- 主题
- 传统
- 培训
- 熟练
- 产品培训
- 交易
- 交易
- 变革
- 转化
- 变形金刚
- 用户评论透明
- 透明
- 趋势
- 试用
- 万亿
- true
- 信任
- 二
- 类型
- 类型
- 一般
- 经历
- 理解
- 理解
- 最新动态
- 上传
- 网址
- 使用
- 用例
- 用过的
- 用户
- 运用
- 效用
- 验证
- 验证
- 有价值
- 价值观
- 各种
- 各个
- 厂商
- 视频
- 愿景
- VMware的
- 脆弱
- W
- 仓库保管
- 认股证
- 是
- we
- ,尤其是
- 是否
- 这
- 而
- 更宽
- 将
- 中
- 也完全不需要
- WordPress
- 话
- 工作
- 加工
- 世界
- 世界
- 书面
- 年
- 您
- 您一站式解决方案
- 和风网