在20月XNUMX日ChatGPT数据中断引发的所有担忧之后,我们很快观察到了外界的一些反应。 最给力的那一个? 意大利因数据隐私问题禁止 ChatGPT.
事件发生近一个月后,OpenAI已经针对用户数据隐私采取了一些行动: 可以关闭聊天记录并导出您的个人数据,即他们从您与 ChatGPT 交互中保留的数据。
本文概述了这两个 OpenAI 在数据隐私方面采取的主要行动 在强大的AI生成技术ChatGPT中。 我们将尝试这两项新功能,并仔细查看 ChatGPT 从用户那里保留的数据,以帮助您理解给定的格式,从而解释您的数据。
#1. 关闭聊天记录
ChatGPT 历史记录不仅仅是存储您与聊天机器人的对话的一种方式,以便您可以随时登录并查看过去的对话: 您的聊天历史记录还用于训练和改进 ChatGPT 背后的模型。
聊天历史记录于 15 年 2022 月 XNUMX 日启用,说实话:我们都从对话存储中受益! 但这一功能确实引发了一些数据隐私问题: ChatGPT 是否保留对话数据来训练其人工智能模型? 如果在这些对话中共享敏感或个人数据怎么办?
现在 OpenAI 已经赋予用户控制它的能力! 根据 OpenAI的公告,从 25 月 XNUMX 日起,可以禁用聊天记录,这样对话就不会再出现在侧边栏上。 此外,它们不会用于进一步的培训,从而为用户提供管理数据的选项。
以前,用户可以根据需要定期清除聊天记录,但任何对话仍然可以用于微调。 截至目前,如果聊天记录被禁用, 对话仅保留 30 天。 这样做是为了防止由于滥用该工具而需要审查对话,然后永久删除它们。
禁用聊天记录非常简单 个人设置 控制。 访问 个人设置 在 Web 界面中,导航至主页的左下部分。 将弹出一个小窗口,您将在其中找到以下控件 聊天记录和培训:
此时,我相信您也会注意到其中的问题:
为什么 OpenAI 将保存您的聊天历史记录与使用这些数据来训练其 AI 模型结合起来?
我想这是一种对用户施加微压力的方式,让他们继续使用他们的对话进行培训。 作为支持 OpenAI 的一点,从我的专业经验来看,我清楚地看到使用这些真实数据进行训练的好处。
#2. 导出您的个人数据
OpenAI还在ChatGPT的设置中添加了第二个新功能: an 出口 获取 ChatGPT 数据的选项 并找出 ChatGPT 存储了有关您的哪些信息。
这个新选项可以被视为朝着 欧盟通用数据保护条例 (通用数据保护条例)。 除其他声明外,GDPR 还定义了: 数据处理者有义务促进对其个人数据的访问。 这就是平台收集个人信息的原因,例如 谷歌 or Netflix公司 现在有义务随时向用户发送他们从用户那里获得的数据。
在网页界面中,导出个人数据也非常简单。 这 出口数据 按钮位于 聊天记录和培训 一:
就在导出数据前几分钟,我在注册电子邮件收件箱中收到了包含我的对话和其他相关信息的文件。
确认导出操作后,这是我的邮箱中收到的内容:
点击即可 下载 按钮,我得到了一个包含 5 个文件的文件夹 html
和 json
格式。
如果这些深入的教育内容对您有用,则可以 订阅我们的AI研究邮件列表 当我们发布新材料时被提醒。
允许用户索取个人数据的公司遵守上述 GDPR 法规。 然而,有一个问题: 文件格式可能会使大多数人无法读取数据。 在这种情况下,我们得到了两个 html
和 json
文件。 尽管 html
可以直接读取, json
文件可能更难以解释。 我个人认为新法规还应该强制执行数据的可读格式。 但暂时……
让我们逐一探索这些文件,以充分利用这一新功能!
聊天记录
第一个文件是 chat.html
其中包含我与 ChatGPT 的全部聊天记录。 对话与其相应的标题一起存储。 用户的问题和ChatGPT的答案被标记为 assistant
和 user
。
如果您曾经自己训练过人工智能模型,那么这个标签系统听起来会很熟悉.
让我们观察一下我的历史记录中的一个示例对话:
用户反馈
您是否曾在任何 ChatGPT 答案旁边看到过竖起大拇指、竖起大拇指的图标 (👍👎)?
ChatGPT 将此信息视为给定答案的反馈,这将有助于聊天机器人的训练。
该信息存储在 message_feedback.json
文件包含您使用拇指图标向 ChatGPT 提供的任何反馈。 信息以以下格式存储:
[{"message_id": <MESSAGE ID>, "conversation_id": <CONVERSATION ID>, "user_id": <USER ID>, "rating": "thumbsDown", "content": "{"tags": ["not-helpful"]}"}]
thumbsDown
评级考虑了错误生成的答案,而 thumbsUp
考虑正确生成的。
用户数据
还有一个文件(user.json
)包含以下用户个人数据:
{"id": <USER ID>, "email": <USER EMAIL>, "chatgpt_plus_user": [true|false], "phone_number": <USER PONE>}
一些平台因根据平台的使用情况创建用户模型而闻名. 例如,如果 谷歌 用户的搜索主要与编程有关, 谷歌 很可能推断用户是程序员,并利用这些信息来展示个性化广告。
ChatGPT 可以对对话中的信息执行相同的操作,但他们目前有义务将此推断的信息包含在导出的数据中.
⚠️ 仅供参考, 人们可以通过点击帐户>>数据和隐私>>个性化广告>>我的广告中心来访问Google从Gmail中了解的信息。
完整的对话历史记录
还有另一个文件包含对话历史记录,还包括一些元数据。 该文件名为 conversations.json
和 包括创建时间、多个标识符以及 ChatGPT 背后的模型等信息.
⚠️ 元数据提供有关主要数据的信息。 它可能包括数据的来源、含义、位置、所有权和创建等信息。 元数据说明与主数据相关的信息,但它不是主数据的一部分。
让我们探讨一下关于 A320 液压系统故障 在第一个例子中暴露 json
格式。 对话本身包括以下问答:
[用户]: 当空客 320 飞机的三个液压系统之一发生故障时会发生什么? [助手]: 空客A320飞机配备了三个独立的液压系统,每个系统为飞机的不同部分提供液压动力。 液压系统标记为绿色、蓝色和黄色 [...] [用户]: 您知道在双液压故障的情况下飞行员会做什么吗? [助手]: 如果空客 A320 飞机发生双液压故障,飞行员将面临更具挑战性的情况,因为所有三个液压系统都受到影响,并且没有冗余可以依靠 [...]
从这个简单的对话中,OpenAI 保留了相当多的信息。 我们来回顾一下存储的信息:
{ "title":"A320 Hydraulic System Failure.", "create_time":1682368832.626937, "update_time":1682369104.0, "mapping": { [+] }, "moderation_results":[] "current_node":"<children_id4>", "plugin_ids":null, "id":"<conversation_id>"
}
- 主要领域
json
文件包含以下信息:
场 moderation_results
是空的,因为 在这个具体案例中,没有向 ChatGPT 提供反馈。 此外,该 [+]
中的符号 mapping
字段意味着有更多信息可用。
- 事实上,在
mapping
字段包含有关对话本身的所有信息。 由于对话有四种交互,因此映射存储一种children
每次互动的条目。
{ "<mapping_id>":{ [+] }, "<parent_id>":{ [+] }, "<children_id>":{ [+] }, "<children_id2>":{ [+] }, "<children_id3>":{ [+] }, "<children_id4>":{ [+] }
}
再次,在 [+]
符号表示有更多信息可用。 让我们回顾一下不同的条目!
mapping_id
: 它包含一个id
用于对话以及有关创建时间和内容类型等的信息。 据人们推测,它还创造了一种parent_id
用于对话和children_id
对应于用户与 ChatGPT 的以下交互。 这是一个例子:
{ "id":"<mapping_id>", "message":{ "id":"<message_id>", "author":{ "role":"system", "name":null, "metadata":{ } }, "create_time":1682369079.639335, "update_time":null, "content":{ "content_type":"text", "parts":[ "" ] }, "end_turn":true, "weight":1.0, "metadata":{ }, "recipient":"all" }, "parent":"<parent_id>", "children":[ "<children_id>" ]
}
children_idX
:新children
为用户或助理的每次交互创建条目。 由于对话有四个交互,json
文件显示四个children
条目。 每个children
条目具有以下结构:
{ "id":"<children_id>", "message":{ "id":"<children_id>", "author":{ "role":"user", "name":null, "metadata":{ } }, "create_time":1682368832.628375, "update_time":null, "content":{ "content_type":"text", "parts":[ "What happens when one of the three hydraulic systems of a plane airbus 320 fails?" ] }, "end_turn":null, "weight":1.0, "metadata":{ "timestamp_":"absolute", "message_type":null }, "recipient":"all" }, "parent":"<mapping_id>", "children":[ "<children_id2>" ]
}
最快的 children
通过使条目嵌套在对话中 mapping_id
作为家长和第二次互动 ——来自ChatGP的回答—— 作为第二个孩子。
Children
与 ChatGPT 答案相对应的包含附加字段。 例如,对于第二次交互:
{ "id":"<children_id2>", "message":{ "id":"<children_id2>", "author":{ "role":"assistant", "name":null, "metadata":{ } }, "create_time":1682368856.590211, "update_time":null, "content":{ "content_type":"text", "parts":[ "The Airbus A320 aircraft is equipped with three independent hydraulic systems, each providing hydraulic power to different parts of the aircraft. The hydraulic systems are labeled as Green, Blue, and Yellow.nnIf one of the hydraulic systems of an Airbus A320 aircraft fails, the other two systems are designed to provide redundancy and ensure that the aircraft remains controllable. The remaining systems will automatically take over the functions of the failed system, so there should be no loss of control of the aircraft.nnHowever, the failure of one hydraulic system will result in a reduction of hydraulic pressure, which can affect the performance of some aircraft systems. For example, if the Green hydraulic system fails, some components like the slats, flaps, and some spoilers will be affected as they are powered by the Green system only. This can cause the aircraft to experience reduced maneuverability and increased drag, which can affect the ability of the aircraft to climb or maintain altitude.nnIn such a situation, the pilots will follow the procedures outlined in the aircraft's emergency checklist to manage the situation and ensure that the aircraft is flown safely to the nearest suitable airport for landing. The exact procedures will depend on the nature of the failure, but the pilots will prioritize maintaining control of the aircraft and ensuring the safety of the passengers and crew." ] }, "end_turn":true, "weight":1.0, "metadata":{ "message_type":null, "model_slug":"text-davinci-002-render-sha", "finish_details":{ "type":"stop", "stop":"<|im_end|>" }, "timestamp_":"absolute" }, "recipient":"all" }, "parent":"<children_id>", "children":[ "<children_id3>" ]
}
对于 ChatGPT 答案, 我们获得有关 ChatGPT 背后模型的信息 和停止词。 它还显示了第一个 children
因为它 parent
第三 children
如下面的交互。
完整文件可以在此 GitHub 中找到 要旨.
模型比较
当您不完全相信 ChatGPT 提供的响应时,您是否曾经使用过“重新生成响应”按钮?
这个反馈信息也被保存了!
最后一个文件名为 model_comparisons.json
这 包含对话片段以及 ChatGPT 重新生成响应时的连续尝试。 该信息仅包含没有标题的文本,但包括一些其他元数据。 这是该文件的基本结构:
{ "id":"<id>", "user_id":"<user_id>", "input":{[+]}, "output":{[+]}, "metadata":{[+]}, "create_time": "<time>"
}
metadata
字段包含一些重要信息,例如对话发生的国家和大陆,以及有关对话的信息 https
访问架构等。 该文件有趣的部分在于 input
/output
条目:
输入
input
包含原始对话中的消息集合。 交互根据以下内容进行标记 作者 并且,与前面的情况一样,还存储了一些附加信息。 让我们观察一下为示例对话存储的消息:
[系统]: 你是 ChatGPT,一个由 OpenAI 训练的大型语言模型,基于 GPT-3.5 架构。n 知识截止时间:2021-09n 当前日期:2023-04-07。 [用户]: 当空客 320 飞机的三个液压系统之一发生故障时会发生什么? [助手]: 空客A320飞机配备了三个独立的液压系统,每个系统为飞机的不同部分提供液压动力。 液压系统标记为绿色、蓝色和黄色 [...] [用户]: 您知道在双液压故障的情况下飞行员会做什么吗? [助手]: 如果空客 A320 飞机发生双液压故障,飞行员将面临更具挑战性的情况,因为所有三个液压系统都受到影响,并且没有冗余可以依靠 [...]
User
/Assistant
预计会有条目,但我确信此时我们都想知道 为什么有一个 system
标签?
而且, 为什么他们在每次谈话开始时都会给出这样的初始陈述?
ChatGPT 是否会在任何新对话中预输入当前日期?
是的, 这些条目就是所谓的系统消息.
系统消息
系统消息向助手提供总体指示。 他们帮助设定助理的行为。 在Web界面中,系统消息对用户来说是透明的,这就是为什么我们不能直接看到它们。
系统消息的好处是它允许开发人员调整助手,而无需使请求本身成为对话的一部分。 可以使用 API 来馈送系统消息。 例如,如果您正在构建一名汽车销售助理,一条可能的系统消息可能是 “你是一名汽车销售助理。 使用友好的语气向用户提问,直到您了解他们的必要性。 然后,解释符合他们喜好的可用汽车”。 您甚至可以提供车辆、规格和价格列表,以便助手也可以提供这些信息。
输出
输出条目包含 ChatGPT 给出的响应以及每次点击时的连续尝试 重新生成响应 按钮:
{ "output":{ "feedback_version":"inline_regen_feedback:a:1.0", "ui_feature_name":"inline_regen_feedback", "ui_feature_variant":"a", "ui_feature_version":"1.0", "feedback_step_1":{[+]}, "feedback_step_2":{ "original_turn":[ { "id":"<original_turn_id>", "author":{[+]}, "create_time":1680877473.736083, "update_time":null, "content":{<original_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "new_turn":[ { "id":"<new_turn_id>", "author":{[+]}, "create_time":1680877502.81384, "update_time":null, "content":{<new_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "completion_comparison_rating":"new", "new_completion_placement":"not-applicable", "feedback_start_time":1680877456156, "compare_step_start_time":1680877456156, "new_completion_load_start_time":1680877456156000, "new_completion_load_end_time":1680877502976, "frontend_submission_time":1680877507949 } }
}
如上所述, feedback_step_1
条目存储有关前面提到的赞成/反对反馈的信息。
再生信息存储在 feedback_step_2
包含第一个子条目的条目 original_turn
对于原始响应和重试响应 new_turn
.
这就是 OpenAI 保留的有关我们与 ChatGPT 交互的所有信息! 我认为了解存储哪些信息对于两个主要目的很有用。
首先,在当今的数据世界中, 关心我们的隐私并了解平台存储和推断的有关我们的信息非常重要。 其次,了解信息的构造和处理方式可以帮助我们以 ChatGPT 作为起点构建定制模型。 例如,通过查看我们自己的数据, 我们意识到您可以向 ChatGPT 提供系统消息来引导客服人员 出于我们希望代理以对用户透明的方式工作的目的。
总结
在本文中,我们回顾了 OpenAI 在用户数据隐私方面所采取的行动,作为对过去几个月提出的担忧的回应。
关闭聊天历史记录的可能性和随时导出个人数据的新功能都是保护 ChatGPT 用户的明确步骤。 我个人认为这些步骤是通过遵守相关数据保护法规来优先考虑数据隐私的承诺。 透明度和安全性是建立信任和确保负责任的人工智能使用的关键.
从我们的角度来看 — 用户端 — 我认为值得了解管理我们的数据隐私的可能性。 特别是关于这两个控制基本点的新功能,例如确保您与 ChatGPT 的交互不会用于培训目的(如果您不愿意),或者明确接收公司拥有的有关您的确切数据。
当然,使用该技术还存在其他风险。 例如,用户还应该知道 数据保留政策。 即了解平台保留数据的时间,理想情况下应该是最短的时间。 了解 数据的预期用途 您向人工智能平台提供信息并被告知 平台是否与第三方共享您的数据以及共享的目的是什么 也应该是我们主要关注的一部分。
通过考虑这些因素, 用户可以对其数据隐私做出明智的决定 使用 ChatGPT 或任何其他大型语言模型时。
主动了解您的数据的处理方式并采取措施保护您的隐私权非常重要。
仅此而已! 非常感谢您的阅读!
我希望这篇文章有帮助 了解 ChatGPT 从我们的对话中保留的信息,以及 管理新的 OpenAI 功能以实现数据隐私.
您也可以订阅我的 订阅电子邮件 敬请关注新内容。 特别, 如果您对有关 ChatGPT 的文章感兴趣.
这篇文章最初发表于 走向数据科学 并在获得作者许可的情况下重新发布到TOPBOTS。
喜欢这篇文章吗? 注册以获取更多AI研究更新。
当我们发布更多像这样的摘要文章时,我们会通知您。
相关
- :具有
- :是
- :不是
- :在哪里
- $UP
- 1
- 11
- 110
- 12
- 13
- 15%
- 2022
- 24
- 25
- 30
- 320
- a
- 对,能力--
- 关于
- 以上
- 绝对
- ACCESS
- 根据
- 账户
- 操作
- 行动
- Ad
- 添加
- 增加
- 额外
- 附加信息
- 影响
- 后
- 经纪人
- AI
- 人工智能平台
- 研究
- 空中客车公司
- 飞机
- 机场
- 所有类型
- 允许
- 允许
- 已经
- 还
- am
- 其中
- an
- 和
- 另一个
- 回答
- 答案
- 任何
- 再
- API
- 出现
- 四月
- 架构
- 保健
- 刊文
- 刊文
- AS
- 助理
- 相关
- At
- 尝试
- 作者
- 自动
- 可使用
- 察觉
- 背部
- 基于
- 基本包
- BE
- before
- 开始
- 背后
- 作为
- 如下。
- 得益
- 好处
- 蓝色
- 建筑物
- 但是
- 按键
- by
- CAN
- 汽车
- 关心
- 汽车
- 案件
- 例
- 摔角
- 原因
- Center
- 挑战
- 聊天机器人
- ChatGPT
- 查
- 孩子
- 儿童
- 清除
- 明确地
- 爬
- 接近
- 采集
- 购买的订单均
- 承诺
- 公司
- 执行
- 组件
- 关注
- 连续
- 考虑
- 由
- 包含
- 内容
- 大陆
- 控制
- 谈话
- 对话
- 确信
- 相应
- 对应
- 可以
- 国家
- 情侣
- 再加
- 课程
- 创建
- 创建
- 创造
- 创建
- 电流
- 目前
- 定制
- data
- 数据隐私
- 数据保护
- 日期
- 一年中的
- 十二月
- 决定
- 定义
- 需求
- 根据
- 设计
- 开发商
- 不同
- 难
- 直接
- 禁用
- 显示器
- do
- 完成
- 别
- 两
- ,我们将参加
- e
- 每
- 教育的
- 或
- 邮箱地址
- 紧急
- 启用
- 执行
- 确保
- 保证
- 整个
- 条目
- 配备
- 特别
- 醚(ETH)
- 欧洲
- 甚至
- 活动
- EVER
- 所有的
- 例子
- 预期
- 体验
- 说明
- 探索
- 出口
- 裸露
- 面部彩妆
- 促进
- 事实
- 因素
- 失败
- 失败
- 失败
- 秋季
- 熟悉
- 远
- 赞成
- 专栏
- 特征
- 美联储
- 反馈
- 部分
- 字段
- 文件
- 档
- 找到最适合您的地方
- (名字)
- 遵循
- 以下
- 针对
- 格式
- 发现
- 四
- 友好
- 止
- ,
- 充分
- 功能
- 功能
- 根本
- 进一步
- 搜集
- 《通用数据保护条例》(GDPR)
- 其他咨询
- 一般数据
- 得到
- GitHub上
- 给
- 特定
- 谷歌
- 绿色
- 发生
- 有
- 有
- 帮助
- 相关信息
- 突出
- 历史
- 击中
- 抱有希望
- 创新中心
- HTTPS
- i
- 图标
- ID
- 主意
- 理想
- 身份标识
- if
- 重要
- 改善
- in
- 深入
- 事件
- 包括
- 包含
- 增加
- 独立
- 表示
- 信息
- 通知
- 初始
- 输入
- 说明
- 相互作用
- 互动
- 有兴趣
- 有趣
- 接口
- 成
- IT
- 它的
- 本身
- 旅程
- JPG
- 只是
- 保持
- 保持
- 键
- 知道
- 会心
- 知识
- 已知
- 标签
- 标签
- 标签
- 着陆
- 语言
- 大
- (姓氏)
- 喜欢
- 容易
- 清单
- 圖書分館的位置
- 日志
- 长
- 看
- 寻找
- 离
- 主要
- 保持
- 维持
- 主要
- 使
- 制作
- 管理
- 许多
- 制图
- 三月
- 匹配
- 材料
- 最大宽度
- 可能..
- 意
- 手段
- 提到
- 的话
- 条未读消息
- 元数据
- 最低限度
- 分钟
- 模型
- 模型
- 月
- 个月
- 更多
- 此外
- 最先进的
- 大多
- my
- 姓名
- 自然
- 导航
- 必要
- 需求
- 虽然
- 全新
- 新功能
- 新功能
- 下页
- 没有
- 现在
- 债券
- 有义务的
- 观察
- 观察
- of
- 折扣
- on
- 一
- 那些
- 仅由
- OpenAI
- 附加选项
- or
- 起始地
- 原版的
- 本来
- 其他名称
- 其它
- 我们的
- 输出
- 停运
- 概述
- 大纲
- 产量
- 学校以外
- 超过
- 最划算
- 己
- 所有权
- 页
- 部分
- 各方
- 部分
- 过去
- 为
- 性能
- 永久
- 允许
- 个人
- 个人资料
- 个性化你的
- 亲自
- 飞行员
- 地方
- 朴素
- 平台
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 点
- 流行的
- 可能性
- 可能性
- 可能
- 功率
- 供电
- 强大
- 压力
- 以前
- 先前
- 价格
- 优先
- 隐私
- 主动
- 程序
- 处理
- 所以专业
- 程序员
- 代码编程
- 保护
- 保护
- 保护
- 提供
- 提供
- 提供
- 优
- 出版
- 目的
- 目的
- Q&A
- 有疑问吗?
- 很快
- 凸
- 等级
- 反应
- 阅读
- 真实的世界
- 实现
- 原因
- 接收
- 收到
- 红色
- 减少
- 减少
- 关于
- 再生
- 注册
- 税法法规
- 法规
- 有关
- 释放
- 相应
- 其余
- 遗迹
- 请求
- 研究
- 分别
- 响应
- 回复
- 提供品牌战略规划
- 导致
- 保留
- 保留
- 检讨
- 审查
- 权利
- 风险
- 角色
- s
- 安然
- 实现安全
- 销售
- 同
- 保存
- 其次
- 部分
- 保安
- 看到
- 看到
- 提交
- 敏感
- 集
- 设置
- 几个
- 共用的,
- 分享
- 应该
- 显示
- 作品
- 侧
- 签署
- 简易
- 自
- 情况
- 小
- So
- 一些
- 听起来
- 规格
- 开始
- 个人陈述
- 声明
- 留
- 步
- 步骤
- 仍
- Stop 停止
- 停车
- 存储
- 商店
- 存储
- 商店
- 简单的
- 结构体
- 结构化
- 主题
- 订阅
- 这样
- 合适的
- 概要
- 肯定
- 符号
- 系统
- 产品
- 采取
- 拍摄
- 服用
- 专业技术
- 比
- 谢谢
- 这
- 信息
- 其
- 他们
- 然后
- 那里。
- 因此
- 博曼
- 他们
- 认为
- 第三
- 第三者
- Free Introduction
- 那些
- 三
- 次
- 标题
- 至
- 今天的
- TONE
- 也有
- 了
- 热门
- 向
- 培训
- 熟练
- 产品培训
- 透明
- 试验
- true
- 信任
- 尝试
- 转
- 谈到
- 二
- 类型
- 理解
- 理解
- 直到
- 最新动态
- us
- 用法
- 使用
- 用过的
- 用户
- 用户
- 运用
- 车辆
- 非常
- 想
- 是
- 方法..
- we
- 卷筒纸
- 重量
- 井
- 为
- 什么是
- ,尤其是
- 这
- 而
- 为什么
- 将
- 窗口
- 中
- 也完全不需要
- 话
- 工作
- 世界
- 价值
- 黄色
- 您
- 您一站式解决方案
- 你自己
- 和风网