ChatGPT 对您的了解：OpenAI 的数据隐私之旅

由柏拉图重新发布

关注： 0

数据隐私

在20月XNUMX日ChatGPT数据中断引发的所有担忧之后，我们很快观察到了外界的一些反应。 最给力的那一个？ 意大利因数据隐私问题禁止 ChatGPT.

事件发生近一个月后，OpenAI已经针对用户数据隐私采取了一些行动： 可以关闭聊天记录并导出您的个人数据，即他们从您与 ChatGPT 交互中保留的数据。

本文概述了这两个 OpenAI 在数据隐私方面采取的主要行动 在强大的AI生成技术ChatGPT中。我们将尝试这两项新功能，并仔细查看 ChatGPT 从用户那里保留的数据，以帮助您理解给定的格式，从而解释您的数据。

#1. 关闭聊天记录

ChatGPT 历史记录不仅仅是存储您与聊天机器人的对话的一种方式，以便您可以随时登录并查看过去的对话： 您的聊天历史记录还用于训练和改进 ChatGPT 背后的模型。

聊天历史记录于 15 年 2022 月 XNUMX 日启用，说实话：我们都从对话存储中受益！但这一功能确实引发了一些数据隐私问题： ChatGPT 是否保留对话数据来训练其人工智能模型？ 如果在这些对话中共享敏感或个人数据怎么办？

现在 OpenAI 已经赋予用户控制它的能力！ 根据 OpenAI的公告，从 25 月 XNUMX 日起，可以禁用聊天记录，这样对话就不会再出现在侧边栏上。此外，它们不会用于进一步的培训，从而为用户提供管理数据的选项。

以前，用户可以根据需要定期清除聊天记录，但任何对话仍然可以用于微调。截至目前，如果聊天记录被禁用， 对话仅保留 30 天。这样做是为了防止由于滥用该工具而需要审查对话，然后永久删除它们。

禁用聊天记录非常简单 个人设置 控制。访问 个人设置 在 Web 界面中，导航至主页的左下部分。将弹出一个小窗口，您将在其中找到以下控件 聊天记录和培训:

此时，我相信您也会注意到其中的问题：
为什么 OpenAI 将保存您的聊天历史记录与使用这些数据来训练其 AI 模型结合起来？

我想这是一种对用户施加微压力的方式，让他们继续使用他们的对话进行培训。 作为支持 OpenAI 的一点，从我的专业经验来看，我清楚地看到使用这些真实数据进行训练的好处。

#2. 导出您的个人数据

OpenAI还在ChatGPT的设置中添加了第二个新功能： an 出口获取 ChatGPT 数据的选项 并找出 ChatGPT 存储了有关您的哪些信息。

这个新选项可以被视为朝着欧盟通用数据保护条例（通用数据保护条例）。除其他声明外，GDPR 还定义了： 数据处理者有义务促进对其个人数据的访问。这就是平台收集个人信息的原因，例如谷歌 or Netflix公司 现在有义务随时向用户发送他们从用户那里获得的数据。

在网页界面中，导出个人数据也非常简单。这 出口数据 按钮位于 聊天记录和培训 一：

就在导出数据前几分钟，我在注册电子邮件收件箱中收到了包含我的对话和其他相关信息的文件。

确认导出操作后，这是我的邮箱中收到的内容：

点击即可下载按钮，我得到了一个包含 5 个文件的文件夹 html 和 json 格式。

如果这些深入的教育内容对您有用，则可以订阅我们的AI研究邮件列表当我们发布新材料时被提醒。

允许用户索取个人数据的公司遵守上述 GDPR 法规。然而，有一个问题： 文件格式可能会使大多数人无法读取数据。在这种情况下，我们得到了两个 html 和 json 文件。尽管 html 可以直接读取， json 文件可能更难以解释。我个人认为新法规还应该强制执行数据的可读格式。 但暂时……

让我们逐一探索这些文件，以充分利用这一新功能！

聊天记录

第一个文件是 chat.html 其中包含我与 ChatGPT 的全部聊天记录。对话与其相应的标题一起存储。用户的问题和ChatGPT的答案被标记为 assistant和 user。

如果您曾经自己训练过人工智能模型，那么这个标签系统听起来会很熟悉.

让我们观察一下我的历史记录中的一个示例对话：

从我的 ChatGPT 历史记录中自制的屏幕截图。对话标题以蓝色突出显示。用户/助理标签分别以红色和绿色突出显示。

用户反馈

您是否曾在任何 ChatGPT 答案旁边看到过竖起大拇指、竖起大拇指的图标 (👍👎)？

ChatGPT 将此信息视为给定答案的反馈，这将有助于聊天机器人的训练。

该信息存储在 message_feedback.json 文件包含您使用拇指图标向 ChatGPT 提供的任何反馈。信息以以下格式存储：

[{"message_id": <MESSAGE ID>, "conversation_id": <CONVERSATION ID>, "user_id": <USER ID>, "rating": "thumbsDown", "content": "{"tags": ["not-helpful"]}"}]

thumbsDown 评级考虑了错误生成的答案，而 thumbsUp 考虑正确生成的。

用户数据

还有一个文件（user.json）包含以下用户个人数据：

{"id": <USER ID>, "email": <USER EMAIL>, "chatgpt_plus_user": [true|false], "phone_number": <USER PONE>}

一些平台因根据平台的使用情况创建用户模型而闻名. 例如，如果谷歌用户的搜索主要与编程有关，谷歌很可能推断用户是程序员，并利用这些信息来展示个性化广告。

ChatGPT 可以对对话中的信息执行相同的操作，但他们目前有义务将此推断的信息包含在导出的数据中.

⚠️ 仅供参考， 人们可以通过点击帐户>>数据和隐私>>个性化广告>>我的广告中心来访问Google从Gmail中了解的信息。

完整的对话历史记录

还有另一个文件包含对话历史记录，还包括一些元数据。该文件名为 conversations.json 和 包括创建时间、多个标识符以及 ChatGPT 背后的模型等信息.

⚠️ 元数据提供有关主要数据的信息。它可能包括数据的来源、含义、位置、所有权和创建等信息。元数据说明与主数据相关的信息，但它不是主数据的一部分。

让我们探讨一下关于 A320 液压系统故障 在第一个例子中暴露 json 格式。对话本身包括以下问答：

[用户]： 当空客 320 飞机的三个液压系统之一发生故障时会发生什么？ [助手]： 空客A320飞机配备了三个独立的液压系统，每个系统为飞机的不同部分提供液压动力。 液压系统标记为绿色、蓝色和黄色 [...] [用户]： 您知道在双液压故障的情况下飞行员会做什么吗？

[助手]： 如果空客 A320 飞机发生双液压故障，飞行员将面临更具挑战性的情况，因为所有三个液压系统都受到影响，并且没有冗余可以依靠 [...]

从这个简单的对话中，OpenAI 保留了相当多的信息。我们来回顾一下存储的信息：

{ "title":"A320 Hydraulic System Failure.", "create_time":1682368832.626937, "update_time":1682369104.0, "mapping": { [+] }, "moderation_results":[] "current_node":"<children_id4>", "plugin_ids":null, "id":"<conversation_id>"
}

主要领域 json 文件包含以下信息：

场 moderation_results 是空的，因为 在这个具体案例中，没有向 ChatGPT 提供反馈。此外，该 [+] 中的符号 mapping 字段意味着有更多信息可用。

事实上，在 mapping 字段包含有关对话本身的所有信息。由于对话有四种交互，因此映射存储一种 children 每次互动的条目。

{ "<mapping_id>":{ [+] }, "<parent_id>":{ [+] }, "<children_id>":{ [+] }, "<children_id2>":{ [+] }, "<children_id3>":{ [+] }, "<children_id4>":{ [+] }
}

再次，在 [+] 符号表示有更多信息可用。 让我们回顾一下不同的条目！

mapping_id: 它包含一个 id 用于对话以及有关创建时间和内容类型等的信息。据人们推测，它还创造了一种 parent_id 用于对话和 children_id 对应于用户与 ChatGPT 的以下交互。这是一个例子：

{ "id":"<mapping_id>", "message":{ "id":"<message_id>", "author":{ "role":"system", "name":null, "metadata":{ } }, "create_time":1682369079.639335, "update_time":null, "content":{ "content_type":"text", "parts":[ "" ] }, "end_turn":true, "weight":1.0, "metadata":{ }, "recipient":"all" }, "parent":"<parent_id>", "children":[ "<children_id>" ]
}

children_idX：新 children 为用户或助理的每次交互创建条目。由于对话有四个交互， json 文件显示四个 children 条目。每个 children 条目具有以下结构：

{ "id":"<children_id>", "message":{ "id":"<children_id>", "author":{ "role":"user", "name":null, "metadata":{ } }, "create_time":1682368832.628375, "update_time":null, "content":{ "content_type":"text", "parts":[ "What happens when one of the three hydraulic systems of a plane airbus 320 fails?" ] }, "end_turn":null, "weight":1.0, "metadata":{ "timestamp_":"absolute", "message_type":null }, "recipient":"all" }, "parent":"<mapping_id>", "children":[ "<children_id2>" ]
}

最快的 children 通过使条目嵌套在对话中 mapping_id 作为家长和第二次互动 ——来自ChatGP的回答—— 作为第二个孩子。

Children 与 ChatGPT 答案相对应的包含附加字段。例如，对于第二次交互：

{ "id":"<children_id2>", "message":{ "id":"<children_id2>", "author":{ "role":"assistant", "name":null, "metadata":{ } }, "create_time":1682368856.590211, "update_time":null, "content":{ "content_type":"text", "parts":[ "The Airbus A320 aircraft is equipped with three independent hydraulic systems, each providing hydraulic power to different parts of the aircraft. The hydraulic systems are labeled as Green, Blue, and Yellow.nnIf one of the hydraulic systems of an Airbus A320 aircraft fails, the other two systems are designed to provide redundancy and ensure that the aircraft remains controllable. The remaining systems will automatically take over the functions of the failed system, so there should be no loss of control of the aircraft.nnHowever, the failure of one hydraulic system will result in a reduction of hydraulic pressure, which can affect the performance of some aircraft systems. For example, if the Green hydraulic system fails, some components like the slats, flaps, and some spoilers will be affected as they are powered by the Green system only. This can cause the aircraft to experience reduced maneuverability and increased drag, which can affect the ability of the aircraft to climb or maintain altitude.nnIn such a situation, the pilots will follow the procedures outlined in the aircraft's emergency checklist to manage the situation and ensure that the aircraft is flown safely to the nearest suitable airport for landing. The exact procedures will depend on the nature of the failure, but the pilots will prioritize maintaining control of the aircraft and ensuring the safety of the passengers and crew." ] }, "end_turn":true, "weight":1.0, "metadata":{ "message_type":null, "model_slug":"text-davinci-002-render-sha", "finish_details":{ "type":"stop", "stop":"<|im_end|>" }, "timestamp_":"absolute" }, "recipient":"all" }, "parent":"<children_id>", "children":[ "<children_id3>" ]
}

对于 ChatGPT 答案， 我们获得有关 ChatGPT 背后模型的信息 和停止词。它还显示了第一个 children 因为它 parent 第三 children 如下面的交互。

完整文件可以在此 GitHub 中找到要旨.

模型比较

当您不完全相信 ChatGPT 提供的响应时，您是否曾经使用过“重新生成响应”按钮？

这个反馈信息也被保存了！

最后一个文件名为 model_comparisons.json 这 包含对话片段以及 ChatGPT 重新生成响应时的连续尝试。该信息仅包含没有标题的文本，但包括一些其他元数据。这是该文件的基本结构：

{ "id":"<id>", "user_id":"<user_id>", "input":{[+]}, "output":{[+]}, "metadata":{[+]}, "create_time": "<time>"
}

metadata 字段包含一些重要信息，例如对话发生的国家和大陆，以及有关对话的信息 https 访问架构等。该文件有趣的部分在于 input/output 条目：

输入

input 包含原始对话中的消息集合。交互根据以下内容进行标记作者并且，与前面的情况一样，还存储了一些附加信息。让我们观察一下为示例对话存储的消息：

[系统]： 你是 ChatGPT，一个由 OpenAI 训练的大型语言模型，基于 GPT-3.5 架构。n 知识截止时间：2021-09n 当前日期：2023-04-07。 [用户]： 当空客 320 飞机的三个液压系统之一发生故障时会发生什么？ [助手]： 空客A320飞机配备了三个独立的液压系统，每个系统为飞机的不同部分提供液压动力。 液压系统标记为绿色、蓝色和黄色 [...] [用户]： 您知道在双液压故障的情况下飞行员会做什么吗？ [助手]： 如果空客 A320 飞机发生双液压故障，飞行员将面临更具挑战性的情况，因为所有三个液压系统都受到影响，并且没有冗余可以依靠 [...]

User/Assistant 预计会有条目，但我确信此时我们都想知道 为什么有一个 system 标签？

而且， 为什么他们在每次谈话开始时都会给出这样的初始陈述？

ChatGPT 是否会在任何新对话中预输入当前日期？

是的, 这些条目就是所谓的系统消息.

系统消息

系统消息向助手提供总体指示。 他们帮助设定助理的行为。在Web界面中，系统消息对用户来说是透明的，这就是为什么我们不能直接看到它们。

系统消息的好处是它允许开发人员调整助手，而无需使请求本身成为对话的一部分。可以使用 API 来馈送系统消息。例如，如果您正在构建一名汽车销售助理，一条可能的系统消息可能是 “你是一名汽车销售助理。使用友好的语气向用户提问，直到您了解他们的必要性。然后，解释符合他们喜好的可用汽车”。您甚至可以提供车辆、规格和价格列表，以便助手也可以提供这些信息。

输出

输出条目包含 ChatGPT 给出的响应以及每次点击时的连续尝试 重新生成响应 按钮：

{ "output":{ "feedback_version":"inline_regen_feedback:a:1.0", "ui_feature_name":"inline_regen_feedback", "ui_feature_variant":"a", "ui_feature_version":"1.0", "feedback_step_1":{[+]}, "feedback_step_2":{ "original_turn":[ { "id":"<original_turn_id>", "author":{[+]}, "create_time":1680877473.736083, "update_time":null, "content":{<original_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "new_turn":[ { "id":"<new_turn_id>", "author":{[+]}, "create_time":1680877502.81384, "update_time":null, "content":{<new_response>}, "end_turn":true, "weight":1.0, "recipient":"all" } ], "completion_comparison_rating":"new", "new_completion_placement":"not-applicable", "feedback_start_time":1680877456156, "compare_step_start_time":1680877456156, "new_completion_load_start_time":1680877456156000, "new_completion_load_end_time":1680877502976, "frontend_submission_time":1680877507949 } }
}

如上所述， feedback_step_1 条目存储有关前面提到的赞成/反对反馈的信息。

再生信息存储在 feedback_step_2 包含第一个子条目的条目 original_turn 对于原始响应和重试响应 new_turn.

这就是 OpenAI 保留的有关我们与 ChatGPT 交互的所有信息！ 我认为了解存储哪些信息对于两个主要目的很有用。

首先，在当今的数据世界中， 关心我们的隐私并了解平台存储和推断的有关我们的信息非常重要。其次，了解信息的构造和处理方式可以帮助我们以 ChatGPT 作为起点构建定制模型。例如，通过查看我们自己的数据， 我们意识到您可以向 ChatGPT 提供系统消息来引导客服人员 出于我们希望代理以对用户透明的方式工作的目的。

总结

在本文中，我们回顾了 OpenAI 在用户数据隐私方面所采取的行动，作为对过去几个月提出的担忧的回应。

关闭聊天历史记录的可能性和随时导出个人数据的新功能都是保护 ChatGPT 用户的明确步骤。我个人认为这些步骤是通过遵守相关数据保护法规来优先考虑数据隐私的承诺。 透明度和安全性是建立信任和确保负责任的人工智能使用的关键.

从我们的角度来看 — 用户端 — 我认为值得了解管理我们的数据隐私的可能性。特别是关于这两个控制基本点的新功能，例如确保您与 ChatGPT 的交互不会用于培训目的（如果您不愿意），或者明确接收公司拥有的有关您的确切数据。

当然，使用该技术还存在其他风险。例如，用户还应该知道 数据保留政策。即了解平台保留数据的时间，理想情况下应该是最短的时间。了解 数据的预期用途 您向人工智能平台提供信息并被告知 平台是否与第三方共享您的数据以及共享的目的是什么 也应该是我们主要关注的一部分。

通过考虑这些因素， 用户可以对其数据隐私做出明智的决定 使用 ChatGPT 或任何其他大型语言模型时。

主动了解您的数据的处理方式并采取措施保护您的隐私权非常重要。

仅此而已！非常感谢您的阅读！

我希望这篇文章有帮助 了解 ChatGPT 从我们的对话中保留的信息，以及 管理新的 OpenAI 功能以实现数据隐私.

您也可以订阅我的 订阅电子邮件 敬请关注新内容。特别, 如果您对有关 ChatGPT 的文章感兴趣.

这篇文章最初发表于走向数据科学并在获得作者许可的情况下重新发布到TOPBOTS。

当我们发布更多像这样的摘要文章时，我们会通知您。

使用拥抱面部变压器在PyTorch中微调变压器

源群集：

热门

源节点： 747727

时间戳记： 2021 年 3 月 4 日

Vision Transformers 的创意方面

源群集：

热门

源节点： 1133843

时间戳记： 2021 年 9 月 23 日

由柏拉图重新发布

先进的AI研究技术可个性化您的客户体验

深度学习中的变异方法

DALL·E 2，解释：革命性人工智能的承诺和局限性

评估开放域会话代理的新方法

集成学习实用指南

在线实验技巧——减少方差

为您的 NLP 用例选择正确的语言模型

使用拥抱面部变压器在PyTorch中微调变压器

Vision Transformers 的创意方面

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理