问题的核心:揭秘法学硕士培训中的复制 - DATAVERSITY

问题的核心:揭秘法学硕士培训中的复制 – DATAVERSITY

源节点: 3093102

回顾过去 15 个月,随着 ChatGPT 向公众推出和推出,生成式人工智能和大型语言模型 (LLM) 取得的进展占据了各大媒体的头条新闻。 

这一进展的基石是 Transformer 模型架构,由 Google 研究人员团队在题为“注意就是您所需要的”。正如标题所示,所有 Transformer 模型的一个关键特征是注意力机制,论文中定义如下:

“注意力函数可以描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量。输出被计算为值的加权和,其中分配给每个值的权重是通过查询与相应键的兼容性函数计算的。”

生成式人工智能模型的一个特点是大量消耗数据输入,这些数据输入可能包括文本、图像、音频文件、视频文件或输入的任意组合(这种情况通常称为“多模态”)。从版权角度来看,(在许多重要问题中)要问的一个重要问题是培训材料是否保留在 大语言模型 (LLM) 由各个 LLM 供应商制作。为了帮助回答这个问题,我们需要了解文本材料是如何处理的。下面以文本为重点,对法学硕士培训的这一方面进行简短的非技术性描述。 

人类通过将单词按顺序排列来使用自然语言进行交流;有关单词的顺序和特定形式的规则由特定语言(例如英语)决定。所有处理文本的软件系统(以及所有处理文本的人工智能系统)架构的一个重要部分是如何表示该文本,以便最有效地执行系统的功能。因此,在语言模型中处理文本输入的关键步骤是将用户输入分割成人工智能系统可以理解的特殊“单词”。这些特殊的词被称为“标记”。负责此操作的组件称为“标记器”。分词器有很多种类型。例如,OpenAI 和 Azure OpenAI 在其基于生成预训练 Transformer (GPT) 的模型中使用了一种称为“字节对编码 (BPE)”的子字标记化方法。 BPE 是一种将最常出现的字符或字节对合并为单个标记的方法,直到达到一定数量的标记或词汇表大小。词汇量越大,模型生成的文本就越多样化、越富有表现力。

一旦人工智能系统将输入文本映射为标记,它就会将标记编码为数字,并将其处理的序列转换为向量,称为“词嵌入”。向量是一组有序的数字 - 您可以将其视为表格中的行或列。这些向量是标记的表示,保留了作为文本给出的原始自然语言表示。在版权方面了解词嵌入的作用非常重要,因为嵌入形成整个句子甚至段落的表示(或编码),因此,在向量组合中,甚至是高维向量空间中的整个文档。人工智能系统正是通过这些嵌入来捕获并存储自然语言中单词的含义和关系。 

嵌入几乎用于生成式人工智能系统执行的每项任务(例如,文本生成、文本摘要、文本分类、文本翻译、图像生成、代码生成等)。词嵌入通常存储在向量数据库中,但所有存储方法的详细描述超出了本文的范围,因为使用的供应商、流程和实践多种多样。

如前所述,几乎所有法学硕士都基于 Transformer 架构,该架构调用了注意力机制。后者允许人工智能技术将整个句子甚至段落视为一个整体,而不仅仅是字符序列。这使得软件能够捕获单词可能出现的各种上下文,并且由于这些上下文是由培训中使用的作品(包括受版权保护的作品)提供的,因此它们不是任意的。这样,文字的原始用法、原作品的表达方式就被保留在人工智能系统中。它可以被复制和分析,并可以构成新表达的基础(根据具体情况,可以将其定性为版权术语中的“衍生作品”)。 

法学硕士保留了他们接受过培训的原始作品的表达方式。他们在专门构建的向量空间中形成文本的内部表示,并且在适当的输入作为触发器的情况下,他们可以重现训练中使用的原始作品。人工智能系统从用于培训其所依据的法学硕士的内容(包括受版权保护的内容)中获得永久的利益。法学硕士根据原作中的词语表达来识别词语的上下文。这种背景逐渐使人工智能系统受益于训练中使用的数千或数百万受版权保护的作品。这些原创作品可以由人工智能系统重新创建,因为它们存储在受版权保护的作品的向量中——保留其原始自然语言表示的标记的向量空间表示。从版权角度来看,确定法学硕士是否保留培训材料是问题的核心,很明显,这个问题的答案是肯定的。

时间戳记:

更多来自 数据多样性