最强大的 7 种语言 (LLM) 和视觉语言模型 (VLM) 将在 2023 年改变人工智能

最强大的 7 种语言 (LLM) 和视觉语言模型 (VLM) 将在 2023 年改变人工智能

源节点: 2757531

BLIP-2,视觉语言模型

在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。 建立在以下基础上 变压器架构BERT的双向升级近年来出现了几种突破性的语言模型,突破了机器理解和生成的界限。

在本文中,我们将深入研究大规模语言模型领域的最新进展,探索每个模型引入的增强功能、其功能和潜在应用。 我们还将研究视觉语言模型 (VLM),这些模型经过训练不仅可以处理文本数据,还可以处理视觉数据。

如果您想跳过,以下是我们推荐的语言模型:

  1. OpenAI 的 GPT-3
  2. 谷歌的 LaMDA
  3. Google 的 PaLM
  4. DeepMind 的火烈鸟
  5. Salesforce 的 BLIP-2
  6. Meta AI 的 LLaMA
  7. OpenAI 的 GPT-4

如果这些深入的教育内容对您有用,则可以 订阅我们的AI研究邮件列表 当我们发布新材料时被提醒。 

2023 年最重要的大型语言模型 (LLM) 和视觉语言模型 (VLM)

1. OpenAI 的 GPT-3

总结 

OpenAI 团队引入了 GPT-3 作为为每个新语言任务提供标记数据集的替代方案。 他们建议扩大语言模型可以提高与任务无关的小样本性能。 为了测试这个建议,他们训练了一个 175B 参数的自回归语言模型,称为 GPT-3,并评估了它在超过两打 NLP 任务上的表现。 在少样本学习、单样本学习和零样本学习下的评估表明,GPT-3 取得了可喜的结果,甚至偶尔超过了微调模型所取得的最先进的结果。 

目标是什么? 

  • 当每个新语言任务都需要标记的数据集时,为现有问题提出替代解决方案。

问题是如何解决的?

  • 研究人员建议扩大语言模型以提高与任务无关的小样本性能。 
  • GPT-3 模型使用与 GPT-2 相同的模型和架​​构,包括修改的初始化、预归一化和可逆标记化。
  • 但是,与GPT-2相比,它在变压器的各层使用交替的密集和局部条带的稀疏注意模式,如 稀疏变压器.
GPT-3

结果是什么?

  • 无需微调的GPT-3模型就可以在许多NLP任务上取得可喜的结果,甚至有时会超过针对该特定任务进行了微调的最新模型:
    • 点击 品质保证 基准,零镜头设置为81.5 F1,单镜头设置为84.0 F1,少拍设置为85.0 F1,而微调SOTA则为90.7 F1。
    • 点击 问答 基准,零镜头设置中的准确度为64.3%,单镜头设置中的准确度为68.0%,单镜头设置中的准确度为71.2%,比最新技术水平(68%)高出3.2%。
    • 点击 兰巴达 数据集,零镜头设置中的准确度为76.2%,单镜头设置中的准确度为72.5%,单镜头设置中的准确度为86.4%,比最新技术水平(68%)高18%。
  • 根据人工评估,由175B参数的GPT-3模型生成的新闻很难与真实新闻区分开(准确度仅高于52%的机会水平)。 
  • 尽管 GPT-3 表现出色,但它在 AI 社区中的评价褒贬不一:

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

  • 该代码本身不可用,但是一些数据集统计信息以及来自GPT-2048的无条件,未经过滤的3令牌样本在 GitHub上.

2.谷歌的LaMDA

总结 

La语言 M模型 D对话 A应用程序(拉曼达) 是通过微调一组专门为对话设计的基于 Transformer 的神经语言模型的过程创建的。 这些模型最多有 137B 个参数,并且经过训练可以使用外部知识来源。 LaMDA 开发人员牢记三个关键目标——质量、安全性和接地性。 结果表明,微调可以缩小与人类水平的质量差距,但模型在安全性和接地性方面的表现仍然低于人类水平。 

谷歌的吟游诗人, 发布 最近作为 ChatGPT 的替代品,由 LaMDA 提供支持。 尽管巴德经常被贴上标签 无聊,这可以被视为谷歌承诺将安全放在首位的证据,即使在谷歌和微软为在生成人工智能领域确立主导地位而展开的激烈竞争中也是如此。

目标是什么? 

  • 为开放域对话应用程序构建模型,其中对话代理能够就任何主题进行对话,其响应是明智的、特定于上下文的、基于可靠来源且合乎道德的。

问题是如何解决的?

  • LaMDA 建立在 变压器,一种由 Google Research 于 2017 年发明并开源的神经网络架构。
    • 与其他大型语言模型(包括 BERT 和 GPT-3)一样,LaMDA 接受了 TB 级文本数据的训练,以了解单词之间的关系,然后预测下一个可能出现的单词。 
    • 然而,与大多数语言模型不同的是,LaMDA 在对话方面接受了训练,以了解将开放式对话与其他形式的语言区分开来的细微差别。
  • 该模型还经过微调,以提高其反应的敏感性、安全性和特异性。 虽然像“那很好”和“我不知道”这样的短语在许多对话场景中可能有意义,但它们不太可能导致有趣和引人入胜的对话。
    • LaMDA 生成器首先生成几个候选响应,所有这些响应都根据它们的安全、明智、具体和有趣程度进行评分。 过滤掉安全分数低的响应,然后选择排名靠前的结果作为响应。
LaMDA 对话框示例

结果是什么?

  • 大量实验表明,LaMDA 可以参与各种主题的开放式对话。
  • 一系列定性评估证实,该模型的反应往往是明智的、具体的、有趣的,并且基于可靠的外部资源,但仍有改进的空间。
  • 尽管迄今为止取得了所有进展,但作者认识到该模型仍有许多局限性,可能会导致产生不适当甚至有害的反应。

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

  • LaMDA 预训练架构的开源 PyTorch 实现可在 GitHub上.

3.谷歌的PaLM

总结 

Pa路过 L痛苦 M模型 (棕榈) 是一个 540 亿参数,基于 Transformer 的语言模型。 PaLM 使用 Pathways 在 6144 TPU v4 芯片上进行训练,Pathways 是一种新的 ML 系统,可跨多个 TPU Pod 进行高效训练。 该模型展示了在少样本学习中扩展的好处,在数百种语言理解和生成基准上取得了最先进的结果。 PaLM 在多步推理任务上的表现优于经过微调的最先进模型,并且在 BIG-bench 基准测试中超过了人类的平均表现。

目标是什么? 

  • 提高对大型语言模型的缩放如何影响小样本学习的理解。

问题是如何解决的?

  • 关键思想是用 Pathways 系统扩展 540 亿参数语言模型的训练:
    • 该团队在两个 Cloud TPU v4 Pod 上使用 Pod 级别的数据并行性,同时在每个 Pod 内使用标准数据和模型并行性。
    • 他们能够将训练扩展到 6144 个 TPU v4 芯片,这是迄今为止用于训练的最大的基于 TPU 的系统配置。
    • 该模型实现了 57.8% 的硬件 FLOP 利用率的训练效率,正如作者所声称的,这是该规模的大型语言模型的最高训练效率。 
  • PaLM 模型的训练数据包括英语和多语言数据集的组合,其中包含高质量的 Web 文档、书籍、维基百科、对话和 GitHub 代码。
Google 的 PaLM 模型

结果是什么?

  • 大量实验表明,随着团队扩展到他们最大的模型,模型性能急剧提高。
  • PaLM 540B 在多项非常困难的任务上取得了突破性的表现:
    • 语言理解和生成. 引入的模型在 28 项任务中的 29 项上超过了先前大型模型的少镜头性能,这些任务包括问答任务、完形填空和句子完成任务、上下文阅读理解任务、常识推理任务、SuperGLUE 任务和更多的。 PaLM 在 BIG-bench 任务上的表现表明它可以区分因果关系,以及理解适当上下文中的概念组合。
    • 推理. 通过 8-shot 提示,PaLM 解决了 GSM58K 中 8% 的问题,这是数千个具有挑战性的小学数学问题的基准,超过了之前通过微调 GPT-55 3B 模型获得的 175% 的最高分。 PaLM 还展示了在需要多步骤逻辑推理、世界知识和深度语言理解的复杂组合的情况下生成明确解释的能力。
    • 代码生成. PaLM 的性能与经过微调的 Codex 12B 相当,而用于训练的 Python 代码减少了 50 倍,这证实了大型语言模型可以更有效地从其他编程语言和自然语言数据中迁移学习。

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

  • PaLM 研究论文中特定 Transformer 架构的非官方 PyTorch 实现可在 GitHub上. 它不会扩展并且仅出于教育目的发布。 

4. DeepMind 的火烈鸟

总结 

Flamingo 是一个尖端的视觉语言模型 (VLM) 系列,在包含混合文本和图像的大规模多模态网络语料库上进行训练。 通过这种训练,模型可以使用最少的带注释的示例(作为提示提供)来适应新任务。 Flamingo 融合了关键的架构进步,旨在融合预训练的仅视觉和仅语言模型的优势,处理可变交错的视觉和文本数据序列,并无缝容纳图像或视频作为输入。 这些模型展示了对一系列图像和视频任务(例如视觉问答、字幕任务和多项选择视觉问答)的令人印象深刻的适应性,在几次学习中使用特定于任务的提示设定了新的性能标准。

目标是什么? 

  • 为了在使多模式模型能够根据简短指令快速学习和执行新任务方面取得进展:
    • 广泛使用的范例是在大量监督数据上预训练模型,然后针对特定任务对其进行微调,这种范例是资源密集型的,需要数千个带注释的数据点以及仔细的每个任务超参数调整。 
    • 当前使用对比目标的模型允许零样本适应新任务,但无法完成字幕或视觉问答等开放式任务,因为它们缺乏语言生成能力。 
    • 本研究旨在引入一种新模型,可以有效解决这些问题,并在低数据情况下展示卓越的性能。

问题是如何解决的?

  • DeepMind 推出了 Flamingo,VLM 专为各种开放式视觉和语言任务的小样本学习而设计,仅使用少量输入/输出示例。
  • Flamingo 模型是视觉条件自回归文本生成模型,可以处理与图像和/或视频混合的文本标记并生成文本作为输出。
  • Flamingo 的架构包含两个互补的预训练和冻结模型:
    • 能够“感知”视觉场景的视觉模型。
    • 负责执行基本推理的大型语言模型。
  • 新颖的架构组件以保留在计算密集型预训练期间获得的知识的方式集成这些模型。
  • 此外,Flamingo 模型采用基于感知器的架构,使它们能够摄取高分辨率图像或视频。 该架构可以从广泛且可变的视觉输入特征阵列中为每个图像/视频生成固定数量的视觉标记。

结果是什么?

  • 研究表明,与 LLM 一样,VLM 可以从一些输入/输出示例中学习图像和视频理解任务,例如分类、字幕或问答。
  • Flamingo 在少样本学习方面树立了新的基准,在 16 种多模态语言和图像/视频理解任务中展示了卓越的性能。
  • 对于这 6 项任务中的 16 项,Flamingo 超越了最先进的微调性能,尽管它仅使用 32 个特定于任务的示例 - 比当前表现最佳的模型少大约 1000 倍的特定于任务的训练数据。
Flamingo视觉语言模型

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

5. Salesforce 的 BLIP-2

总结 

BLIP-2 是一种高效且通用的视觉和语言模型预训练框架,旨在规避预训练大型模型日益高昂的成本。 BLIP-2 利用现成的冻结预训练图像编码器和冻结大型语言模型来引导视觉语言预训练,并结合了分两个阶段预训练的轻量级查询转换器。 第一阶段从冻结的图像编码器启动视觉语言表示学习,第二阶段推动从冻结的语言模型进行视觉到语言的生成学习。 尽管可训练参数明显减少,但 BLIP-2 的性能优于最先进的方法,在零样本 VQAv80 上超过 DeepMind 的 Flamingo8.7B 2%,可训练参数少了 54 倍。 该模型还展现了遵循自然语言指令的有前途的零样本图像到文本生成功能。

BLIP-2框架
BLIP-2框架概述

目标是什么? 

  • 在视觉语言任务上获得最先进的性能,同时降低计算成本。

问题是如何解决的?

  • Salesforce 团队推出了一种新的视觉语言预训练框架,称为 BLIP-2, B串接 L语言-I法师 P使用冻结的单峰模型重新训练:
    • 预训练的单峰模型在预训练期间保持冻结状态,以减少计算成本并避免灾难性遗忘的问题。
    • 为了促进跨模态对齐并弥合预训练视觉模型和预训练语言模型之间的模态差距,该团队提出了一种轻量级查询变换器(Q-Former),它充当冻结图像编码器和冻结图像之间的信息瓶颈法学硕士。
    • Q-former 使用新的两阶段策略进行了预训练:
      • 第一个预训练阶段执行视觉语言表示学习。 这迫使 Q-Former 学习与文本最相关的视觉表示。
      • 第二个预训练阶段通过将 Q-Former 的输出连接到冻结的 LLM 来执行视觉到语言的生成学习。 Q-Former 经过训练,使其输出的视觉表示可以由法学硕士解释。

结果是什么?

  • BLIP-2 在各种视觉语言任务中提供了卓越的、最先进的结果,包括视觉问答、图像字幕和图像文本检索。
    • 例如,它在零样本 VQAv8.7 上比 Flamingo 好 2%。
  • 此外,这种出色的性能是通过显着提高的计算机效率实现的:
    • BLIP-2 的性能优于 Flamingo-80B,同时使用的可训练参数减少了 54 倍。 
  • BLIP-2 能够响应自然语言指令进行零样本图像到文本生成,从而为发展视觉知识推理和视觉对话等技能铺平道路。
  • 最后,值得注意的是,BLIP-2 是一种多功能方法,可以利用更复杂的单峰模型来进一步提高视觉语言预训练的性能。
BLIP-2 结果
BLIP-2 结果

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

官方 BLIP-2 实施可在 GitHub上.

6. Meta AI 的 LLaMA

总结 

Meta AI 团队断言,在更多令牌上训练的较小模型更容易针对特定产品应用进行再训练和微调。 因此,他们介绍 骆驼 (LARGE La语言 M模型元 AI), 一组具有 7B 到 65B 参数的基础语言模型。 LLaMA 33B 和 65B 接受了 1.4 万亿个令牌的训练,而最小的模型 LLaMA 7B 接受了 13 万亿个令牌的训练。 他们专门使用公开可用的数据集,不依赖专有或受限数据。 该团队还实施了关键的架构增强和训练速度优化技术。 因此,LLaMA-3B 的性能优于 GPT-10,体积小 65 多倍,而 LLaMA-540B 的性能与 PaLM-XNUMXB 相媲美。

目标是什么? 

  • 证明仅在可公开访问的数据集上训练顶级模型的可行性,而不依赖于专有或受限的数据源。
  • 为研究社区提供更小、性能更高的模型,从而使那些无法访问大量基础设施的人能够研究大型语言模型。

问题是如何解决的?

  • 为了训练 LLaMA 模型,研究人员仅使用公开可用且与开源兼容的数据。
  • 他们还对标准 Transformer 架构进行了一些改进:
    • 采用 GPT-3 方法,通过对每个 transformer 子层的输入进行归一化,而不是对输出进行归一化,从而提高了训练的稳定性。
    • 受 PaLM 模型的启发,研究人员将 ReLU 非线性替换为 SwiGLU 激活函数,以提高性能。
    • 这篇文章我准备写一个女生。我的灵感来自 苏等 (2021),他们消除了绝对位置嵌入,取而代之的是,在网络的每一层都加入了旋转位置嵌入(RoPE)。
  • 最后,Meta AI 团队通过以下方式提高了模型的训练速度:
    • 通过不存储注意力权重或计算掩码键/查询分数,使用有效的因果多头注意力实现。
    • 使用检查点来最小化反向传递期间重新计算的激活。
    • 通过网络重叠激活计算和 GPU 之间的通信(由于 all_reduce 操作)。

结果是什么?

  • 尽管 LLaMA-13B 的体积小了 3 多倍,但仍超过了 GPT-10,而 LLaMA-65B 与 PaLM-540B 相比也毫不逊色。

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

  • Meta AI 在个案评估的基础上为学术研究人员、与政府、民间社会、学术机构和全球行业研究实验室相关的个人提供 LLaMA 的访问权限。 要申请,请转到以下 GitHub存储库.

7. OpenAI 的 GPT-4

总结 

GPT-4 是一个大规模的多模式模型,接受图像和文本输入并生成文本输出。 出于竞争和安全方面的考虑,有关模型架构和培训的具体细节将被保留。 在性能方面,GPT-4 在传统基准测试中超越了之前的语言模型,并在用户意图理解和安全属性方面显示出显着改进。 该模型还在各种考试中取得了人类水平的表现,包括在模拟统一律师考试中获得前 10% 的分数。

目标是什么? 

  • 开发一个可以接受图像和文本输入并产生文本输出的大规模、多模态模型。 
  • 开发在广泛范围内可预测行为的基础设施和优化方法。

问题是如何解决的?

  • 由于竞争格局和安全隐患,OpenAI 决定隐瞒有关架构、模型大小、硬件、训练计算、数据集构建和训练方法的详细信息。
  • 他们透露:
    • GPT-4 是一种基于 Transformer 的模型,经过预训练以预测文档中的下一个标记。
    • 它利用公开可用的数据和第三方许可的数据。
    • 使用人类反馈强化学习 (RLHF) 对该模型进行了微调。
  • 未经证实的信息表明,GPT-4 并不是像其前身那样的单一密集模型,而是由八个独立模型组成的强大联盟,每个模型包含惊人的 220 亿个参数。
GPT-4 性能

结果是什么?

  • GPT-4 在大多数专业和学术考试中都达到了人类水平的表现,特别是在模拟统一律师考试中得分排名前 10%。
  • 预训练的基础 GPT-4 模型在传统 NLP 基准测试中优于现有语言模型和先前最先进的系统,无需特定于基准的制作或额外的训练协议。
  • GPT-4 在遵循用户意图方面表现出显着改进,在来自 ChatGPT 和 OpenAI API 的 3.5 条提示中,GPT-70.2 的响应优于 GPT-5,214 的响应率为 XNUMX%。
  • 与 GPT-4 相比,GPT-3.5 的安全属性有了显着改善,对不允许的内容请求的响应减少了 82%,对敏感请求(例如,医疗建议和自我伤害)的政策合规性增加了 29%。

在哪里可以了解更多关于这项研究的信息?

在哪里可以获得实现代码?

  • GPT-4 的代码实现不可用。

大型(视觉)语言模型的实际应用

近年来最重要的 AI 研究突破来自在庞大数据集上训练的大型 AI 模型。 这些模型表现出令人印象深刻的性能,思考 AI 如何彻底改变整个行业,如客户服务、营销、电子商务、医疗保健、软件开发、新闻业等,令人着迷。

大型语言模型有许多实际应用。 GPT-4 列出了以下内容:

  • 聊天机器人和虚拟助手的自然语言理解和生成。
  • 语言之间的机器翻译。
  • 文章、报告或其他文本文档的摘要。
  • 用于市场研究或社交媒体监控的情绪分析。
  • 用于营销、社交媒体或创意写作的内容生成。
  • 用于客户支持或知识库的问答系统。
  • 用于垃圾邮件过滤、主题分类或文档组织的文本分类。
  • 个性化的语言学习和辅导工具。
  • 代码生成和软件开发协助。
  • 医疗、法律和技术文件分析和协助。
  • 适用于残障人士的辅助工具,例如文本到语音和语音到文本的转换。
  • 语音识别和转录服务。

如果我们添加视觉部分,可能的应用领域将进一步扩展:

关注最近的 AI 突破并思考它们在现实世界中的潜在应用是非常令人兴奋的。 然而,在现实生活中部署这些模型之前,我们需要解决相应的风险和限制,不幸的是,这些风险和限制非常重要。

风险和限制

如果您向 GPT-4 询问其风险和局限性,它可能会为您提供一长串相关问题。 筛选此列表并添加一些额外的注意事项后,我得出了现代大型语言模型所具有的以下一组主要风险和限制:

  1. 偏见和歧视:这些模型从大量文本数据中学习,这些数据通常包含偏见和歧视性内容。 因此,生成的输出可能会无意中延续基于性别、种族或宗教等因素的刻板印象、冒犯性语言和歧视。
  2. 误传:大型语言模型可能会生成与事实不符、具有误导性或过时的内容。 虽然这些模型是根据各种来源进行训练的,但它们可能并不总是提供最准确或最新的信息。 通常发生这种情况是因为模型优先生成语法正确或看起来连贯的输出,即使它们具有误导性。
  3. 缺乏了解:虽然这些模型似乎可以理解人类语言,但它们主要通过识别训练数据中的模式和统计关联来运作。 他们对自己生成的内容没有深刻的理解,这有时会导致无意义或不相关的输出。
  4. 不适内容:语言模型有时会生成令人反感、有害或不当的内容。 尽管已努力尽量减少此类内容,但由于训练数据的性质以及模型无法辨别上下文或用户意图,此类内容仍可能发生。

结论

大型语言模型无疑彻底改变了自然语言处理领域,并展示了提高各种角色和行业生产力的巨大潜力。 它们生成类人文本、自动执行日常任务以及在创意和分析过程中提供帮助的能力使它们成为当今快节奏、技术驱动的世界中不可或缺的工具。

然而,承认并理解与这些强大模型相关的局限性和风险至关重要。 偏见、错误信息和恶意使用的可能性等问题不容忽视。 随着我们继续将这些人工智能驱动的技术融入我们的日常生活,必须在利用它们的能力和确保人工监督之间取得平衡,尤其是在敏感和高风险的情况下。

如果我们成功地负责任地采用生成式人工智能技术,我们将为人工智能和人类专业知识共同推动创新并为所有人创造更美好世界的未来铺平道路。

喜欢这篇文章吗? 注册以获取更多AI研究更新。

当我们发布更多像这样的摘要文章时,我们会通知您。

时间戳记:

更多来自 热门