什么是向量嵌入? | TechTarget 的定义

什么是向量嵌入? | TechTarget 的定义

源节点: 3084305

什么是向量嵌入?

向量嵌入是捕获单词、短语和其他数据类型的关系和含义的数字表示。通过向量嵌入,对象的基本特征或特征被转换为简洁且有组织的数字数组,帮助计算机快速检索信息。相似的数据点在转换为多维空间中的点后会更紧密地聚集在一起。

用途广泛,特别是在自然语言处理中(NLP)和机器学习(ML),向量嵌入有助于操纵和处理数据以完成相似性比较、聚类和分类等任务。例如,当查看文本数据时,诸如 猫咪 尽管字母组成不同,但传达相似的含义。有效的语义搜索依赖于充分捕获术语之间的语义相似性的精确表示。

[嵌入的内容]

嵌入和向量是同一回事吗?

该条款 矢量嵌入 可以在向量嵌入的上下文中互换使用。它们都指的是数字数据表示,其中每个 数据点 被表示为高维空间中的向量。

向量是指具有定义维度的数字数组,而向量嵌入使用这些向量来表示连续空间中的数据点。

这篇文章是其中的一部分

嵌入是指将数据表达为向量,以捕获重要信息、语义链接、上下文质量或通过训练算法学习的数据的有组织的表示或 机器学习模型.

向量嵌入的类型

向量嵌入有多种形式,每种形式都有不同的功能来表示不同类型的数据。以下是一些常见的向量嵌入类型:

  • 词嵌入。 词嵌入是连续空间中单个词的向量表示。它们经常用于捕获任务中单词之间的语义链接,例如 情绪分析、语言翻译和单词相似度。
  • 句子嵌入。 完整句子的向量表示称为句子嵌入。它们对于情感分析、文本分类和信息检索等任务很有帮助,因为它们捕获了句子的含义和上下文。
  • 文档嵌入。 文档嵌入是整个文档的矢量表示,例如文章或报告。它们通常用于文档相似性、聚类和推荐系统等任务,捕获文档的一般含义和内容。
  • 用户配置文件向量。 这些是用户偏好、行为或特征的矢量表示。它们用于 客户细分、个性化推荐系统和有针对性的广告来收集用户特定的数据。
  • 图像向量。 这些是视觉项目的矢量表示,例如图片或视频帧。它们用于诸如以下的任务 对象识别、图像搜索和基于内容的推荐系统来捕获视觉特征。
  • 产品载体。 将产品或项目表示为向量,用于产品搜索、产品分类和推荐系统,以收集产品之间的特征和相似性。
  • 用户配置文件向量。 用户配置文件向量代表用户的偏好、行为或特征。它们用于用户细分、个性化推荐系统和 针对性广告 收集用户特定的数据。

向量嵌入是如何创建的?

向量嵌入是使用机器学习方法生成的,该方法训练模型将数据转换为数值向量。通常,深 卷积神经网络 用于训练这些类型的模型。生成的嵌入通常是密集的(所有值都不为零)并且是高维的(高达 2,000 个维度)。流行的模型,如 Word2Vec、GLoVE 和 BERT 将单词、短语或段落转换为文本数据的向量嵌入。

该过程通常涉及以下步骤:

  1. 组装一个大数据集。 收集捕获特定数据类别(无论是文本还是图像)的数据集。
  2. 预处理数据。 根据数据的类型,清理、准备和 数据预处理 涉及消除噪音、调整照片大小、标准化文本和执行其他操作。
  3. 训练模型。 为了识别数据中的链接和模式,使用数据集训练模型。为了减少目标向量和预测向量之间的差异,预训练模型的参数在训练阶段会发生变化。
  4. 生成向量嵌入。 经过训练,模型可以将新数据转换为数值向量,呈现有意义的结构化表示,有效封装原始数据的语义信息。

向量嵌入可以用于多种数据类型,包括时间序列数据、文本、图片、音频、 三维 (3D) 模型 和视频。由于嵌入的形成方式,具有相似语义的对象在向量空间中将具有彼此接近的向量。

向量嵌入存储在哪里?

向量嵌入存储在专门的数据库中,称为 矢量数据库。这些数据库是数据特征的高维数学表示。与标准的基于标量的数据库或独立的向量索引不同,向量数据库为大规模存储和检索向量嵌入提供了特定的效率。它们提供了有效存储和检索矢量搜索功能的大量数据的能力。

矢量数据库包括几个关键组件,包括性能和 容错。确保矢量数据库具有容错性、复制性和 分片 使用技术。复制是在多个节点上生成数据副本的过程,而分片是在多个节点上对数据进行分区的过程。即使节点发生故障,这也可以提供容错能力和不间断的性能。

矢量数据库在机器学习和人工智能中非常有效(AI)应用程序,因为它们专门管理 非结构化和半结构化数据.

向量嵌入的应用

矢量嵌入在不同行业中有多种用途。向量嵌入的常见应用包括:

  • 推荐系统。 矢量嵌入在 Netflix 和 Amazon 等行业巨头的推荐系统中发挥着至关重要的作用。这些嵌入使组织可以计算用户和项目之间的相似性,将用户偏好和项目特征转换为向量。此过程有助于提供根据个人用户品味量身定制的个性化建议。
  • 搜索引擎。 搜索引擎 广泛使用向量嵌入来提高信息检索的有效性和效率。由于向量嵌入超出了关键字匹配的范围,因此它们可以帮助搜索引擎解释单词和句子的含义。即使确切的短语不匹配,搜索引擎仍然可以通过将单词建模为语义空间中的向量来查找和检索上下文相关的文档或其他信息。
  • 聊天机器人和问答系统。 向量嵌入辅助 聊天机器人和基于人工智能的生成式问答系统 理解和产生类似人类的反应。通过捕获文本的上下文和含义,嵌入可以帮助聊天机器人以有意义且合乎逻辑的方式响应用户的询问。例如,语言模型和人工智能聊天机器人,包括 GPT-4 和图像处理器,例如 达尔-E2,因产生类似人类的对话和响应而广受欢迎。
  • 欺诈检测和异常值检测。 向量嵌入可用于通过评估向量之间的相似性来检测异常或欺诈活动。通过评估嵌入和精确定位之间的距离来识别不常见的模式 离群.
  • 数据预处理。 改造 将未处理的数据转换为适合机器学习的格式 和深度学习模型,嵌入用于数据预处理活动。例如,词嵌入用于将词表示为向量,这有助于文本数据的处理和分析。
  • 一次性学习和零次学习。 一次性学习和零次学习是向量嵌入方法,即使在提供有限的标记数据的情况下,也可以帮助机器学习模型预测新类别的结果。通过使用嵌入中包含的语义信息,即使使用少量训练实例,模型也可以概括并生成预测。
  • 语义相似性和聚类。 向量嵌入可以更轻松地衡量两个对象在高维环境中的相似程度。这使得计算语义相似度、基于相关事物的嵌入进行聚类和组装等操作成为可能。
Image showing vector embedding in chatbots.
嵌入使聊天机器人能够以有意义且合乎逻辑的方式响应用户的询问。

可以嵌入什么类型的东西?

许多不同类型的对象和数据类型可以使用向量嵌入来表示。可以嵌入的常见类型包括:

文本

使用文本嵌入将单词、短语或文档表示为向量。 NLP 任务(包括情感分析、语义搜索和语言翻译)经常使用嵌入。

通用句子编码器是最流行的开源嵌入模型之一,它可以有效地对单个句子和整个文本块进行编码。

图片

图像嵌入捕获图像的视觉特征并将其表示为向量。它们的用例包括对象识别、图片分类和反向图像搜索,通常称为 按图片搜索.

图像嵌入还可用于启用视觉搜索功能。通过从数据库图像中提取嵌入,用户可以将查询图像的嵌入与数据库照片的嵌入进行比较,以找到视觉上相似的匹配。这常用在 电子商务行业 应用程序,用户可以通过上传类似产品的照片来搜索商品。

Google Lens 是一款图像搜索应用程序,可将相机照片与视觉上相似的产品进行比较。例如,它可以用来匹配类似于一双运动鞋或一件衣服的互联网产品。

Audio

音频嵌入是音频信号的向量表示。矢量嵌入捕获听觉属性,让系统更有效地解释音频数据。例如,音频嵌入可用于音乐推荐、流派分类、音频相似性搜索、语音识别和说话人验证。

虽然人工智能被用于各种类型的嵌入,但音频人工智能比文本或图像人工智能受到的关注要少。谷歌语音转文本和 OpenAI Whisper 是呼叫中心、医疗技术、辅助功能和语音转文本应用程序等组织中使用的音频嵌入应用程序。

图嵌入使用向量来表示图中的节点和边。他们是 用于与图形分析相关的任务 例如链接预测、社区识别和推荐系统。

每个节点代表一个实体,例如人、网页或产品,每条边象征这些实体之间存在的链接或连接。这些向量嵌入可以完成从推荐朋友到 社会网络 检测网络安全问题。

时间序列数据和 3D 模型

时间序列嵌入捕获顺序数据中的时间模式。它们用于 物联网 用于包括异常检测在内的活动的应用程序、财务数据和传感器数据, 时间序列预测 和模式识别。

3D 对象的几何方面也可以使用 3D 模型嵌入表示为向量。它们应用于 3D 重建、对象检测和形状匹配等任务。

分子

分子嵌入将化合物表示为向量。它们用于药物发现、化学相似性搜索和分子特性预测。这些嵌入还用于计算化学和药物开发,以捕获分子的结构和化学特征。

Image showing vector embeddings of objects.
结构化数字集用作对象的向量嵌入。

什么是 Word2Vec?

Word2Vec 是一种流行的 NLP 词向量嵌入方法。 Word2Vec 由 Google 创建,旨在将单词表示为连续向量空间中的密集向量。它可以识别文档中单词的上下文,常用于文本分类、情感分析和 机器翻译 帮助机器更有效地理解和处理自然语言。

Word2Vec 基于具有相似含义的单词应该具有相似的向量表示的原则,使模型能够捕获单词之间的语义联系。

Word2Vec 有两种基本架构, CBOW(连续词袋)和 Skip-Gram:

  • CBOW。 该架构根据上下文单词预测目标单词。该模型被给予上下文或周围的单词,并负责预测中心的目标单词。例如,在句子“The Quick Brown Fox Jumps Over the Lazy Dog”中,CBOW 使用上下文或周围的单词来预测 狐狸 作为目标词。
  • 斯基普-格拉姆。 与 CBOW 不同,Skip-Gram 架构根据目标单词预测上下文单词。该模型被赋予一个目标词,并被要求预测周围的上下文术语。以上面的示例句子“The Quick Brown Fox Jumps Over the Lazy Dog”为例,skip-gram 将采用目标词 狐狸 并发现上下文单词,例如“The”、“quick”、“brown”、“jumps”、“over”、“the”、“lazy”和“dog”。

众多企业开始拥抱生成式人工智能,展示了其颠覆性潜力。检查 生成式人工智能是如何发展的未来会向什么方向发展以及可能出现的挑战。

时间戳记:

更多来自 物联网议程