O que são incorporações vetoriais? | Definição do TechTarget

O que são incorporações vetoriais? | Definição do TechTarget

Nó Fonte: 3084305

O que são incorporações vetoriais?

Incorporações vetoriais são representações numéricas que capturam as relações e o significado de palavras, frases e outros tipos de dados. Através da incorporação de vetores, características ou características essenciais de um objeto são traduzidas em uma matriz concisa e organizada de números, ajudando os computadores a recuperar informações rapidamente. Pontos de dados semelhantes são agrupados mais próximos após serem traduzidos em pontos em um espaço multidimensional.

Usado em uma ampla gama de aplicações, especialmente em processamento de linguagem natural (PNL) e aprendizado de máquina (ML), os embeddings de vetores ajudam a manipular e processar dados para tarefas como comparações de similaridade, agrupamento e classificação. Por exemplo, ao analisar dados de texto, palavras como gato e gatinho transmitem significados semelhantes, apesar das diferenças na composição das letras. A busca semântica eficaz depende de representações precisas que capturem adequadamente essa semelhança semântica entre os termos.

[Conteúdo incorporado]

Incorporações e vetores são a mesma coisa?

Os termos vetores e incorporações pode ser usado de forma intercambiável no contexto de incorporações de vetores. Ambos se referem a representações de dados numéricos em que cada ponto de dados é representado como um vetor em um espaço de alta dimensão.

Vetor refere-se a uma matriz de números com uma dimensão definida, enquanto incorporações de vetores usam esses vetores para representar pontos de dados em um espaço contínuo.

Este artigo faz parte de

Incorporações referem-se à expressão de dados como vetores para capturar informações significativas, links semânticos, qualidades contextuais ou a representação organizada de dados aprendidos por meio de algoritmos de treinamento ou modelos de aprendizado de máquina.

Tipos de incorporações vetoriais

Os embeddings vetoriais vêm em uma variedade de formas, cada uma com uma função distinta para representar diferentes tipos de dados. A seguir estão alguns tipos comuns de incorporações de vetores:

  • Incorporações de palavras. Incorporações de palavras são representações vetoriais de palavras individuais em um espaço contínuo. Eles são frequentemente usados ​​para capturar ligações semânticas entre palavras em tarefas como análise de sentimentos, tradução de idiomas e semelhança de palavras.
  • Incorporações de frases. As representações vetoriais de sentenças completas são chamadas de incorporações de sentenças. Eles são úteis para tarefas que incluem análise de sentimento, categorização de texto e recuperação de informações porque capturam o significado e o contexto da frase.
  • Incorporações de documentos. Incorporações de documentos são representações vetoriais de documentos inteiros, como artigos ou relatórios. Normalmente usados ​​em tarefas como similaridade de documentos, agrupamento e sistemas de recomendação, eles capturam o significado geral e o conteúdo do documento.
  • Vetores de perfil de usuário. Estas são representações vetoriais das preferências, ações ou características de um usuário. Eles são usados ​​em segmentação de clientes, sistemas de recomendação personalizados e publicidade direcionada para coletar dados específicos do usuário.
  • Vetores de imagem. Estas são representações vetoriais de itens visuais, como imagens ou quadros de vídeo. Eles são usados ​​em tarefas como Reconhecimento de objeto, pesquisa de imagens e sistemas de recomendação baseados em conteúdo para capturar recursos visuais.
  • Vetores de produto. Representando produtos ou itens como vetores, eles são usados ​​em pesquisas de produtos, classificação de produtos e sistemas de recomendação para reunir características e semelhanças entre produtos.
  • Vetores de perfil de usuário. Os vetores de perfil de usuário representam as preferências, ações ou características de um usuário. Eles são usados ​​na segmentação de usuários, sistemas de recomendação personalizados e publicidade direcionada para coletar dados específicos do usuário.

Como são criados os embeddings vetoriais?

Os embeddings de vetores são gerados usando uma abordagem de ML que treina um modelo para transformar dados em vetores numéricos. Normalmente, um profundo rede neural convolucional é usado para treinar esses tipos de modelos. Os embeddings resultantes são frequentemente densos – todos os valores são diferentes de zero – e de alta dimensão – até 2,000 dimensões. Modelos populares como Word2Vec, GLoVE e BERT converta palavras, frases ou parágrafos em incorporações vetoriais para dados de texto.

As seguintes etapas estão comumente envolvidas no processo:

  1. Monte um grande conjunto de dados. Um conjunto de dados que captura a categoria de dados específica à qual os embeddings se destinam – sejam eles relativos a texto ou imagens – é montado.
  2. Pré-processe os dados. Dependendo do tipo de dados, a limpeza, preparação e pré-processamento de dados envolve eliminar ruídos, redimensionar fotos, normalizar texto e realizar operações adicionais.
  3. Treine o modelo. Para identificar links e padrões nos dados, o modelo é treinado usando o conjunto de dados. Para reduzir a disparidade entre os vetores alvo e previstos, os parâmetros do modelo pré-treinado são alterados durante a fase de treinamento.
  4. Gere incorporações vetoriais. Após o treinamento, o modelo pode converter dados novos em vetores numéricos, apresentando uma representação significativa e estruturada que encapsula efetivamente as informações semânticas dos dados originais.

Os embeddings de vetores podem ser feitos para uma ampla variedade de tipos de dados, incluindo dados de séries temporais, texto, imagens, áudio, modelos tridimensionais (3D) e vídeo. Devido à forma como os embeddings são formados, objetos com semântica semelhante terão vetores no espaço vetorial próximos uns dos outros.

Onde os embeddings de vetores são armazenados?

Os embeddings de vetores são armazenados em bancos de dados especializados conhecidos como bancos de dados vetoriais. Esses bancos de dados são representações matemáticas de alta dimensão de recursos de dados. Ao contrário dos bancos de dados padrão baseados em escalares ou índices vetoriais independentes, os bancos de dados vetoriais fornecem eficiências específicas para armazenar e recuperar incorporações de vetores em escala. Eles oferecem a capacidade de armazenar e recuperar efetivamente grandes quantidades de dados para funções de pesquisa vetorial.

Os bancos de dados vetoriais incluem vários componentes importantes, incluindo desempenho e tolerância ao erro. Para garantir que os bancos de dados vetoriais sejam tolerantes a falhas, a replicação e raspando técnicas são usadas. A replicação é o processo de produção de cópias de dados em vários nós, enquanto a fragmentação é o processo de particionamento de dados em vários nós. Isso fornece tolerância a falhas e desempenho ininterrupto mesmo se um nó falhar.

Bancos de dados vetoriais são eficazes em aprendizado de máquina e inteligência artificial (AI) aplicativos, pois são especializados em gerenciar dados não estruturados e semiestruturados.

Aplicações de incorporações vetoriais

Existem vários usos para incorporação de vetores em diferentes setores. As aplicações comuns de incorporação de vetores incluem o seguinte:

  • Sistemas de recomendação. A incorporação de vetores desempenha um papel crucial nos sistemas de recomendação de gigantes da indústria, incluindo Netflix e Amazon. Essas incorporações permitem que as organizações calculem as semelhanças entre usuários e itens, traduzindo as preferências do usuário e as características dos itens em vetores. Este processo auxilia na entrega de sugestões personalizadas, adaptadas ao gosto individual do usuário.
  • Motores de busca. Mecanismos de busca usar extensivamente incorporações de vetores para melhorar a eficácia e eficiência da recuperação de informações. Como os embeddings vetoriais vão além da correspondência de palavras-chave, eles ajudam os mecanismos de pesquisa a interpretar o significado de palavras e frases. Mesmo quando as frases exatas não correspondem, os motores de busca ainda podem encontrar e recuperar documentos ou outras informações que sejam contextualmente relevantes, modelando palavras como vetores em um espaço semântico.
  • Chatbots e sistemas de resposta a perguntas. Ajuda para incorporação de vetores chatbots e sistemas generativos de resposta a perguntas baseados em IA na compreensão e produção de respostas semelhantes às humanas. Ao capturar o contexto e o significado do texto, os embeddings ajudam os chatbots a responder às perguntas dos usuários de maneira significativa e lógica. Por exemplo, modelos de linguagem e chatbots de IA, incluindo GPT-4 e processadores de imagem, como Dall-E2, ganharam imensa popularidade por produzir conversas e respostas semelhantes às humanas.
  • Detecção de fraude e detecção de outliers. A incorporação de vetores pode ser usada para detectar anomalias ou atividades fraudulentas, avaliando a semelhança entre os vetores. Padrões incomuns são identificados avaliando a distância entre incorporações e identificando discrepantes.
  • Pré-processamento de dados. Transformar dados não processados ​​em um formato apropriado para ML e modelos de aprendizagem profunda, os embeddings são usados ​​em atividades de pré-processamento de dados. Os embeddings de palavras, por exemplo, são usados ​​para representar palavras como vetores, o que facilita o processamento e a análise de dados de texto.
  • Aprendizagem única e zero. O aprendizado único e zero são abordagens de incorporação de vetores que ajudam os modelos de aprendizado de máquina a prever resultados para novas classes, mesmo quando fornecidos com dados rotulados limitados. Os modelos podem generalizar e gerar previsões mesmo com um pequeno número de instâncias de treinamento, usando as informações semânticas incluídas nos embeddings.
  • Similaridade semântica e agrupamento. As incorporações de vetores facilitam a avaliação da semelhança de dois objetos em um ambiente de alta dimensão. Isso torna possível realizar operações como calcular similaridade semântica, agrupar e montar coisas relacionadas com base em seus embeddings.
Image showing vector embedding in chatbots.
Os embeddings permitem que os chatbots respondam às perguntas dos usuários de uma forma significativa e lógica.

Que tipo de coisas podem ser incorporadas?

Muitos tipos diferentes de objetos e tipos de dados podem ser representados usando incorporações de vetores. Os tipos comuns de coisas que podem ser incorporadas incluem o seguinte:

Texto

Palavras, frases ou documentos são representados como vetores usando incorporações de texto. As tarefas de PNL – incluindo análise de sentimentos, pesquisa semântica e tradução de idiomas – usam frequentemente embeddings.

O Universal Sentence Encoder é um dos modelos de incorporação de código aberto mais populares e pode codificar com eficiência frases individuais e blocos de texto inteiros.

Imagens

Os embeddings de imagens capturam e representam características visuais de imagens como vetores. Seus casos de uso incluem identificação de objetos, classificação de imagens e pesquisa reversa de imagens, geralmente conhecida como busca por imagem.

A incorporação de imagens também pode ser usada para habilitar recursos de pesquisa visual. Ao extrair embeddings de imagens de banco de dados, um usuário pode comparar os embeddings de uma imagem de consulta com os embeddings das fotos do banco de dados para localizar correspondências visualmente semelhantes. Isto é comumente usado em e-commerce, aplicativos, onde os usuários podem pesquisar itens enviando fotos de produtos semelhantes.

O Google Lens é um aplicativo de pesquisa de imagens que compara fotos de câmeras com produtos visualmente semelhantes. Por exemplo, pode ser usado para combinar produtos da internet que sejam semelhantes a um par de tênis ou uma peça de roupa.

em áudio

Embeddings de áudio são representações vetoriais de sinais de áudio. Os embeddings vetoriais capturam propriedades auditivas, permitindo que os sistemas interpretem os dados de áudio de maneira mais eficaz. Por exemplo, incorporações de áudio podem ser usadas para recomendações musicais, classificações de gênero, pesquisas de similaridade de áudio, reconhecimento de fala e verificação de locutores.

Embora a IA esteja sendo usada para vários tipos de incorporações, a IA de áudio tem recebido menos atenção do que a IA de texto ou imagem. Google Speech-to-Text e OpenAI Whisper são aplicativos de incorporação de áudio usados ​​em organizações como call centers, tecnologia médica, acessibilidade e aplicativos de fala para texto.

Gráficos

As incorporações de gráficos usam vetores para representar nós e arestas em um gráfico. Eles estão usado em tarefas relacionadas à análise gráfica como previsão de links, reconhecimento da comunidade e sistemas de recomendação.

Cada nó representa uma entidade, como uma pessoa, uma página web ou um produto e cada aresta simboliza o link ou conexão que existe entre essas entidades. Essas incorporações de vetores podem realizar tudo, desde recomendar amigos em redes sociais para detectar problemas de segurança cibernética.

Dados de série temporal e modelos 3D

Os embeddings de séries temporais capturam padrões temporais em dados sequenciais. Eles são usados ​​em internet das coisas aplicativos, dados financeiros e dados de sensores para atividades, incluindo detecção de anomalias, previsão de séries temporais e identificação de padrões.

Aspectos geométricos de objetos 3D também podem ser expressos como vetores usando incorporações de modelos 3D. Eles são aplicados em tarefas como reconstrução 3D, detecção de objetos e correspondência de formas.

Moléculas

Incorporações de moléculas representam compostos químicos como vetores. Eles são usados ​​na descoberta de medicamentos, pesquisa de similaridade química e previsão de propriedades moleculares. Essas incorporações também são usadas em química computacional e no desenvolvimento de medicamentos para capturar as características estruturais e químicas das moléculas.

Image showing vector embeddings of objects.
Conjuntos estruturados de números são usados ​​como incorporações vetoriais para objetos.

O que é o Word2Vec?

Word2Vec é uma abordagem popular de incorporação de vetores de palavras da PNL. Criado pelo Google, o Word2Vec foi projetado para representar palavras como vetores densos em um espaço vetorial contínuo. Ele pode reconhecer o contexto de uma palavra em um documento e é comumente usado em tarefas de PNL, como categorização de texto, análise de sentimento e maquina de tradução para ajudar as máquinas a compreender e processar a linguagem natural de forma mais eficaz.

Word2Vec baseia-se no princípio de que palavras com significados semelhantes devem ter representações vetoriais semelhantes, permitindo ao modelo capturar ligações semânticas entre palavras.

Word2Vec possui duas arquiteturas básicas, CBOW (Saco Contínuo de Palavras) e Skip-Gram:

  • CBOW. Esta arquitetura prevê a palavra alvo com base nas palavras do contexto. O modelo recebe um contexto ou palavras circundantes e tem a tarefa de prever a palavra-alvo no centro. Por exemplo, na frase “A rápida raposa marrom salta sobre o cachorro preguiçoso”, o CBOW usa o contexto ou as palavras ao redor para prever raposa como palavra-alvo.
  • Skip-Gram. Ao contrário do CBOW, a arquitetura Skip-Gram prevê as palavras do contexto com base na palavra alvo. O modelo recebe uma palavra-alvo e é solicitado a prever os termos do contexto circundante. Tomando a frase de exemplo acima de “A rápida raposa marrom salta sobre o cachorro preguiçoso”, skip-gram pegará a palavra-alvo raposa e descubra palavras de contexto como “O”, “rápido”, “marrom”, “pular”, “por cima”, “o”, “preguiçoso” e “cachorro”.

Uma vasta gama de empresas está a começar a adotar a IA generativa, demonstrando o seu potencial disruptivo. Examinar como a IA generativa está se desenvolvendo, que direção tomará no futuro e quaisquer desafios que possam surgir.

Carimbo de hora:

Mais de Agenda IoT