Que sont les intégrations vectorielles ? | Définition de TechTarget

Que sont les intégrations vectorielles ? | Définition de TechTarget

Nœud source: 3084305

Que sont les intégrations vectorielles ?

Les intégrations vectorielles sont des représentations numériques qui capturent les relations et la signification des mots, des expressions et d'autres types de données. Grâce aux intégrations vectorielles, les caractéristiques ou caractéristiques essentielles d'un objet sont traduites en un tableau concis et organisé de nombres, aidant ainsi les ordinateurs à récupérer rapidement des informations. Les points de données similaires sont regroupés plus étroitement après avoir été traduits en points dans un espace multidimensionnel.

Utilisé dans un large éventail d'applications, notamment dans le traitement du langage naturel (PNL) et l'apprentissage automatique (ML), les intégrations vectorielles aident à manipuler et à traiter les données pour des tâches telles que les comparaisons de similarité, le regroupement et la classification. Par exemple, lorsque vous examinez des données textuelles, des mots tels que cat et les minou transmettre des significations similaires malgré les différences dans la composition de leurs lettres. Une recherche sémantique efficace repose sur des représentations précises qui capturent de manière adéquate cette similarité sémantique entre les termes.

[Contenu intégré]

Les plongements et les vecteurs sont-ils la même chose ?

Les termes vecteurs et les plongements peut être utilisé de manière interchangeable dans le contexte des intégrations vectorielles. Ils font tous deux référence à des représentations de données numériques dans lesquelles chacun point de données est représenté comme un vecteur dans un espace de grande dimension.

Le vecteur fait référence à un tableau de nombres avec une dimension définie, tandis que les représentations vectorielles utilisent ces vecteurs pour représenter des points de données dans un espace continu.

Cet article fait partie de

Les intégrations font référence à l'expression de données sous forme de vecteurs pour capturer des informations significatives, des liens sémantiques, des qualités contextuelles ou la représentation organisée des données apprises via des algorithmes de formation ou modèles d'apprentissage automatique.

Types d'intégrations vectorielles

Les intégrations vectorielles se présentent sous diverses formes, chacune ayant une fonction distincte pour représenter différents types de données. Voici quelques types courants d’intégrations vectorielles :

  • Intégrations de mots. Les intégrations de mots sont des représentations vectorielles de mots individuels dans un espace continu. Ils sont fréquemment utilisés pour capturer les liens sémantiques entre les mots dans des tâches telles que l'analyse des sentiments, traduction linguistique et similarité des mots.
  • Intégrations de phrases. Les représentations vectorielles de phrases complètes sont appelées incorporations de phrases. Ils sont utiles pour des tâches telles que l'analyse des sentiments, la catégorisation de texte et la récupération d'informations, car ils capturent le sens et le contexte de la phrase.
  • Intégrations de documents. Les intégrations de documents sont des représentations vectorielles de documents entiers, tels que des articles ou des rapports. Généralement utilisés dans des tâches telles que la similarité de documents, le regroupement et les systèmes de recommandation, ils capturent la signification générale et le contenu du document.
  • Vecteurs de profil utilisateur. Ce sont des représentations vectorielles des préférences, des actions ou des traits d'un utilisateur. Ils sont utilisés dans segmentation de la clientèle, des systèmes de recommandation personnalisés et des publicités ciblées pour collecter des données spécifiques aux utilisateurs.
  • Vecteurs d’images. Il s'agit de représentations vectorielles d'éléments visuels, tels que des images ou des images vidéo. Ils sont utilisés dans des tâches telles que reconnaissance d'objets, des systèmes de recherche d'images et de recommandation basés sur le contenu pour capturer les caractéristiques visuelles.
  • Vecteurs de produits. Représentant des produits ou des articles sous forme de vecteurs, ceux-ci sont utilisés dans les recherches de produits, la classification des produits et les systèmes de recommandation pour rassembler les caractéristiques et les similitudes entre les produits.
  • Vecteurs de profil utilisateur. Les vecteurs de profil utilisateur représentent les préférences, les actions ou les caractéristiques d'un utilisateur. Ils sont utilisés dans la segmentation des utilisateurs, les systèmes de recommandation personnalisés et Publicité ciblée pour recueillir des données spécifiques à l'utilisateur.

Comment les intégrations vectorielles sont-elles créées ?

Les intégrations vectorielles sont générées à l'aide d'une approche ML qui entraîne un modèle à transformer les données en vecteurs numériques. Généralement, une profondeur réseau de neurones convolutifs est utilisé pour former ces types de modèles. Les plongements résultants sont souvent denses (toutes les valeurs sont non nulles) et de grande dimension (jusqu'à 2,000 2 dimensions). Modèles populaires tels que WordXNUMXVec, GLoVE et BERT convertissez des mots, des phrases ou des paragraphes en intégrations vectorielles pour les données textuelles.

Les étapes suivantes sont généralement impliquées dans le processus :

  1. Assemblez un grand ensemble de données. Un ensemble de données capturant la catégorie de données spécifique à laquelle les intégrations sont destinées (qu'il s'agisse de texte ou d'images) est assemblé.
  2. Prétraitez les données. Selon le type de données, le nettoyage, la préparation et prétraitement des données implique d'éliminer le bruit, de redimensionner les photos, de normaliser le texte et d'effectuer des opérations supplémentaires.
  3. Former le modèle. Pour identifier les liens et les modèles dans les données, le modèle est entraîné à l'aide de l'ensemble de données. Pour réduire la disparité entre les vecteurs cible et prédit, les paramètres du modèle pré-entraîné sont modifiés pendant la phase d'entraînement.
  4. Générez des intégrations vectorielles. Après la formation, le modèle peut convertir de nouvelles données en vecteurs numériques, présentant une représentation significative et structurée qui encapsule efficacement les informations sémantiques des données d'origine.

Les intégrations vectorielles peuvent être réalisées pour un large éventail de types de données, notamment les données de séries chronologiques, le texte, les images, l'audio, modèles tridimensionnels (3D) et vidéo. En raison de la manière dont les plongements sont formés, les objets ayant une sémantique similaire auront des vecteurs dans l'espace vectoriel proches les uns des autres.

Où sont stockées les intégrations vectorielles ?

Les intégrations vectorielles sont stockées dans des bases de données spécialisées appelées bases de données vectorielles. Ces bases de données sont des représentations mathématiques de grande dimension des caractéristiques des données. Contrairement aux bases de données scalaires standards ou aux index vectoriels indépendants, les bases de données vectorielles offrent des efficacités spécifiques pour stocker et récupérer des représentations vectorielles vectorielles à grande échelle. Ils offrent la capacité de stocker et de récupérer efficacement d’énormes quantités de données pour les fonctions de recherche vectorielle.

Les bases de données vectorielles incluent plusieurs composants clés, notamment les performances et tolérance aux pannes. Pour garantir que les bases de données vectorielles sont tolérantes aux pannes, la réplication et sharding des techniques sont utilisées. La réplication est le processus de production de copies de données sur plusieurs nœuds, tandis que le partitionnement est le processus de partitionnement des données sur plusieurs nœuds. Cela offre une tolérance aux pannes et des performances ininterrompues même en cas de panne d'un nœud.

Les bases de données vectorielles sont efficaces dans l'apprentissage automatique et l'intelligence artificielle (AI) applications, car elles sont spécialisées dans la gestion données non structurées et semi-structurées.

Applications des intégrations vectorielles

Il existe plusieurs utilisations de l’intégration de vecteurs dans différentes industries. Les applications courantes des intégrations vectorielles sont les suivantes :

  • Systèmes de recommandation. Les intégrations de vecteurs jouent un rôle crucial dans les systèmes de recommandation des géants de l’industrie, notamment Netflix et Amazon. Ces intégrations permettent aux organisations de calculer les similitudes entre les utilisateurs et les éléments, en traduisant les préférences des utilisateurs et les caractéristiques des éléments en vecteurs. Ce processus facilite la fourniture de suggestions personnalisées adaptées aux goûts de chaque utilisateur.
  • Moteurs de recherche. Les moteurs de recherche utiliser largement les intégrations vectorielles pour améliorer l'efficacité et l'efficience de la recherche d'informations. Étant donné que les intégrations vectorielles vont au-delà de la correspondance de mots clés, elles aident les moteurs de recherche à interpréter le sens des mots et des phrases. Même lorsque les expressions exactes ne correspondent pas, les moteurs de recherche peuvent toujours rechercher et récupérer des documents ou d'autres informations contextuellement pertinentes en modélisant les mots sous forme de vecteurs dans un espace sémantique.
  • Chatbots et systèmes de questions-réponses. Aide aux intégrations vectorielles chatbots et systèmes de questions-réponses génératifs basés sur l'IA dans la compréhension et la production de réponses de type humain. En capturant le contexte et la signification du texte, les intégrations aident les chatbots à répondre aux demandes des utilisateurs de manière significative et logique. Par exemple, les modèles linguistiques et les chatbots IA, notamment GPT-4 et des processeurs d'images tels que Dall-E2, ont acquis une immense popularité pour produire des conversations et des réponses de type humain.
  • Détection de fraude et détection d’anomalies. Les intégrations de vecteurs peuvent être utilisées pour détecter des anomalies ou des activités frauduleuses en évaluant la similarité entre les vecteurs. Les modèles peu courants sont identifiés en évaluant la distance entre les intégrations et en les localisant. valeurs aberrantes.
  • Prétraitement des données. Transformer données non traitées dans un format approprié pour le ML et les modèles d'apprentissage profond, les intégrations sont utilisées dans les activités de prétraitement des données. Les intégrations de mots, par exemple, sont utilisées pour représenter les mots sous forme de vecteurs, ce qui facilite le traitement et l'analyse des données textuelles.
  • Apprentissage one-shot et zero-shot. L'apprentissage one-shot et zero-shot sont des approches d'intégration vectorielle qui aident les modèles d'apprentissage automatique à prédire les résultats des nouvelles classes, même lorsqu'ils sont fournis avec des données étiquetées limitées. Les modèles peuvent généraliser et générer des prédictions même avec un petit nombre d'instances de formation en utilisant les informations sémantiques incluses dans les intégrations.
  • Similitude sémantique et clustering. Les intégrations vectorielles permettent d'évaluer plus facilement la similitude de deux objets dans un environnement de grande dimension. Cela permet d'effectuer des opérations telles que le calcul de la similarité sémantique, le regroupement et l'assemblage d'éléments liés en fonction de leurs intégrations.
Image showing vector embedding in chatbots.
Les intégrations permettent aux chatbots de répondre aux demandes des utilisateurs de manière significative et logique.

Quels types de choses peuvent être intégrées ?

De nombreux types d'objets et de types de données peuvent être représentés à l'aide d'incorporations vectorielles. Les types courants d'éléments pouvant être intégrés sont les suivants :

Texte

Les mots, phrases ou documents sont représentés sous forme de vecteurs à l’aide d’incorporations de texte. Les tâches PNL, notamment l'analyse des sentiments, la recherche sémantique et la traduction linguistique, utilisent fréquemment des intégrations.

L'Universal Sentence Encoder est l'un des modèles d'intégration open source les plus populaires et il peut encoder efficacement des phrases individuelles et des morceaux de texte entiers.

Ajouter des images

Les intégrations d'images capturent et représentent les caractéristiques visuelles des images sous forme de vecteurs. Leurs cas d'utilisation incluent l'identification d'objets, la classification d'images et la recherche d'images inversées, souvent appelées recherche par image.

Les intégrations d'images peuvent également être utilisées pour activer les capacités de recherche visuelle. En extrayant les intégrations des images de la base de données, un utilisateur peut comparer les intégrations d'une image de requête avec les intégrations des photos de la base de données pour localiser des correspondances visuellement similaires. Ceci est couramment utilisé dans e-commerce applications, où les utilisateurs peuvent rechercher des articles en téléchargeant des photos de produits similaires.

Google Lens est une application de recherche d'images qui compare les photos de l'appareil photo à des produits visuellement similaires. Par exemple, il peut être utilisé pour assortir des produits Internet similaires à une paire de baskets ou à un vêtement.

Audio

Les intégrations audio sont des représentations vectorielles de signaux audio. Les intégrations vectorielles capturent les propriétés auditives, permettant aux systèmes d'interpréter les données audio plus efficacement. Par exemple, les intégrations audio peuvent être utilisées pour les recommandations musicales, les classifications de genres, les recherches de similarités audio, la reconnaissance vocale et la vérification du locuteur.

Alors que l’IA est utilisée pour différents types d’intégrations, l’IA audio a reçu moins d’attention que l’IA texte ou image. Google Speech-to-Text et OpenAI Whisper sont des applications d'intégration audio utilisées dans des organisations telles que les centres d'appels, la technologie médicale, l'accessibilité et les applications de synthèse vocale.

Graphiques

Les intégrations de graphiques utilisent des vecteurs pour représenter les nœuds et les arêtes d'un graphique. Ils sont utilisé dans les tâches liées à l'analyse graphique tels que la prédiction de liens, la reconnaissance communautaire et les systèmes de recommandation.

Chaque nœud représente une entité, telle qu'une personne, une page Web ou un produit et chaque bord symbolise le lien ou la connexion qui existe entre ces entités. Ces intégrations vectorielles peuvent tout accomplir, depuis la recommandation d'amis dans les réseaux sociaux à détecter les problèmes de cybersécurité.

Données de séries chronologiques et modèles 3D

Les intégrations de séries chronologiques capturent des modèles temporels dans des données séquentielles. Ils sont utilisés dans Internet des objets applications, données financières et données de capteurs pour des activités telles que la détection d'anomalies, prévision de séries chronologiques et l'identification de modèles.

Les aspects géométriques des objets 3D peuvent également être exprimés sous forme de vecteurs à l'aide d'incorporations de modèles 3D. Ils sont appliqués à des tâches telles que la reconstruction 3D, la détection d'objets et la correspondance de formes.

Molécules

Les incorporations de molécules représentent des composés chimiques comme vecteurs. Ils sont utilisés dans la découverte de médicaments, la recherche de similarités chimiques et la prédiction des propriétés moléculaires. Ces incorporations sont également utilisées en chimie computationnelle et dans le développement de médicaments pour capturer les caractéristiques structurelles et chimiques des molécules.

Image showing vector embeddings of objects.
Des ensembles structurés de nombres sont utilisés comme intégrations vectorielles pour les objets.

Qu'est-ce que Word2Vec ?

Word2Vec est une approche populaire d'intégration de vecteurs de mots PNL. Créé par Google, Word2Vec est conçu pour représenter les mots sous forme de vecteurs denses dans un espace vectoriel continu. Il peut reconnaître le contexte d'un mot dans un document et est couramment utilisé dans les tâches de PNL telles que la catégorisation de texte, l'analyse des sentiments et traduction automatique pour aider les machines à comprendre et à traiter le langage naturel plus efficacement.

Word2Vec est basé sur le principe selon lequel les mots ayant des significations similaires doivent avoir des représentations vectorielles similaires, permettant au modèle de capturer les liens sémantiques entre les mots.

Word2Vec a deux architectures de base, CBOW (sac continu de mots) et Skip-Gram:

  • CBOW. Cette architecture prédit le mot cible en fonction des mots contextuels. Le modèle reçoit un contexte ou des mots environnants et est chargé de prédire le mot cible au centre. Par exemple, dans la phrase « Le renard brun rapide saute par-dessus le chien paresseux », CBOW utilise le contexte ou les mots environnants pour prédire renard comme mot cible.
  • Sauter Gram. Contrairement à CBOW, l'architecture Skip-Gram prédit les mots contextuels en fonction du mot cible. Le modèle reçoit un mot cible et il lui est demandé de prédire les termes du contexte environnant. En prenant l'exemple de phrase ci-dessus de « Le renard brun rapide saute par-dessus le chien paresseux », skip-gram prendra le mot cible. renard et découvrez des mots contextuels tels que « Le », « rapide », « marron », « saute », « par-dessus », « le », « paresseux » et « chien ».

Un large éventail d’entreprises commencent à adopter l’IA générative, démontrant ainsi son potentiel disruptif. Examiner comment l’IA générative se développe, quelle direction cela prendra à l'avenir et les défis qui pourraient survenir.

Horodatage:

Plus de Programme IdO