Cosa sono gli incorporamenti vettoriali? | Definizione da TechTarget

Cosa sono gli incorporamenti vettoriali? | Definizione da TechTarget

Nodo di origine: 3084305

Cosa sono gli incorporamenti vettoriali?

Gli incorporamenti di vettori sono rappresentazioni numeriche che catturano le relazioni e il significato di parole, frasi e altri tipi di dati. Attraverso gli incorporamenti di vettori, le caratteristiche o caratteristiche essenziali di un oggetto vengono tradotte in una serie di numeri concisa e organizzata, aiutando i computer a recuperare rapidamente le informazioni. Punti dati simili vengono raggruppati più vicini dopo essere stati tradotti in punti in uno spazio multidimensionale.

Utilizzato in una vasta gamma di applicazioni, in particolare nell'elaborazione del linguaggio naturale (NLP) e apprendimento automatico (ML), gli incorporamenti di vettori aiutano a manipolare ed elaborare i dati per attività quali confronti di similarità, clustering e classificazione. Ad esempio, quando si esaminano dati di testo, parole come gatto ed gattino trasmettono significati simili nonostante le differenze nella composizione delle lettere. Una ricerca semantica efficace si basa su rappresentazioni precise che catturano adeguatamente questa somiglianza semantica tra i termini.

[Contenuto incorporato]

Incorporamenti e vettori sono la stessa cosa?

I termini vettori ed incastri può essere utilizzato in modo intercambiabile nel contesto degli incorporamenti di vettori. Entrambi si riferiscono a rappresentazioni di dati numerici in cui ciascuno punto dati è rappresentato come un vettore in uno spazio ad alta dimensionalità.

Il vettore si riferisce a una matrice di numeri con una dimensione definita, mentre gli incorporamenti di vettori utilizzano questi vettori per rappresentare punti dati in uno spazio continuo.

Questo articolo fa parte di

Gli incorporamenti si riferiscono all'espressione dei dati come vettori per acquisire informazioni significative, collegamenti semantici, qualità contestuali o la rappresentazione organizzata di dati appresi tramite algoritmi di addestramento o modelli di apprendimento automatico.

Tipi di incorporamenti di vettori

Gli incorporamenti di vettori sono disponibili in diverse forme, ciascuna con una funzione distinta per rappresentare diversi tipi di dati. Di seguito sono riportati alcuni tipi comuni di incorporamenti di vettori:

  • Incorporamenti di parole. Gli incorporamenti di parole sono rappresentazioni vettoriali di singole parole in uno spazio continuo. Vengono spesso utilizzati per acquisire collegamenti semantici tra parole in attività come sentiment analysis, traduzione linguistica e somiglianza delle parole.
  • Incorporamenti di frasi. Le rappresentazioni vettoriali di frasi complete sono chiamate incorporamenti di frasi. Sono utili per attività quali l'analisi dei sentimenti, la categorizzazione del testo e il recupero delle informazioni perché catturano il significato e il contesto della frase.
  • Incorporamenti di documenti. Gli incorporamenti di documenti sono rappresentazioni vettoriali di interi documenti, come articoli o rapporti. Solitamente utilizzati in attività quali la somiglianza dei documenti, il clustering e i sistemi di raccomandazione, catturano il significato generale e il contenuto del documento.
  • Vettori del profilo utente. Si tratta di rappresentazioni vettoriali delle preferenze, azioni o caratteristiche di un utente. Sono usati in segmentazione del cliente, sistemi di raccomandazione personalizzati e pubblicità mirata per raccogliere dati specifici dell'utente.
  • Vettori di immagini. Si tratta di rappresentazioni vettoriali di elementi visivi, come immagini o fotogrammi video. Sono utilizzati in attività come riconoscimento degli oggetti, ricerca di immagini e sistemi di raccomandazione basati sui contenuti per acquisire funzionalità visive.
  • Vettori del prodotto. Rappresentando prodotti o articoli come vettori, vengono utilizzati nelle ricerche di prodotti, nella classificazione dei prodotti e nei sistemi di raccomandazione per raccogliere caratteristiche e somiglianze tra i prodotti.
  • Vettori del profilo utente. I vettori del profilo utente rappresentano le preferenze, le azioni o le caratteristiche di un utente. Sono utilizzati nella segmentazione degli utenti, nei sistemi di consigli personalizzati e pubblicità mirata per raccogliere dati specifici dell'utente.

Come vengono creati gli incorporamenti vettoriali?

Gli incorporamenti di vettori vengono generati utilizzando un approccio ML che addestra un modello per trasformare i dati in vettori numerici. Tipicamente, un profondo rete neurale convoluzionale viene utilizzato per addestrare questi tipi di modelli. Gli incorporamenti risultanti sono spesso densi (tutti i valori sono diversi da zero) e altamente dimensionali (fino a 2,000 dimensioni). Modelli popolari come Word2Vec, GLoVE e BERTA convertire parole, frasi o paragrafi in incorporamenti vettoriali per dati di testo.

I seguenti passaggi sono comunemente coinvolti nel processo:

  1. Assemblare un set di dati di grandi dimensioni. Viene assemblato un set di dati che cattura la categoria di dati specifica a cui sono destinati gli incorporamenti, indipendentemente dal fatto che si tratti di testo o immagini.
  2. Preelaborare i dati. A seconda del tipo di dati, la pulizia, la preparazione e preelaborazione dei dati comporta l'eliminazione del rumore, il ridimensionamento delle foto, la normalizzazione del testo e l'esecuzione di operazioni aggiuntive.
  3. Allena il modello. Per identificare collegamenti e modelli nei dati, il modello viene addestrato utilizzando il set di dati. Per ridurre la disparità tra i vettori target e quelli previsti, i parametri del modello preaddestrato vengono modificati durante la fase di addestramento.
  4. Genera incorporamenti vettoriali. Dopo l'addestramento, il modello può convertire nuovi dati in vettori numerici, presentando una rappresentazione significativa e strutturata che incapsula efficacemente le informazioni semantiche dei dati originali.

È possibile effettuare incorporamenti vettoriali per un'ampia gamma di tipi di dati, inclusi dati di serie temporali, testo, immagini, audio, modelli tridimensionali (3D). e video. A causa del modo in cui si formano gli incorporamenti, gli oggetti con semantica simile avranno vettori nello spazio vettoriale vicini tra loro.

Dove vengono archiviati gli incorporamenti vettoriali?

Gli incorporamenti di vettori vengono archiviati all'interno di database specializzati noti come database vettoriali. Questi database sono rappresentazioni matematiche ad alta dimensione delle caratteristiche dei dati. A differenza dei database scalari standard o degli indici vettoriali indipendenti, i database vettoriali forniscono efficienze specifiche per l'archiviazione e il recupero di incorporamenti vettoriali su larga scala. Offrono la capacità di archiviare e recuperare in modo efficace enormi quantità di dati per le funzioni di ricerca vettoriale.

I database vettoriali includono diversi componenti chiave, tra cui prestazioni e tolleranza d'errore. Per garantire che i database vettoriali siano tolleranti agli errori, replica e sharding vengono utilizzate le tecniche. La replica è il processo di produzione di copie di dati su numerosi nodi, mentre lo sharding è il processo di partizionamento dei dati su più nodi. Ciò fornisce tolleranza agli errori e prestazioni ininterrotte anche in caso di guasto di un nodo.

I database vettoriali sono efficaci nell'apprendimento automatico e nell'intelligenza artificiale (AI), poiché sono specializzati nella gestione dati non strutturati e semistrutturati.

Applicazioni degli incorporamenti di vettori

Esistono diversi usi per l'incorporamento di vettori in diversi settori. Le applicazioni comuni degli incorporamenti di vettori includono quanto segue:

  • Sistemi di raccomandazione. Gli incorporamenti di vettori svolgono un ruolo cruciale nei sistemi di raccomandazione dei giganti del settore, tra cui Netflix e Amazon. Questi incorporamenti consentono alle organizzazioni di calcolare le somiglianze tra utenti ed elementi, traducendo le preferenze dell'utente e le caratteristiche degli elementi in vettori. Questo processo aiuta nella fornitura di suggerimenti personalizzati su misura per i gusti dei singoli utenti.
  • Motori di ricerca. Motori di ricerca utilizzare ampiamente gli incorporamenti di vettori per migliorare l'efficacia e l'efficienza del recupero delle informazioni. Poiché gli incorporamenti di vettori vanno oltre la corrispondenza delle parole chiave, aiutano i motori di ricerca a interpretare il significato di parole e frasi. Anche quando le frasi esatte non corrispondono, i motori di ricerca possono comunque trovare e recuperare documenti o altre informazioni contestualmente rilevanti modellando le parole come vettori in uno spazio semantico.
  • Chatbot e sistemi di risposta alle domande. Aiuto per l'incorporamento di vettori chatbot e sistemi generativi di risposta alle domande basati sull’intelligenza artificiale nella comprensione e nella produzione di risposte di tipo umano. Catturando il contesto e il significato del testo, gli incorporamenti aiutano i chatbot a rispondere alle richieste degli utenti in modo significativo e logico. Ad esempio, modelli linguistici e chatbot AI, inclusi GPT-4 ed elaboratori di immagini come Dall-Mi2, hanno guadagnato un'enorme popolarità per la produzione di conversazioni e risposte di tipo umano.
  • Rilevamento delle frodi e rilevamento dei valori anomali. Gli incorporamenti di vettori possono essere utilizzati per rilevare anomalie o attività fraudolente valutando la somiglianza tra i vettori. I modelli non comuni vengono identificati valutando la distanza tra gli incorporamenti e l'individuazione valori anomali.
  • Preelaborazione dei dati. Trasformare dati non elaborati in un formato appropriato per il machine learning e modelli di deep learning, gli incorporamenti vengono utilizzati nelle attività di preelaborazione dei dati. Gli incorporamenti di parole, ad esempio, vengono utilizzati per rappresentare le parole come vettori, il che facilita l'elaborazione e l'analisi dei dati di testo.
  • Apprendimento one-shot e zero-shot. L'apprendimento one-shot e zero-shot sono approcci di incorporamento di vettori che aiutano i modelli di machine learning a prevedere i risultati per le nuove classi, anche se forniti con dati etichettati limitati. I modelli possono generalizzare e generare previsioni anche con un numero limitato di istanze di training utilizzando le informazioni semantiche incluse negli incorporamenti.
  • Somiglianza semantica e clustering. Gli incorporamenti di vettori rendono più semplice valutare quanto simili siano due oggetti in un ambiente ad alta dimensione. Ciò rende possibile eseguire operazioni come il calcolo della somiglianza semantica, il clustering e l'assemblaggio di elementi correlati in base ai loro incorporamenti.
Image showing vector embedding in chatbots.
Gli incorporamenti consentono ai chatbot di rispondere alle richieste degli utenti in modo significativo e logico.

Che tipo di cose possono essere incorporate?

Molti tipi diversi di oggetti e tipi di dati possono essere rappresentati utilizzando gli incorporamenti di vettori. I tipi comuni di elementi che possono essere incorporati includono quanto segue:

Testo

Parole, frasi o documenti sono rappresentati come vettori utilizzando incorporamenti di testo. Le attività di PNL, tra cui l'analisi del sentiment, la ricerca semantica e la traduzione linguistica, utilizzano spesso gli incorporamenti.

Universal Sentence Encoder è uno dei modelli di incorporamento open source più popolari e può codificare in modo efficiente singole frasi e interi blocchi di testo.

Immagini

Gli incorporamenti di immagini catturano e rappresentano le caratteristiche visive delle immagini come vettori. I loro casi d'uso includono l'identificazione di oggetti, la classificazione delle immagini e la ricerca inversa delle immagini, spesso nota come ricerca per immagine.

Gli incorporamenti di immagini possono essere utilizzati anche per abilitare funzionalità di ricerca visiva. Estraendo gli incorporamenti dalle immagini del database, un utente può confrontare gli incorporamenti di un'immagine di query con gli incorporamenti delle foto del database per individuare corrispondenze visivamente simili. Questo è comunemente usato in e-commerce app, in cui gli utenti possono cercare articoli caricando foto di prodotti simili.

Google Lens è un'applicazione per la ricerca di immagini che confronta le foto della fotocamera con prodotti visivamente simili. Ad esempio, può essere utilizzato per abbinare prodotti internet simili ad un paio di scarpe da ginnastica o ad un capo di abbigliamento.

audio

Gli incorporamenti audio sono rappresentazioni vettoriali di segnali audio. Gli incorporamenti vettoriali catturano le proprietà uditive, consentendo ai sistemi di interpretare i dati audio in modo più efficace. Ad esempio, gli incorporamenti audio possono essere utilizzati per consigli musicali, classificazioni di genere, ricerche di somiglianza audio, riconoscimento vocale e verifica degli oratori.

Sebbene l’intelligenza artificiale venga utilizzata per vari tipi di incorporamenti, l’intelligenza artificiale audio ha ricevuto meno attenzione rispetto all’intelligenza artificiale di testo o immagini. Google Sintesi vocale e OpenAI Whisper sono applicazioni di incorporamento audio utilizzate in organizzazioni come call center, tecnologia medica, accessibilità e applicazioni di sintesi vocale.

Grafici

Gli incorporamenti di grafici utilizzano vettori per rappresentare nodi e spigoli in un grafico. Loro sono utilizzato in attività relative all'analisi dei grafici come la previsione dei collegamenti, il riconoscimento della comunità e i sistemi di raccomandazione.

Ogni nodo rappresenta un'entità, come una persona, una pagina web o un prodotto e ogni bordo simboleggia il collegamento o la connessione che esiste tra tali entità. Questi incorporamenti vettoriali possono realizzare qualsiasi cosa, dal consigliare gli amici social network per rilevare problemi di sicurezza informatica.

Dati di serie temporali e modelli 3D

Gli incorporamenti di serie temporali acquisiscono modelli temporali in dati sequenziali. Sono usati in Internet delle cose applicazioni, dati finanziari e dati dei sensori per attività tra cui il rilevamento di anomalie, previsione di serie temporali e identificazione del modello.

Gli aspetti geometrici degli oggetti 3D possono anche essere espressi come vettori utilizzando gli incorporamenti di modelli 3D. Vengono applicati in attività quali la ricostruzione 3D, il rilevamento di oggetti e la corrispondenza di forme.

Molecole

Gli incorporamenti di molecole rappresentano i composti chimici come vettori. Sono utilizzati nella scoperta di farmaci, nella ricerca di somiglianze chimiche e nella previsione delle proprietà molecolari. Questi incorporamenti vengono utilizzati anche nella chimica computazionale e nello sviluppo di farmaci per catturare le caratteristiche strutturali e chimiche delle molecole.

Image showing vector embeddings of objects.
Gli insiemi strutturati di numeri vengono utilizzati come incorporamenti di vettori per gli oggetti.

Cos'è Word2Vec?

Word2Vec è un popolare approccio di incorporamento di vettori di parole della PNL. Creato da Google, Word2Vec è progettato per rappresentare le parole come vettori densi in uno spazio vettoriale continuo. Può riconoscere il contesto di una parola in un documento ed è comunemente usato in attività di PNL come la categorizzazione del testo, l'analisi del sentiment e traduzione automatica per aiutare le macchine a comprendere ed elaborare il linguaggio naturale in modo più efficace.

Word2Vec si basa sul principio secondo cui parole con significati simili dovrebbero avere rappresentazioni vettoriali simili, consentendo al modello di catturare collegamenti semantici tra le parole.

Word2Vec ha due architetture di base, CBOW (Borsa continua di parole) e Skip-Gram:

  • CBOW. Questa architettura prevede la parola di destinazione in base alle parole del contesto. Al modello viene fornito un contesto o le parole circostanti e ha il compito di prevedere la parola target al centro. Ad esempio, nella frase "La veloce volpe marrone salta sopra il cane pigro", CBOW utilizza il contesto o le parole circostanti per prevedere volpe come parola di destinazione.
  • Salta grammo. A differenza di CBOW, l'architettura Skip-Gram prevede le parole di contesto in base alla parola di destinazione. Al modello viene assegnata una parola target e gli viene chiesto di prevedere i termini del contesto circostante. Prendendo la frase di esempio sopra di "La veloce volpe marrone salta sopra il cane pigro", skip-gram prenderà la parola di destinazione volpe e scopri parole di contesto come "The", "quick", "brown", "jumps", "over", "the", "lazy" e "dog".

Un’ampia gamma di aziende sta iniziando ad abbracciare l’intelligenza artificiale generativa, dimostrando il suo potenziale dirompente. Esaminare come si sta sviluppando l’intelligenza artificiale generativa, quale direzione prenderà in futuro e le eventuali sfide che potrebbero sorgere.

Timestamp:

Di più da Agenda IoT