Ce sunt înglobările vectoriale? | Definiție de la TechTarget

Ce sunt înglobările vectoriale? | Definiție de la TechTarget

Nodul sursă: 3084305

Ce sunt înglobările vectoriale?

Înglobările vectoriale sunt reprezentări numerice care surprind relațiile și semnificația cuvintelor, frazelor și altor tipuri de date. Prin înglobarea vectorială, caracteristicile sau trăsăturile esențiale ale unui obiect sunt traduse într-o serie concisă și organizată de numere, ajutând computerele să recupereze rapid informații. Puncte de date similare sunt grupate mai aproape unul de celălalt după ce au fost traduse în puncte într-un spațiu multidimensional.

Folosit într-o gamă largă de aplicații, în special în procesarea limbajului natural (PNL) și învățarea automată (ML), înglobările vectoriale ajută la manipularea și procesarea datelor pentru sarcini precum comparații de similaritate, grupare și clasificare. De exemplu, când se uită la date text, cuvinte precum pisică și Kitty transmit semnificații similare, în ciuda diferențelor de compoziție a literelor. Căutarea semantică eficientă se bazează pe reprezentări precise care surprind în mod adecvat această similitudine semantică între termeni.

[Conținutul încorporat]

Sunt înglobările și vectorii același lucru?

Termenii vectori și încastrări poate fi folosit interschimbabil în contextul înglobărilor vectoriale. Ambele se referă la reprezentări de date numerice în care fiecare punct de date este reprezentat ca un vector într-un spațiu de dimensiuni înalte.

Vector se referă la o serie de numere cu o dimensiune definită, în timp ce înglobările vectoriale folosesc acești vectori pentru a reprezenta puncte de date într-un spațiu continuu.

Acest articol face parte din

Înglobările se referă la exprimarea datelor ca vectori pentru a capta informații semnificative, legături semantice, calități contextuale sau reprezentarea organizată a datelor învățate prin algoritmi de antrenament sau modele de învățare automată.

Tipuri de înglobări vectoriale

Înglobările vectoriale vin într-o varietate de forme, fiecare cu o funcție distinctă pentru reprezentarea diferitelor tipuri de date. Următoarele sunt câteva tipuri comune de înglobări vectoriale:

  • Încorporarea cuvintelor. Înglobarile de cuvinte sunt reprezentări vectoriale ale cuvintelor individuale într-un spațiu continuu. Ele sunt frecvent utilizate pentru a captura legături semantice dintre cuvinte în sarcini precum Analiza sentimentului, traducerea limbii și asemănarea cuvintelor.
  • Încorporarea de propoziții. Reprezentările vectoriale ale propozițiilor complete se numesc înglobare de propoziții. Sunt utile pentru sarcini, inclusiv analiza sentimentelor, clasificarea textului și regăsirea informațiilor, deoarece captează sensul și contextul propoziției.
  • Încorporarea documentelor. Înglobările de documente sunt reprezentări vectoriale ale documentelor întregi, cum ar fi articole sau rapoarte. Utilizate în mod obișnuit în sarcini precum similaritatea documentelor, gruparea și sistemele de recomandare, acestea captează sensul general și conținutul documentului.
  • Vectori de profil de utilizator. Acestea sunt reprezentări vectoriale ale preferințelor, acțiunilor sau trăsăturilor unui utilizator. Sunt folosite în segmentarea clienților, sisteme de recomandare personalizate și publicitate direcționată pentru a colecta date specifice utilizatorului.
  • Vectori de imagine. Acestea sunt reprezentări vectoriale ale elementelor vizuale, cum ar fi imagini sau cadre video. Sunt folosiți în sarcini precum recunoașterea obiectelor, căutare de imagini și sisteme de recomandare bazate pe conținut pentru a captura caracteristici vizuale.
  • Vectori de produs. Reprezentând produse sau articole ca vectori, acestea sunt utilizate în căutările de produse, clasificarea produselor și sistemele de recomandare pentru a aduna caracteristici și asemănări între produse.
  • Vectori de profil de utilizator. Vectorii profilului utilizatorului reprezintă preferințele, acțiunile sau trăsăturile utilizatorului. Sunt folosite în segmentarea utilizatorilor, sisteme de recomandare personalizate și publicitate orientată pentru a colecta date specifice utilizatorului.

Cum sunt create înglobările vectoriale?

Înglobările vectoriale sunt generate folosind o abordare ML care antrenează un model pentru a transforma datele în vectori numerici. De obicei, o adâncime rețea neuronală convoluțională este folosit pentru antrenarea acestor tipuri de modele. Înglobările rezultate sunt adesea dense - toate valorile sunt diferite de zero - și dimensionale mari - până la 2,000 de dimensiuni. Modele populare precum Word2Vec, GLoVE și OARET convertiți cuvinte, fraze sau paragrafe în înglobări vectoriale pentru date text.

Următorii pași sunt implicați în mod obișnuit în proces:

  1. Asamblați un set mare de date. Este asamblat un set de date care captează categoria de date specifică pentru care sunt destinate înglobările - indiferent dacă este vorba de text sau imagini.
  2. Preprocesează datele. În funcție de tipul datelor, curățarea, pregătirea și preprocesarea datelor presupune eliminarea zgomotului, redimensionarea fotografiilor, normalizarea textului și efectuarea de operațiuni suplimentare.
  3. Antrenează modelul. Pentru a identifica legăturile și modelele din date, modelul este antrenat folosind setul de date. Pentru a reduce diferența dintre vectorii țintă și cei preziși, parametrii modelului preantrenat sunt modificați în timpul fazei de antrenament.
  4. Generați înglobări vectoriale. După antrenament, modelul poate converti date proaspete în vectori numerici, prezentând o reprezentare semnificativă și structurată care încapsulează eficient informațiile semantice ale datelor originale.

Înglobările vectoriale pot fi realizate pentru o gamă largă de tipuri de date, inclusiv date din seria temporală, text, imagini, audio, modele tridimensionale (3D). și video. Datorită modului în care sunt formate înglobările, obiectele cu semantică similară vor avea vectori în spațiul vectorial care sunt aproape unul de celălalt.

Unde sunt stocate înglobările vectoriale?

Înglobările vectoriale sunt stocate în baze de date specializate cunoscute ca baze de date vectoriale. Aceste baze de date sunt reprezentări matematice cu dimensiuni mari ale caracteristicilor datelor. Spre deosebire de bazele de date standard bazate pe scalari sau indecșii vectoriali independenți, bazele de date vectoriale oferă eficiențe specifice pentru stocarea și recuperarea înglobărilor de vectori la scară. Ele oferă capacitatea de a stoca și de a prelua în mod eficient cantități uriașe de date pentru funcțiile de căutare vectorială.

Bazele de date vectoriale includ mai multe componente cheie, inclusiv performanță și toleranță la erori. Pentru a se asigura că bazele de date vectoriale sunt tolerante la erori, replicare și sharding sunt folosite tehnici. Replicarea este procesul de producere a copiilor de date pe numeroase noduri, în timp ce sharding-ul este procesul de partiționare a datelor pe mai multe noduri. Acest lucru oferă toleranță la erori și performanță neîntreruptă chiar dacă un nod eșuează.

Bazele de date vectoriale sunt eficiente în învățarea automată și inteligența artificială (AI), deoarece acestea sunt specializate în management date nestructurate și semistructurate.

Aplicații ale înglobărilor vectoriale

Există mai multe utilizări pentru încorporarea vectorului în diferite industrii. Aplicațiile obișnuite ale înglobărilor vectoriale includ următoarele:

  • Sisteme de recomandare. Încorporarea vectorială joacă un rol crucial în sistemele de recomandare ale giganților din industrie, inclusiv Netflix și Amazon. Aceste înglobări permit organizațiilor să calculeze asemănările dintre utilizatori și articole, traducând preferințele utilizatorului și caracteristicile articolului în vectori. Acest proces ajută la livrarea de sugestii personalizate, adaptate gusturilor individuale ale utilizatorilor.
  • Motoare de căutare. Motoare de cautare utilizați extensiv înglobările vectoriale pentru a îmbunătăți eficacitatea și eficiența regăsirii informațiilor. Deoarece înglobările vectoriale depășesc potrivirea cuvintelor cheie, ele ajută motoarele de căutare să interpreteze sensul cuvintelor și propozițiilor. Chiar și atunci când expresiile exacte nu se potrivesc, motoarele de căutare pot găsi și prelua documente sau alte informații relevante din punct de vedere contextual prin modelarea cuvintelor ca vectori într-un spațiu semantic.
  • Chatbot și sisteme de răspuns la întrebări. Ajutor pentru încorporarea vectorului chatbot și sisteme generative de răspuns la întrebări bazate pe AI în înțelegerea și producerea de răspunsuri asemănătoare omului. Prin captarea contextului și a sensului textului, înglobările ajută chatboții să răspundă la întrebările utilizatorilor într-un mod semnificativ și logic. De exemplu, modele lingvistice și chatbot AI, inclusiv GPT-4 și procesoare de imagine precum Dall-E2, au câștigat o popularitate imensă pentru a produce conversații și răspunsuri asemănătoare oamenilor.
  • Detectarea fraudelor și detectarea valorii aberante. Înglobările de vectori pot fi folosite pentru a detecta anomalii sau activități frauduloase prin evaluarea similitudinii dintre vectori. Modelele neobișnuite sunt identificate prin evaluarea distanței dintre încorporare și punctare valorile extreme.
  • Preprocesarea datelor. A transforma date neprocesate într-un format adecvat pentru ML și modele de învățare profundă, înglobările sunt utilizate în activitățile de preprocesare a datelor. Înglobarile de cuvinte, de exemplu, sunt folosite pentru a reprezenta cuvintele ca vectori, ceea ce facilitează procesarea și analiza datelor text.
  • Învățare one-shot și zero-shot. Învățarea one-shot și zero-shot sunt abordări de încorporare vectorială care ajută modelele de învățare automată să prezică rezultatele pentru noile clase, chiar și atunci când sunt furnizate cu date limitate etichetate. Modelele pot generaliza și genera predicții chiar și cu un număr mic de instanțe de antrenament utilizând informațiile semantice incluse în înglobări.
  • Similaritate semantică și grupare. Înglobările vectoriale facilitează măsurarea cât de asemănătoare sunt două obiecte într-un mediu cu dimensiuni mari. Acest lucru face posibilă efectuarea de operațiuni precum calculul similarității semantice, gruparea și asamblarea lucrurilor înrudite pe baza înglobărilor lor.
Image showing vector embedding in chatbots.
Embedding-urile permit chatbot-urilor să răspundă la întrebările utilizatorilor într-un mod semnificativ și logic.

Ce fel de lucruri pot fi încorporate?

Multe tipuri diferite de obiecte și tipuri de date pot fi reprezentate folosind înglobări vectoriale. Tipurile comune de lucruri care pot fi încorporate includ următoarele:

Text

Cuvintele, frazele sau documentele sunt reprezentate ca vectori folosind încorporarea textului. Sarcinile NLP – inclusiv analiza sentimentelor, căutarea semantică și traducerea limbii – folosesc frecvent înglobări.

Universal Sentence Encoder este unul dintre cele mai populare modele de încorporare open source și poate codifica eficient propoziții individuale și bucăți întregi de text.

imagini

Încorporarea imaginilor captează și reprezintă caracteristicile vizuale ale imaginilor ca vectori. Cazurile lor de utilizare includ identificarea obiectelor, clasificarea imaginilor și căutarea inversă a imaginilor, adesea cunoscută ca cauta dupa imagine.

Încorporarea imaginilor poate fi, de asemenea, utilizată pentru a activa capabilitățile de căutare vizuală. Prin extragerea înglobărilor din imaginile bazei de date, un utilizator poate compara înglobările unei imagini de interogare cu înglobările fotografiilor bazei de date pentru a găsi potriviri similare vizual. Acesta este folosit în mod obișnuit în e-commerce aplicații, în care utilizatorii pot căuta articole încărcând fotografii cu produse similare.

Google Lens este o aplicație de căutare de imagini care compară fotografiile camerei cu produse similare vizual. De exemplu, poate fi folosit pentru a asorta produse de internet care sunt asemănătoare cu o pereche de adidași sau cu o piesă vestimentară.

Audio

Înglobarile audio sunt reprezentări vectoriale ale semnalelor audio. Înglobările vectoriale captează proprietățile auditive, permițând sistemelor să interpreteze datele audio mai eficient. De exemplu, înglobările audio pot fi folosite pentru recomandări muzicale, clasificări de gen, căutări de similaritate audio, recunoaștere a vorbirii și verificarea difuzorului.

În timp ce AI este folosită pentru diferite tipuri de încorporare, AI audio a primit mai puțină atenție decât AI text sau imagine. Google Speech-to-Text și OpenAI Whisper sunt aplicații de încorporare audio utilizate în organizații, cum ar fi centrele de apeluri, tehnologia medicală, accesibilitatea și aplicațiile de transmitere a vorbirii în text.

graficele

Înglobarile de grafice folosesc vectori pentru a reprezenta nodurile și marginile într-un grafic. Ei sunt utilizat în sarcini legate de analiza graficelor precum predicția legăturilor, recunoașterea comunității și sistemele de recomandare.

Fiecare nod reprezintă o entitate, cum ar fi o persoană, o pagină web sau un produs și fiecare margine simbolizează legătura sau conexiunea care există între acele entități. Aceste înglobări vectoriale pot realiza totul, de la recomandarea prietenilor reţele sociale pentru a detecta problemele de securitate cibernetică.

Date de serie temporală și modele 3D

Înglobările de serie de timp captează modele temporale în date secvențiale. Sunt folosite în internetul Lucrurilor aplicații, date financiare și date de senzori pentru activități, inclusiv detectarea anomaliilor, prognoza serii temporale și identificarea modelului.

Aspectele geometrice ale obiectelor 3D pot fi, de asemenea, exprimate ca vectori folosind încorporarea modelelor 3D. Sunt aplicate în sarcini precum reconstrucția 3D, detectarea obiectelor și potrivirea formelor.

molecule

Înglobările de molecule reprezintă compuși chimici ca vectori. Sunt folosiți în descoperirea de medicamente, căutarea similarităților chimice și predicția proprietăților moleculare. Aceste înglobări sunt, de asemenea, utilizate în chimia computațională și dezvoltarea de medicamente pentru a capta caracteristicile structurale și chimice ale moleculelor.

Image showing vector embeddings of objects.
Seturile structurate de numere sunt folosite ca înglobări vectoriale pentru obiecte.

Ce este Word2Vec?

Word2Vec este o abordare populară de încorporare a vectorului de cuvinte NLP. Creat de Google, Word2Vec este conceput pentru a reprezenta cuvintele ca vectori densi într-un spațiu vectorial continuu. Poate recunoaște contextul unui cuvânt dintr-un document și este utilizat în mod obișnuit în sarcini NLP, cum ar fi clasificarea textului, analiza sentimentelor și traducere automată pentru a ajuta mașinile să înțeleagă și să proceseze limbajul natural mai eficient.

Word2Vec se bazează pe principiul că cuvintele cu semnificații similare ar trebui să aibă reprezentări vectoriale similare, permițând modelului să capteze legăturile semantice dintre cuvinte.

Word2Vec are două arhitecturi de bază, CBOW (Continuous Bag of Words) și Skip-Gram:

  • CBOW. Această arhitectură prezice cuvântul țintă pe baza cuvintelor de context. Modelului i se oferă un context sau cuvinte înconjurătoare și are sarcina de a prezice cuvântul țintă din centru. De exemplu, în propoziția „Vulpea maro iute sare peste câinele leneș”, CBOW folosește contextul sau cuvintele din jur pentru a prezice vulpe ca cuvânt țintă.
  • Skip-Gram. Spre deosebire de CBOW, arhitectura Skip-Gram prezice cuvintele context pe baza cuvântului țintă. Modelului i se dă un cuvânt țintă și i se cere să prezică termenii contextului înconjurător. Luând exemplul de propoziție de mai sus „Vulpea maro iute sare peste câinele leneș”, skip-gram va lua cuvântul țintă vulpe și descoperiți cuvinte de context precum „The”, „rapid”, „maro”, „sări”, „peste”, „the”, „lenes” și „câine”.

O gamă largă de companii încep să îmbrățișeze IA generativă, demonstrând potențialul său perturbator. Examina cât de generativă se dezvoltă IA, în ce direcție va merge în viitor și orice provocări care ar putea apărea.

Timestamp-ul:

Mai mult de la Agenda IoT