Hvad er vektorindlejringer? | Definition fra TechTarget

Hvad er vektorindlejringer? | Definition fra TechTarget

Kildeknude: 3084305

Hvad er vektorindlejringer?

Vektorindlejringer er numeriske repræsentationer, der fanger relationerne og betydningen af ​​ord, sætninger og andre datatyper. Gennem vektorindlejringer oversættes væsentlige egenskaber eller træk ved et objekt til en kortfattet og organiseret række af tal, hvilket hjælper computere med hurtigt at hente information. Lignende datapunkter er klynget tættere sammen efter at være blevet oversat til punkter i et flerdimensionelt rum.

Anvendes i en lang række applikationer, især i naturlig sprogbehandling (NLP) og maskinlæring (ML), hjælper vektorindlejringer med at manipulere og behandle data til opgaver såsom lighedssammenligninger, klyngedannelse og klassificering. Når man f.eks. ser på tekstdata, kan ord som f.eks hvordan , kitty formidle lignende betydninger på trods af forskelle i deres bogstavsammensætning. Effektiv semantisk søgning er afhængig af præcise repræsentationer, der tilstrækkeligt fanger denne semantiske lighed mellem termer.

[Indlejret indhold]

Er indlejringer og vektorer det samme?

Vilkårene vektorer , indlejringer kan bruges i flæng i forbindelse med vektorindlejringer. De refererer begge til numeriske datarepræsentationer, hvor hver datapunkt er repræsenteret som en vektor i et højdimensionelt rum.

Vektor refererer til et array af tal med en defineret dimension, mens vektorindlejringer bruger disse vektorer til at repræsentere datapunkter i et kontinuerligt rum.

Denne artikel er en del af

Indlejringer refererer til at udtrykke data som vektorer til at fange væsentlig information, semantiske links, kontekstuelle kvaliteter eller den organiserede repræsentation af data lært via træningsalgoritmer eller maskinlæringsmodeller.

Typer af vektorindlejringer

Vektorindlejringer kommer i en række forskellige former, hver med en særskilt funktion til at repræsentere forskellige slags data. Følgende er nogle almindelige typer af vektorindlejringer:

  • Ordindlejringer. Ordindlejringer er vektorrepræsentationer af individuelle ord i et sammenhængende rum. De bruges ofte til at fange semantiske forbindelser mellem ord i opgaver som f.eks følelser analyse, sprogoversættelse og ordlighed.
  • Sætningsindlejringer. Vektorrepræsentationer af hele sætninger kaldes sætningsindlejringer. De er nyttige til opgaver, herunder sentimentanalyse, tekstkategorisering og informationssøgning, fordi de fanger sætningens betydning og kontekst.
  • Dokumentindlejringer. Dokumentindlejringer er vektorrepræsentationer af hele dokumenter, såsom artikler eller rapporter. Typisk bruges i opgaver som dokumentlighed, klyngedannelse og anbefalingssystemer, de fanger dokumentets generelle betydning og indhold.
  • Brugerprofilvektorer. Disse er vektorrepræsentationer af en brugers præferencer, handlinger eller træk. De bruges i kundesegmentering, personlige anbefalingssystemer og målrettet annoncering for at indsamle brugerspecifikke data.
  • Billedvektorer. Disse er vektorrepræsentationer af visuelle elementer, såsom billeder eller videorammer. De bruges i opgaver som f.eks genkendelse af objekt, billedsøgning og indholdsbaserede anbefalingssystemer til at fange visuelle funktioner.
  • Produktvektorer. Disse repræsenterer produkter eller varer som vektorer og bruges i produktsøgninger, produktklassificering og anbefalingssystemer til at samle funktioner og ligheder mellem produkter.
  • Brugerprofilvektorer. Brugerprofilvektorer repræsenterer en brugers præferencer, handlinger eller træk. De bruges i brugersegmentering, personlige anbefalingssystemer og målrettet reklame at indsamle brugerspecifikke data.

Hvordan skabes vektorindlejringer?

Vektorindlejringer genereres ved hjælp af en ML-tilgang, der træner en model til at omdanne data til numeriske vektorer. Typisk en dyb indviklet neuralt netværk bruges til at træne disse typer modeller. De resulterende indlejringer er ofte tætte - alle værdier er ikke-nul - og højdimensionelle - op til 2,000 dimensioner. Populære modeller som Word2Vec, GLoVE og BERTI konvertere ord, sætninger eller afsnit til vektorindlejringer til tekstdata.

Følgende trin er almindeligvis involveret i processen:

  1. Saml et stort datasæt. Et datasæt, der fanger den specifikke datakategori, som indlejringer er beregnet til - uanset om det vedrører tekst eller billeder - samles.
  2. Forbehandle dataene. Afhængig af typen af ​​data, rengøring, klargøring og data forbehandling indebærer at eliminere støj, ændre størrelse på billeder, normalisere tekst og udføre yderligere handlinger.
  3. Træn modellen. For at identificere links og mønstre i dataene trænes modellen ved hjælp af datasættet. For at reducere forskellen mellem mål- og forudsagte vektorer ændres den fortrænede models parametre under træningsfasen.
  4. Generer vektorindlejringer. Efter træning kan modellen konvertere friske data til numeriske vektorer, der præsenterer en meningsfuld og struktureret repræsentation, der effektivt indkapsler den semantiske information fra de originale data.

Vektorindlejringer kan laves til en lang række datatyper, herunder tidsseriedata, tekst, billeder, lyd, tredimensionelle (3D) modeller og video. På grund af den måde, indlejringerne er dannet på, vil objekter med lignende semantik have vektorer i vektorrum, der er tæt på hinanden.

Hvor opbevares vektorindlejringer?

Vektorindlejringer gemmes i specialiserede databaser kendt som vektor databaser. Disse databaser er højdimensionelle matematiske repræsentationer af datafunktioner. I modsætning til standard skalarbaserede databaser eller uafhængige vektorindekser giver vektordatabaser specifikke effektiviteter til lagring og hentning af vektorindlejringer i skala. De tilbyder kapacitet til effektivt at lagre og hente enorme mængder data til vektorsøgefunktioner.

Vektordatabaser omfatter flere nøglekomponenter, herunder ydeevne og fejltolerance. For at sikre, at vektordatabaser er fejltolerante, skal replikering og sharding teknikker bruges. Replikering er processen med at producere kopier af data på tværs af adskillige noder, mens sharding er processen med at opdele data over flere noder. Dette giver fejltolerance og uafbrudt ydeevne, selvom en node fejler.

Vektordatabaser er effektive i maskinlæring og kunstig intelligens (AI) applikationer, da de er specialiserede i at administrere ustrukturerede og semistrukturerede data.

Anvendelser af vektorindlejringer

Der er flere anvendelser til vektorindlejring på tværs af forskellige industrier. Almindelige anvendelser af vektorindlejringer omfatter følgende:

  • Anbefalingssystemer. Vektorindlejringer spiller en afgørende rolle i anbefalingssystemerne hos industrigiganter, herunder Netflix og Amazon. Disse indlejringer lader organisationer beregne lighederne mellem brugere og elementer, og oversætte brugerpræferencer og elementfunktioner til vektorer. Denne proces hjælper med at levere personlige forslag, der er skræddersyet til den enkelte brugers smag.
  • Søgemaskiner. Søgemaskiner bruge vektorindlejringer i vid udstrækning for at forbedre effektiviteten og effektiviteten af ​​informationssøgning. Da vektorindlejringer går ud over søgeordsmatchning, hjælper de søgemaskiner med at fortolke betydningen af ​​ord og sætninger. Selv når de nøjagtige sætninger ikke stemmer overens, kan søgemaskiner stadig finde og hente dokumenter eller anden information, der er kontekstuelt relevant ved at modellere ord som vektorer i et semantisk rum.
  • Chatbots og spørgsmål-svar-systemer. Hjælp til vektorindlejring chatbots og generative AI-baserede systemer til besvarelse af spørgsmål i forståelsen og produktionen af ​​menneskelignende reaktioner. Ved at fange tekstens kontekst og betydning hjælper indlejringer chatbots med at svare på brugerforespørgsler på en meningsfuld og logisk måde. For eksempel sprogmodeller og AI-chatbots, herunder GPT-4 og billedprocessorer som f.eks Dall-E2, har vundet enorm popularitet for at producere menneskelignende samtaler og svar.
  • Detektion af svindel og afvigende detektion. Vektorindlejringer kan bruges til at opdage anomalier eller svigagtige aktiviteter ved at vurdere ligheden mellem vektorer. Usædvanlige mønstre identificeres ved at evaluere afstanden mellem indlejringer og lokalisering outliers.
  • Dataforbehandling. At transformere ubehandlede data til et format, der er passende for ML og deep learning-modeller, indlejringer bruges i dataforbehandlingsaktiviteter. Ordindlejringer bruges for eksempel til at repræsentere ord som vektorer, hvilket letter behandlingen og analysen af ​​tekstdata.
  • One-shot og zero-shot læring. One-shot og zero-shot learning er vektorindlejringsmetoder, der hjælper maskinlæringsmodeller med at forudsige resultater for nye klasser, selv når de leveres med begrænsede mærkede data. Modeller kan generalisere og generere forudsigelser selv med et lille antal træningstilfælde ved at bruge den semantiske information inkluderet i indlejringer.
  • Semantisk lighed og klyngedannelse. Vektorindlejringer gør det lettere at måle, hvor ens to objekter er i et højdimensionelt miljø. Dette gør det muligt at udføre operationer såsom databehandling af semantisk lighed, clustering og samling af relaterede ting baseret på deres indlejringer.
Image showing vector embedding in chatbots.
Indlejringer lader chatbots svare på brugerforespørgsler på en meningsfuld og logisk måde.

Hvilken type ting kan indlejres?

Mange forskellige slags objekter og datatyper kan repræsenteres ved hjælp af vektorindlejringer. Almindelige typer ting, der kan indlejres, omfatter følgende:

tekst

Ord, sætninger eller dokumenter er repræsenteret som vektorer ved hjælp af tekstindlejringer. NLP-opgaver - herunder sentimentanalyse, semantisk søgning og sprogoversættelse - bruger ofte indlejringer.

Universal Sentence Encoder er en af ​​de mest populære open source-indlejringsmodeller, og den kan effektivt kode individuelle sætninger og hele tekststykker.

Billeder

Billedindlejringer fanger og repræsenterer visuelle karakteristika af billeder som vektorer. Deres anvendelsestilfælde omfatter objektidentifikation, billedklassificering og omvendt billedsøgning, ofte kendt som søg på billede.

Billedindlejringer kan også bruges til at aktivere visuelle søgefunktioner. Ved at udtrække indlejringer fra databasebilleder kan en bruger sammenligne indlejringerne af et forespørgselsbillede med indlejringerne af databasebillederne for at finde visuelt lignende matches. Dette er almindeligt anvendt i e-handel apps, hvor brugere kan søge efter varer ved at uploade billeder af lignende produkter.

Google Lens er en billedsøgningsapplikation, der sammenligner kamerabilleder med visuelt lignende produkter. Det kan for eksempel bruges til at matche internetprodukter, der ligner et par sneakers eller et stykke tøj.

Audio

Audio-indlejringer er vektorrepræsentationer af lydsignaler. Vektorindlejringer fanger auditive egenskaber, så systemerne fortolker lyddata mere effektivt. For eksempel kan lydindlejringer bruges til musikanbefalinger, genreklassifikationer, lydlighedssøgninger, talegenkendelse og højttalerbekræftelse.

Mens AI bliver brugt til forskellige typer indlejringer, har lyd AI fået mindre opmærksomhed end tekst- eller billed-AI. Google tale-til-tekst og OpenAI Whisper er lydindlejringsapplikationer, der bruges i organisationer som callcentre, medicinsk teknologi, tilgængelighed og tale-til-tekst-applikationer.

Grafer

Grafindlejringer bruger vektorer til at repræsentere noder og kanter i en graf. Det er de bruges i opgaver relateret til grafanalyse såsom link-forudsigelse, samfundsgenkendelse og anbefalingssystemer.

Hver node repræsenterer en enhed, såsom en person, en webside eller et produkt, og hver kant symboliserer linket eller forbindelsen, der eksisterer mellem disse enheder. Disse vektorindlejringer kan udrette alt fra at anbefale venner sociale netværk at opdage cybersikkerhedsproblemer.

Tidsseriedata og 3D-modeller

Tidsserieindlejringer fanger tidsmæssige mønstre i sekventielle data. De bruges i tingenes internet applikationer, økonomiske data og sensordata til aktiviteter, herunder afsløring af anomalier, tidsserie prognose og mønsteridentifikation.

Geometriske aspekter af 3D-objekter kan også udtrykkes som vektorer ved hjælp af 3D-modelindlejringer. De anvendes i opgaver som 3D-rekonstruktion, objektdetektering og formmatchning.

molekyler

Molekyleindlejringer repræsenterer kemiske forbindelser som vektorer. De bruges i lægemiddelopdagelse, kemisk lighedssøgning og forudsigelse af molekylære egenskaber. Disse indlejringer bruges også i computerkemi og lægemiddeludvikling til at fange molekylernes strukturelle og kemiske egenskaber.

Image showing vector embeddings of objects.
Strukturerede talsæt bruges som vektorindlejringer for objekter.

Hvad er Word2Vec?

Word2Vec er en populær NLP-ordvektorindlejringstilgang. Word2Vec er skabt af Google og er designet til at repræsentere ord som tætte vektorer i et kontinuerligt vektorrum. Det kan genkende konteksten af ​​et ord i et dokument og bruges almindeligvis i NLP-opgaver såsom tekstkategorisering, sentimentanalyse og maskine oversættelse at hjælpe maskiner med at forstå og behandle naturligt sprog mere effektivt.

Word2Vec er baseret på princippet om, at ord med lignende betydninger skal have lignende vektorrepræsentationer, hvilket gør modellen i stand til at fange semantiske forbindelser mellem ord.

Word2Vec har to grundlæggende arkitekturer, CBOW (Continuous Bag of Words) og Skip-Gram:

  • CBOW. Denne arkitektur forudsiger målordet baseret på kontekstordene. Modellen får en kontekst eller omgivende ord og har til opgave at forudsige målordet i centrum. For eksempel, i sætningen "Den hurtige brune ræv hopper over den dovne hund", bruger CBOW konteksten eller de omkringliggende ord til at forudsige ræv som målord.
  • Skip-Gram. I modsætning til CBOW forudsiger Skip-Gram-arkitekturen kontekstordene baseret på målordet. Modellen får et målord og bliver bedt om at forudsige de omgivende kontekstudtryk. Ved at tage ovenstående eksempelsætning "Den hurtige brune ræv hopper over den dovne hund", vil skip-gram tage målordet ræv og opdag kontekstord som "den", "hurtig", "brun", "hopper", "over", "den", "doven" og "hund".

En bred vifte af virksomheder er begyndt at omfavne generativ kunstig intelligens, hvilket viser dets forstyrrende potentiale. Undersøge hvordan generativ AI udvikler sig, hvilken retning det vil gå i fremtiden og eventuelle udfordringer, der måtte opstå.

Tidsstempel:

Mere fra IoT dagsorden