Mis on vektormanused? | Määratlus alates TechTarget

Mis on vektormanused? | Määratlus alates TechTarget

Allikasõlm: 3084305

Mis on vektormanused?

Vektormanused on numbrilised esitused, mis kajastavad sõnade, fraaside ja muude andmetüüpide seoseid ja tähendusi. Vektormanuste abil muudetakse objekti olulised omadused või tunnused kokkuvõtlikuks ja organiseeritud arvude massiiviks, mis aitab arvutitel teavet kiiresti hankida. Sarnased andmepunktid koondatakse pärast mitmemõõtmelise ruumi punktideks teisendamist üksteisele lähemale.

Kasutatakse paljudes rakendustes, eriti loomuliku keele töötlemisel (NLP) ja masinõpe (ML), vektormanused aitavad manipuleerida ja töödelda andmeid selliste ülesannete jaoks nagu sarnasuse võrdlemine, rühmitamine ja klassifitseerimine. Näiteks tekstiandmeid vaadates sõnad nagu kass ja kiisu edastavad sarnaseid tähendusi vaatamata erinevustele nende kirjade koostises. Tõhus semantiline otsing tugineb täpsetele esitustele, mis kajastavad adekvaatselt seda terminite semantilist sarnasust.

[Varjatud sisu]

Kas manused ja vektorid on samad asjad?

Tingimused vektoreid ja manused saab kasutada vektori manustamise kontekstis vaheldumisi. Mõlemad viitavad numbrilistele andmete esitustele, milles kumbki andmepunkt on kujutatud vektorina kõrgmõõtmelises ruumis.

Vektor viitab kindla mõõtmega arvude massiivile, samas kui vektormanused kasutavad neid vektoreid andmepunktide esitamiseks pidevas ruumis.

See artikkel on osa

Manustused viitavad andmete väljendamisele vektoritena olulise teabe, semantiliste seoste, kontekstuaalsete omaduste või koolitusalgoritmide või koolitusalgoritmide kaudu õpitud andmete organiseeritud esituse hõivamiseks. masinõppe mudelid.

Vektori manustamise tüübid

Vektori manustused on erineval kujul, millest igaühel on eri tüüpi andmete esitamiseks oma funktsioon. Järgmised on mõned levinumad vektori manustamise tüübid.

  • Sõna manustamine. Sõna manustamine on üksikute sõnade vektoresitus pidevas ruumis. Neid kasutatakse sageli sõnade vaheliste semantiliste seoste hõivamiseks sellistes ülesannetes nagu sentiment analüüs, keele tõlge ja sõnade sarnasus.
  • Lause manustamine. Terviklausete vektoresitusi nimetatakse lause manustamiseks. Need on abiks selliste ülesannete puhul, nagu sentimentide analüüs, teksti kategoriseerimine ja teabe otsimine, kuna need tabavad lause tähendust ja konteksti.
  • Dokumentide manustamine. Dokumendi manustamine on tervete dokumentide, näiteks artiklite või aruannete vektoresitus. Tavaliselt kasutatakse sellistes ülesannetes nagu dokumentide sarnasus, rühmitamine ja soovitussüsteemid, mis kajastavad dokumendi üldist tähendust ja sisu.
  • Kasutajaprofiili vektorid. Need on kasutaja eelistuste, tegevuste või tunnuste vektorkujutised. Neid kasutatakse klientide segmenteerimine, isikupärastatud soovitussüsteemid ja suunatud reklaamid kasutajaspetsiifiliste andmete kogumiseks.
  • Pildivektorid. Need on visuaalsete üksuste, näiteks piltide või videokaadrite, vektorkujutised. Neid kasutatakse sellistes ülesannetes nagu eseme tuvastamine, pildiotsing ja sisupõhised soovitussüsteemid visuaalsete funktsioonide jäädvustamiseks.
  • Tootevektorid. Toodete või esemete kujutamisel vektoritena kasutatakse neid tooteotsingutes, toodete klassifitseerimises ja soovitussüsteemides, et koguda toodete vahel omadusi ja sarnasusi.
  • Kasutajaprofiili vektorid. Kasutajaprofiili vektorid tähistavad kasutaja eelistusi, tegevusi või tunnuseid. Neid kasutatakse kasutajate segmentimisel, isikupärastatud soovitussüsteemides ja suunatud reklaam kasutajaspetsiifiliste andmete kogumiseks.

Kuidas luuakse vektormanused?

Vektori manustused luuakse ML-meetodi abil, mis treenib mudelit andmete arvulisteks vektoriteks muutmiseks. Tavaliselt sügav konvolutsioonneuraalvõrk kasutatakse seda tüüpi mudelite koolitamiseks. Saadud manustused on sageli tihedad – kõik väärtused on nullist erinevad – ja suuremõõtmelised – kuni 2,000 mõõdet. Populaarsed mudelid nagu Word2Vec, GLoVE ja BERT teisendada sõnu, fraase või lõike tekstiandmete vektormanustusteks.

Protsessi kaasatakse tavaliselt järgmised sammud:

  1. Koguge kokku suur andmekogum. Koostatakse andmekogum, mis hõlmab konkreetset andmekategooriat, mille jaoks manustamine on ette nähtud – olgu see siis teksti või piltide puhul.
  2. Andmete eeltöötlemine. Sõltuvalt andmete tüübist puhastatakse, valmistatakse ette ja andmete eeltöötlus hõlmab müra kõrvaldamist, fotode suuruse muutmist, teksti normaliseerimist ja lisatoimingute tegemist.
  3. Treeni modelli. Andmete seoste ja mustrite tuvastamiseks koolitatakse mudelit andmekogumi abil. Siht- ja prognoositud vektorite vahelise erinevuse vähendamiseks muudetakse koolitusfaasi ajal eelkoolitatud mudeli parameetreid.
  4. Genereerige vektormanused. Pärast koolitust saab mudel teisendada värsked andmed numbrilisteks vektoriteks, esitades sisuka ja struktureeritud esituse, mis kapseldab tõhusalt algandmete semantilise teabe.

Vektori manustamist saab teha paljude andmetüüpide jaoks, sealhulgas aegridade andmete, teksti, piltide, heli, kolmemõõtmelised (3D) mudelid ja video. Manustuste moodustamise viisi tõttu on sarnase semantikaga objektidel vektorruumis üksteisele lähedased vektorid.

Kuhu vektormanused salvestatakse?

Vektori manustused salvestatakse spetsiaalsetes andmebaasides, mida nimetatakse vektorandmebaasid. Need andmebaasid on andmefunktsioonide kõrgmõõtmelised matemaatilised esitused. Erinevalt tavalistest skalaaripõhistest andmebaasidest või sõltumatutest vektorindeksitest pakuvad vektorandmebaasid spetsiifilist tõhusust vektormanustuste salvestamiseks ja hankimiseks mastaabis. Need võimaldavad vektorotsingu funktsioonide jaoks tõhusalt salvestada ja hankida tohutul hulgal andmeid.

Vektorandmebaasid sisaldavad mitmeid põhikomponente, sealhulgas jõudlust ja veataluvus. Vektorandmebaaside tõrketaluvuse tagamiseks tuleb replikatsiooni- ja varitsus tehnikaid kasutatakse. Replikatsioon on andmete koopiate tootmine paljude sõlmede vahel, samas kui jagamine on andmete jaotamine mitme sõlme vahel. See tagab tõrketaluvuse ja katkematu jõudluse isegi sõlme rikke korral.

Vektorandmebaasid on tõhusad masinõppes ja tehisintellektis (AI) rakendusi, kuna nad on spetsialiseerunud haldamisele struktureerimata ja poolstruktureeritud andmed.

Vektori manustamise rakendused

Vektori manustamisel on erinevates tööstusharudes mitmeid kasutusviise. Vektori manustamise levinumad rakendused hõlmavad järgmist:

  • Soovitussüsteemid. Vektori manustused mängivad tööstushiiglaste, sealhulgas Netflixi ja Amazoni soovitussüsteemides üliolulist rolli. Need manustused võimaldavad organisatsioonidel arvutada kasutajate ja üksuste sarnasusi, teisendades kasutaja eelistused ja üksuste funktsioonid vektoriteks. See protsess aitab edastada isikupärastatud soovitusi, mis on kohandatud vastavalt kasutaja maitsele.
  • Otsingumootorid. Otsingumootorid kasutada laialdaselt vektormanustusi, et parandada teabeotsingu tõhusust ja tõhusust. Kuna vektormanused ulatuvad kaugemale märksõnade sobitamisest, aitavad need otsingumootoritel tõlgendada sõnade ja lausete tähendust. Isegi kui täpsed fraasid ei ühti, saavad otsingumootorid siiski leida ja hankida dokumente või muud kontekstiliselt olulist teavet, modelleerides sõnu semantilises ruumis vektoritena.
  • Vestlusbotid ja küsimustele vastamise süsteemid. Vektori manustamise abi vestlusrobotid ja generatiivsed AI-põhised küsimustele vastamise süsteemid inimlike vastuste mõistmisel ja tekitamisel. Jäädvustades teksti konteksti ja tähenduse, aitavad manused vestlusrobotidel vastata kasutajate päringutele sisukalt ja loogiliselt. Näiteks keelemudelid ja AI-vestlusbotid, sealhulgas GPT-4 ja pildiprotsessorid nagu Dall-E2, on saavutanud tohutu populaarsuse inimlike vestluste ja vastuste loomisega.
  • Pettuste avastamine ja kõrvalekallete tuvastamine. Vektori manustamist saab kasutada anomaaliate või pettuste tuvastamiseks, hinnates vektorite sarnasust. Aeg-ajalt esinevad mustrid tuvastatakse manustamiste vahelise kauguse hindamise ja täpse määramise abil kõrvalised näitajad.
  • Andmete eeltöötlus. Teisendamiseks töötlemata andmed ML jaoks sobivasse vormingusse ja süvaõppe mudelid, manuseid kasutatakse andmete eeltöötlustegevustes. Sõnade manustamist kasutatakse näiteks sõnade esitamiseks vektoritena, mis hõlbustab tekstiandmete töötlemist ja analüüsi.
  • Ühekordne ja null-shot õppimine. Ühekordne ja null-shot õpe on vektorpõhised lähenemisviisid, mis aitavad masinõppemudelitel ennustada uute klasside tulemusi isegi siis, kui need on varustatud piiratud märgistatud andmetega. Mudelid võivad üldistada ja genereerida ennustusi isegi väikese arvu koolitusjuhtumite korral, kasutades manustesse lisatud semantilist teavet.
  • Semantiline sarnasus ja klasterdamine. Vektori manustamine hõlbustab kahe objekti sarnasuste mõõtmist suuremõõtmelises keskkonnas. See võimaldab teha selliseid toiminguid nagu semantilise sarnasuse arvutamine, rühmitamine ja seotud asjade kokkupanemine nende manustamise põhjal.
Image showing vector embedding in chatbots.
Manustused võimaldavad vestlusrobotidel vastata kasutajate päringutele sisukalt ja loogiliselt.

Mis tüüpi asju saab manustada?

Paljusid erinevaid objekte ja andmetüüpe saab esitada vektormanustuste abil. Levinud asjade tüübid, mida saab manustada, on järgmised.

Tekst

Sõnu, fraase või dokumente esitatakse vektoritena, kasutades teksti manustamist. NLP-ülesanded – sealhulgas sentimentianalüüs, semantiline otsing ja keeletõlge – kasutavad sageli manustamist.

Universaalne lausekodeerija on üks populaarsemaid avatud lähtekoodiga manustamismudeleid ja see suudab tõhusalt kodeerida üksikuid lauseid ja terveid tekstitükke.

images

Piltide manused jäädvustavad ja esindavad piltide visuaalseid omadusi vektoritena. Nende kasutusjuhtude hulka kuuluvad objektide identifitseerimine, piltide klassifitseerimine ja pöördkujutise otsing, mida sageli nimetatakse otsi pildi järgi.

Pildi manustamist saab kasutada ka visuaalse otsingu võimaluste lubamiseks. Andmebaasi piltidest manuseid eraldades saab kasutaja võrrelda päringukujutise manustusi andmebaasi fotode manustega, et leida visuaalselt sarnaseid vasteid. Seda kasutatakse tavaliselt e-kaubandus rakendused, kus kasutajad saavad otsida üksusi, laadides üles fotosid sarnastest toodetest.

Google Lens on pildiotsingu rakendus, mis võrdleb kaamera fotosid visuaalselt sarnaste toodetega. Näiteks saab sellega kokku sobitada internetitooteid, mis sarnanevad tossupaari või riideesemega.

heli-

Heli manused on helisignaalide vektoresitlused. Vektori manustused hõivavad kuulmisomadused, võimaldades süsteemidel heliandmeid tõhusamalt tõlgendada. Näiteks saab heli manuseid kasutada muusikasoovituste, žanriklassifikatsioonide, heli sarnasuse otsingute, kõnetuvastuse ja kõlarite kinnitamise jaoks.

Kuigi tehisintellekti kasutatakse erinevat tüüpi manustamiseks, on heli-AI pälvinud vähem tähelepanu kui teksti- või pildi-AI. Google'i kõne tekstiks ja OpenAI Whisper on heli manustamise rakendused, mida kasutatakse sellistes organisatsioonides nagu kõnekeskused, meditsiinitehnoloogia, juurdepääsetavuse ja kõne tekstiks muutmise rakendused.

Graafikud

Graafiku manustamisel kasutatakse graafiku sõlmede ja servade kujutamiseks vektoreid. Nad on kasutatakse graafikanalüütikaga seotud ülesannetes nagu linkide ennustamine, kogukonna tuvastamise ja soovituste süsteemid.

Iga sõlm esindab olemit, näiteks isikut, veebilehte või toodet ja iga serv sümboliseerib nende üksuste vahel olevat linki või ühendust. Need vektormanused võimaldavad teha kõike alates sõprade soovitamisest sotsiaalsed võrgustikud küberturvalisuse probleemide avastamiseks.

Aegridade andmed ja 3D-mudelid

Aegridade manustamine jäädvustab järjestikuste andmete ajalisi mustreid. Neid kasutatakse Asjade Internet rakendused, finantsandmed ja andurite andmed tegevuste jaoks, sealhulgas anomaaliate tuvastamiseks, aegridade prognoosimine ja mustri tuvastamine.

3D-objektide geomeetrilisi aspekte saab väljendada ka vektoritena, kasutades 3D-mudeli manuseid. Neid kasutatakse sellistes ülesannetes nagu 3D-rekonstrueerimine, objektide tuvastamine ja vormide sobitamine.

Molekulid

Molekuli kinnistused esindavad keemilisi ühendeid vektoritena. Neid kasutatakse ravimite avastamisel, keemilise sarnasuse otsimisel ja molekulaarsete omaduste ennustamisel. Neid manuseid kasutatakse ka arvutuskeemias ja ravimiarenduses, et tabada molekulide struktuurseid ja keemilisi omadusi.

Image showing vector embeddings of objects.
Struktureeritud arvude komplekte kasutatakse objektide vektormanustustena.

Mis on Word2Vec?

Word2Vec on populaarne NLP sõnavektori manustamise lähenemisviis. Google'i loodud Word2Vec on loodud esindama sõnu tihedate vektoritena pidevas vektorruumis. See suudab ära tunda dokumendis oleva sõna konteksti ja seda kasutatakse tavaliselt NLP-ülesannetes, nagu teksti kategoriseerimine, sentimentide analüüs ja masintõlge aidata masinatel loomulikku keelt tõhusamalt mõista ja töödelda.

Word2Vec põhineb põhimõttel, et sarnase tähendusega sõnadel peaksid olema sarnased vektoresitlused, mis võimaldab mudelil tabada sõnade vahelisi semantilisi seoseid.

Word2Vecil on kaks põhilist arhitektuuri, CBOW (Continuous Bag of Words) ja Skip-Gram:

  • CBOW. See arhitektuur ennustab sihtsõna kontekstisõnade põhjal. Mudelile antakse kontekst või ümbritsevad sõnad ja tema ülesandeks on ennustada keskel olev sihtsõna. Näiteks lauses "Kiire pruun rebane hüppab üle laiska koera" kasutab CBOW ennustamiseks konteksti või ümbritsevaid sõnu rebane sihtsõnana.
  • Grammi vahelejätmine. Erinevalt CBOW-st ennustab Skip-Gram arhitektuur kontekstisõnu sihtsõna põhjal. Mudelile antakse sihtsõna ja palutakse ennustada ümbritsevaid kontekstitermineid. Võttes ülaltoodud näitelause "Kiire pruun rebane hüppab üle laiska koera", võtab skip-gram sihtsõna rebane ja avastage kontekstisõnu, nagu "The", "kiire", "pruun", "hüppab", "üle", "laisk" ja "koer".

Paljud ettevõtted on hakanud kasutama generatiivset tehisintellekti, mis näitab selle häirivat potentsiaali. Uurima kuidas generatiivne AI areneb, millises suunas see tulevikus läheb ja millised väljakutsed võivad tekkida.

Ajatempel:

Veel alates IoT tegevuskava