Mik azok a vektorbeágyazások? | A TechTarget definíciója

Mik azok a vektorbeágyazások? | A TechTarget definíciója

Forrás csomópont: 3084305

Mik azok a vektorbeágyazások?

A vektorbeágyazások olyan numerikus ábrázolások, amelyek a szavak, kifejezések és más adattípusok kapcsolatait és jelentését rögzítik. A vektoros beágyazások révén egy objektum alapvető jellemzői vagy jellemzői tömör és rendezett számok tömbjévé alakulnak, segítve a számítógépeket az információk gyors lekérésében. A hasonló adatpontok közelebb kerülnek egymáshoz, miután egy többdimenziós térben lévő pontokká alakítják őket.

Alkalmazások széles körében használják, különösen a természetes nyelvi feldolgozásban (NLP) és a gépi tanulás (ML), a vektorbeágyazások segítenek az adatok kezelésében és feldolgozásában olyan feladatokhoz, mint a hasonlóságok összehasonlítása, klaszterezés és osztályozás. Például szöveges adatok megtekintésekor olyan szavak, mint pl hogyan és a cica hasonló jelentéseket közvetítenek a betűösszetételük eltérései ellenére. A hatékony szemantikai keresés olyan pontos reprezentációkra támaszkodik, amelyek megfelelően rögzítik a kifejezések közötti szemantikai hasonlóságot.

[Beágyazott tartalmat]

A beágyazások és a vektorok ugyanazok?

A feltételek vektorok és a beágyazások felcserélhetően használhatók a vektorbeágyazással összefüggésben. Mindkettő numerikus adatábrázolásokra vonatkozik, amelyekben mindegyik adatpont vektorként van ábrázolva egy nagy dimenziós térben.

A vektor meghatározott dimenziójú számtömbre utal, míg a vektorbeágyazások ezeket a vektorokat használják a folytonos térben lévő adatpontok ábrázolására.

Ez a cikk a következő része:

A beágyazások az adatok vektorként történő kifejezésére utalnak jelentős információk, szemantikai kapcsolatok, kontextuális minőségek rögzítésére vagy a betanító algoritmusokon keresztül tanult adatok szervezett ábrázolására. gépi tanulási modellek.

A vektorbeágyazások típusai

A vektoros beágyazások többféle formában léteznek, és mindegyiknek külön funkciója van a különböző típusú adatok megjelenítésére. Íme néhány gyakori vektorbeágyazási típus:

  • Szóbeágyazások. A szóbeágyazások az egyes szavak vektoros ábrázolásai folytonos térben. Gyakran használják a szavak közötti szemantikai kapcsolatok rögzítésére olyan feladatokban, mint pl hangulat elemzés, nyelvi fordítás és szóhasonlóság.
  • Mondatbeágyazások. A teljes mondatok vektoros ábrázolását mondatbeágyazásnak nevezzük. Hasznosak az olyan feladatoknál, mint a hangulatelemzés, a szövegek kategorizálása és az információkeresés, mert megragadják a mondat jelentését és kontextusát.
  • Dokumentum beágyazások. A dokumentumbeágyazások a teljes dokumentumok, például cikkek vagy jelentések vektoros ábrázolásai. Jellemzően olyan feladatokban használatosak, mint a dokumentum-hasonlóság, klaszterezés és ajánlási rendszerek, és rögzítik a dokumentum általános jelentését és tartalmát.
  • Felhasználói profil vektorok. Ezek a felhasználó preferenciái, műveletei vagy tulajdonságai vektoros ábrázolásai. Használják őket az ügyfelek szegmentálása, személyre szabott ajánlórendszerek és célzott reklámozás a felhasználó-specifikus adatok gyűjtésére.
  • Képvektorok. Ezek vizuális elemek, például képek vagy videokockák vektoros ábrázolásai. Olyan feladatokban használják őket, mint pl tárgyfelismerés, képkereső és tartalomalapú ajánlórendszerek a vizuális funkciók rögzítéséhez.
  • Termékvektorok. A termékeket vagy cikkeket vektorként ábrázolva ezeket a termékkeresésekben, a termékosztályozási és ajánlási rendszerekben használják fel, hogy összegyűjtsék a termékek jellemzőit és hasonlóságait.
  • Felhasználói profil vektorok. A felhasználói profilvektorok a felhasználó preferenciáit, műveleteit vagy tulajdonságait képviselik. Használják a felhasználók szegmentálásában, személyre szabott ajánlórendszerekben és célzott reklámozás felhasználó-specifikus adatok gyűjtésére.

Hogyan jönnek létre a vektoros beágyazások?

A vektorbeágyazásokat ML-megközelítéssel állítják elő, amely úgy tanítja meg a modellt, hogy az adatokat numerikus vektorokká alakítsa. Jellemzően egy mély konvolúciós neurális hálózat az ilyen típusú modellek betanítására szolgál. A kapott beágyazások gyakran sűrűek – minden érték nem nulla – és nagy dimenziójúak – akár 2,000 méretig. Népszerű modellek, mint a Word2Vec, GLoVE és BERTI szavakat, kifejezéseket vagy bekezdéseket vektoros beágyazásokká alakíthatja szöveges adatokhoz.

A következő lépések általában részt vesznek a folyamatban:

  1. Állítson össze egy nagy adathalmazt. Egy olyan adatkészletet állítanak össze, amely rögzíti azt a konkrét adatkategóriát, amelyhez a beágyazást szánják – legyen szó szövegről vagy képekről.
  2. Az adatok előfeldolgozása. Az adatok típusától függően a tisztítás, előkészítés ill az adatok előfeldolgozása magában foglalja a zaj megszüntetését, a fényképek átméretezését, a szöveg normalizálását és további műveletek végrehajtását.
  3. Tanítsd meg a modellt. Az adatok hivatkozásainak és mintáinak azonosításához a modellt az adatkészlet segítségével betanítják. A cél és az előre jelzett vektorok közötti eltérés csökkentése érdekében az előképzett modell paramétereit a betanítási szakaszban megváltoztatjuk.
  4. Vektoros beágyazások létrehozása. A betanítást követően a modell képes a friss adatokat numerikus vektorokká alakítani, így értelmes és strukturált reprezentációt mutat be, amely hatékonyan magába foglalja az eredeti adatok szemantikai információit.

Vektoros beágyazások sokféle adattípushoz készíthetők, ideértve az idősoros adatokat, szöveget, képeket, hangot, háromdimenziós (3D) modellek és videó. A beágyazások kialakításának módja miatt a hasonló szemantikával rendelkező objektumok egymáshoz közeli vektorai lesznek a vektortérben.

Hol tárolják a vektoros beágyazásokat?

A vektorbeágyazásokat speciális adatbázisokban tárolják vektoros adatbázisok. Ezek az adatbázisok az adatjellemzők nagydimenziós matematikai reprezentációi. A szabványos skalár-alapú adatbázisokkal vagy független vektorindexekkel ellentétben a vektoradatbázisok speciális hatékonyságot biztosítanak a vektorbeágyazások méretarányos tárolására és visszakeresésére. Lehetővé teszik a nagy mennyiségű adat hatékony tárolását és visszakeresését a vektoros keresési funkciókhoz.

A vektor adatbázisok számos kulcsfontosságú összetevőt tartalmaznak, beleértve a teljesítményt és a hibatűrés. A vektoradatbázisok hibatűrése érdekében a replikációs és szilánkos technikákat alkalmaznak. A replikáció az a folyamat, amikor több csomóponton keresztül másolatokat készítenek az adatokról, míg a felosztás az adatok több csomóponton történő particionálásának folyamata. Ez hibatűrést és megszakítás nélküli teljesítményt biztosít még akkor is, ha egy csomópont meghibásodik.

A vektoros adatbázisok hatékonyak a gépi tanulásban és a mesterséges intelligenciában (AI) alkalmazások, mivel azok kezelésére szakosodtak strukturálatlan és félig strukturált adatok.

Vektoros beágyazások alkalmazásai

A vektorbeágyazásnak számos felhasználási módja van a különböző iparágakban. A vektorbeágyazások gyakori alkalmazásai a következők:

  • Ajánlórendszerek. A vektorbeágyazások döntő szerepet játszanak az iparági óriások, köztük a Netflix és az Amazon ajánlási rendszereiben. Ezek a beágyazások lehetővé teszik a szervezetek számára, hogy kiszámítsák a felhasználók és az elemek közötti hasonlóságokat, a felhasználói preferenciákat és az elemek jellemzőit vektorokká alakítva. Ez a folyamat segít a személyre szabott, az egyéni felhasználói ízléshez szabott javaslatok kézbesítésében.
  • Kereső motorok. Keresők széles körben használja a vektoros beágyazást az információ-visszakeresés hatékonyságának és hatékonyságának javítása érdekében. Mivel a vektoros beágyazás túlmutat a kulcsszóegyeztetésen, segítenek a keresőmotoroknak értelmezni a szavak és mondatok jelentését. Még akkor is, ha a pontos kifejezések nem egyeznek, a keresőmotorok továbbra is megtalálhatják és lekérhetik a szövegkörnyezet szempontjából releváns dokumentumokat vagy egyéb információkat, ha a szavakat szemantikai térben vektorokként modellezik.
  • Chatbotok és kérdés-megválaszoló rendszerek. Vektoros beágyazási segítség chatbotok és generatív AI-alapú kérdés-megválaszoló rendszerek az emberszerű válaszok megértésében és előállításában. A szöveg kontextusának és jelentésének rögzítésével a beágyazások segítenek a chatbotoknak értelmes és logikus módon válaszolni a felhasználói kérdésekre. Például nyelvi modellek és AI chatbotok, beleértve GPT-4 és képfeldolgozók, mint pl Dall-E2, óriási népszerűségre tettek szert az emberszerű beszélgetések és válaszok készítésével.
  • Csalásfelderítés és kiugró értékek felderítése. A vektorbeágyazások felhasználhatók anomáliák vagy csalárd tevékenységek kimutatására a vektorok közötti hasonlóság felmérésével. A nem gyakori mintákat a beágyazások és a pontos meghatározás közötti távolság kiértékelésével lehet azonosítani kiugró értékek.
  • Adatok előfeldolgozása. Átváltoztatni feldolgozatlan adatokat az ML-nek megfelelő formátumba és mély tanulási modelleket, beágyazásokat használnak az adat-előfeldolgozási tevékenységekben. A szóbeágyazást például arra használják, hogy a szavakat vektorként ábrázolják, ami megkönnyíti a szöveges adatok feldolgozását és elemzését.
  • Egyszeri és nulla ütéses tanulás. Az egyszeri és nulla-shot tanulás vektorbeágyazó megközelítések, amelyek segítenek a gépi tanulási modelleknek megjósolni az új osztályok eredményeit, még akkor is, ha korlátozott címkézett adatokkal rendelkeznek. A modellek még kis számú betanítási példány esetén is képesek általánosítani és előrejelzéseket generálni a beágyazásokban található szemantikai információk felhasználásával.
  • Szemantikai hasonlóság és klaszterezés. A vektorbeágyazások megkönnyítik annak felmérését, hogy mennyire hasonlít két objektum egy nagy dimenziós környezetben. Ez lehetővé teszi olyan műveletek elvégzését, mint a szemantikai hasonlóság kiszámítása, a kapcsolódó dolgok klaszterezése és összeállítása a beágyazásuk alapján.
Image showing vector embedding in chatbots.
A beágyazás lehetővé teszi, hogy a chatbotok értelmes és logikus módon válaszoljanak a felhasználói kérdésekre.

Milyen típusú dolgokat lehet beágyazni?

Számos különböző típusú objektum és adattípus ábrázolható vektoros beágyazásokkal. A beágyazható dolgok gyakori típusai a következők:

szöveg

A szavak, kifejezések vagy dokumentumok vektorokként jelennek meg szövegbeágyazással. Az NLP feladatok – beleértve a hangulatelemzést, a szemantikus keresést és a nyelvi fordítást – gyakran használnak beágyazást.

Az Universal Sentence Encoder az egyik legnépszerűbb nyílt forráskódú beágyazási modell, amely hatékonyan képes egyedi mondatokat és teljes szövegrészeket kódolni.

képek

A képbeágyazások vektorként rögzítik és ábrázolják a képek vizuális jellemzőit. Felhasználási eseteik közé tartozik az objektumok azonosítása, a képosztályozás és a fordított képkeresés, amelyet gyakran ún keresés kép alapján.

A képbeágyazások a vizuális keresési lehetőségek engedélyezésére is használhatók. Az adatbázisképekből a beágyazások kinyerésével a felhasználó összehasonlíthatja a lekérdezés képeinek beágyazásait az adatbázis-fotók beágyazásaival, hogy vizuálisan hasonló egyezéseket találjon. Ezt általában használják e-commerce alkalmazások, ahol a felhasználók hasonló termékekről készült fényképek feltöltésével kereshetnek elemeket.

A Google Lens egy képkereső alkalmazás, amely összehasonlítja a fényképezőgép fényképeit vizuálisan hasonló termékekkel. Használható például olyan internetes termékek párosítására, amelyek egy tornacipőre vagy egy ruhadarabra hasonlítanak.

Audio

Az audiobeágyazások az audiojelek vektoros reprezentációi. A vektorbeágyazások rögzítik a hallási tulajdonságokat, lehetővé téve a rendszerek számára az audioadatok hatékonyabb értelmezését. A hangbeágyazások például használhatók zenei ajánlásokhoz, műfaji besorolásokhoz, hanghasonlóságok kereséséhez, beszédfelismeréshez és a hangszórók ellenőrzéséhez.

Míg az AI-t különféle típusú beágyazásokhoz használják, az audio AI kevesebb figyelmet kapott, mint a szöveges vagy képi AI. Google Speech-to-Text és OpenAI A Whisper olyan hangbeágyazó alkalmazások, amelyeket olyan szervezetekben használnak, mint a call centerek, az orvosi technológia, a kisegítő lehetőségek és a beszéd-szöveg alkalmazások.

grafikonok

A gráfbeágyazások vektorokat használnak a gráf csomópontjainak és éleinek ábrázolására. Ők gráfelemzéssel kapcsolatos feladatokban használják mint például a linkelőrejelzés, a közösségi felismerési és ajánlási rendszerek.

Minden csomópont egy entitást képvisel, például egy személyt, egy weboldalt vagy egy terméket, és minden él szimbolizálja az entitások közötti kapcsolatot vagy kapcsolatot. Ezekkel a vektoros beágyazásokkal az ismerősök ajánlásától kezdve mindent el lehet érni szociális hálózatok a kiberbiztonsági problémák észlelésére.

Idősoros adatok és 3D modellek

Az idősor-beágyazások időbeli mintázatokat rögzítenek szekvenciális adatokban. Használják őket internet a dolgok alkalmazások, pénzügyi adatok és érzékelőadatok tevékenységekhez, beleértve az anomáliák észlelését, idősoros előrejelzés és minta azonosítás.

A 3D objektumok geometriai vonatkozásai vektorokként is kifejezhetők 3D modellbeágyazással. Alkalmazzák olyan feladatokban, mint a 3D-s rekonstrukció, az objektumészlelés és az űrlapillesztés.

molekulák

A molekulabeágyazások vektorként kémiai vegyületeket képviselnek. A gyógyszerkutatásban, a kémiai hasonlóságok keresésében és a molekuláris tulajdonságok előrejelzésében használják őket. Ezeket a beágyazásokat a számítógépes kémiában és a gyógyszerfejlesztésben is használják a molekulák szerkezeti és kémiai jellemzőinek rögzítésére.

Image showing vector embeddings of objects.
A strukturált számkészleteket objektumok vektoros beágyazásaként használják.

Mi az a Word2Vec?

A Word2Vec egy népszerű NLP szóvektor-beágyazási megközelítés. A Google által létrehozott Word2Vec úgy lett kialakítva, hogy a szavakat sűrű vektorokként jelenítse meg egy folytonos vektortérben. Fel tudja ismerni egy szó szövegkörnyezetét egy dokumentumban, és gyakran használják olyan NLP-feladatoknál, mint a szöveg kategorizálása, hangulatelemzés és gépi fordítás hogy a gépek hatékonyabban megértsék és feldolgozzák a természetes nyelvet.

A Word2Vec azon az elven alapul, hogy a hasonló jelentésű szavaknak hasonló vektoros reprezentációkkal kell rendelkezniük, lehetővé téve a modell számára a szavak közötti szemantikai kapcsolatok rögzítését.

A Word2Vec két alapvető architektúrával rendelkezik, CBOW (Continuous Bag of Words) és Skip-Gram:

  • CBOW. Ez az architektúra megjósolja a célszót a kontextusszavak alapján. A modell kontextust vagy környező szavakat kap, és feladata, hogy megjósolja a középpontban lévő célszót. Például a „A gyors barna róka átugrik a lusta kutyán” mondatban a CBOW a kontextust vagy a környező szavakat használja az előrejelzéshez. róka mint a célszó.
  • Skip-Gram. A CBOW-val ellentétben a Skip-Gram architektúra a célszó alapján jósolja meg a kontextusszavakat. A modell kap egy célszót, és meg kell jósolnia a környező kontextus kifejezéseket. A fenti „A gyors barna róka átugrik a lusta kutyán” példamondatát véve a skip-gram a célszót veszi róka és fedezze fel a szövegkörnyezeti szavakat, például „A”, „gyors”, „barna”, „ugrik”, „át”, „a”, „lusta” és „kutya”.

Vállalkozások széles köre kezdi felkarolni a generatív AI-t, bemutatva annak bomlasztó potenciálját. Megvizsgálni hogyan fejlődik a generatív AI, milyen irányba halad a jövőben, és milyen kihívások merülhetnek fel.

Időbélyeg:

Még több IoT napirend