Ettevõtete teadmiste graafikute roll LLM-ides

Taasavaldanud Platon

järgijaid: 0

Sissejuhatus

Suured keelemudelid (LLM-id) ja Generatiivne AI kujutavad endast muutlikku läbimurret tehisintellektis ja loomuliku keele töötlemises. Nad saavad aru ja genereerida inimkeelt ning toota sisu, nagu tekst, kujutised, heli ja sünteetilised andmed, muutes need erinevates rakendustes väga mitmekülgseks. Generatiivsel tehisintellektil on reaalsetes rakendustes tohutu tähtsus, kuna see automatiseerib ja täiustab sisu loomist, isikupärastab kasutajakogemusi, ühtlustab töövooge ja soodustab loovust. Selles lugemises keskendume sellele, kuidas ettevõtted saavad integreeruda avatud LLM-idega, maandades viipasid tõhusalt ettevõtte teadmiste graafikute abil.

õppe eesmärgid

Omandage teadmisi maanduse ja kiire ehitamise kohta, suheldes samal ajal LLM-ide/Gen-AI süsteemidega.
Maanduse olulisuse mõistmine ettevõtte jaoks, avatud Gen-AI süsteemidega integreerimisest tulenev äriväärtus.
Kahe peamise maandusega konkureeriva lahenduse teadmiste graafiku ja vektorite analüüsimine erinevatel rindel ning arusaamine, mis millal sobib.
Isikupärastatud soovitusliku kliendi stsenaariumi jaoks uurige ettevõtte disaini näidist maandamiseks ja kiireks ehitamiseks, teadmiste graafikute ärakasutamiseks, andmete modelleerimise õppimiseks ja graafikute modelleerimiseks JAVA-s.

See artikkel avaldati osana Andmeteaduse ajaveebi.

Sisukord

Mis on suured keelemudelid?

Suur keelemudel on täiustatud tehisintellekti mudel, mis on koolitatud kasutades süvaõppetehnikaid tohutul hulgal teksti|struktureerimata andmetel. Need mudelid on võimelised suhtlema inimkeelega, genereerima inimesesarnast teksti, pilte ja heli ning esitama erinevaid loomuliku keele töötlemine ülesanded.

Seevastu keelemudeli definitsioon viitab sõnade jadadele tõenäosuste määramisele tekstikorpuste analüüsi põhjal. Keelemudel võib varieeruda lihtsatest n-grammi mudelitest keerukamate närvivõrgu mudeliteni. Mõiste “suur keelemudel” viitab aga tavaliselt mudelitele, mis kasutavad süvaõppe tehnikaid ja millel on suur hulk parameetreid, mis võivad ulatuda miljonitest miljarditeni. Need mudelid suudavad tabada keerulisi keelemustreid ja luua teksti, mida sageli ei eristu inimeste kirjutatud tekstist.

Mis on viip?

Viip mis tahes LLM-ile või sarnasele vestlusroboti AI-süsteemile on tekstipõhine sisend või sõnum, mille esitate tehisintellektiga vestluse või suhtluse alustamiseks. LLM-id on mitmekülgsed, koolitatud mitmesuguste suurandmetega ja neid saab kasutada erinevate ülesannete jaoks; seega mõjutavad teie viipe kontekst, ulatus, kvaliteet ja selgus oluliselt LLM-süsteemidelt saadavaid vastuseid.

Mis on maandus/RAG?

Maandus, AKA Retrieval-Augmented Generation (RAG), viitab loomuliku keele LLM-i töötlemise kontekstis viipa rikastamisele konteksti, täiendavate metaandmete ja ulatusega, mida pakume LLM-idele, et täiustada ja hankida rohkem kohandatud ja täpsemaid vastuseid. See ühendus aitab AI-süsteemidel andmeid mõista ja tõlgendada viisil, mis ühtib nõutava ulatuse ja kontekstiga. LLM-ide uuringud näitavad, et nende vastuse kvaliteet sõltub viipe kvaliteedist.

See on tehisintellekti põhikontseptsioon, kuna see ühendab lõhe toorandmete ja tehisintellekti võime vahel neid andmeid töödelda ja tõlgendada viisil, mis on kooskõlas inimeste arusaamade ja ulatuse kontekstiga. See suurendab tehisintellektisüsteemide kvaliteeti ja töökindlust ning nende võimet edastada täpset ja kasulikku teavet või vastuseid.

Millised on LLM-ide puudused?

Suured keelemudelid (LLM), nagu GPT-3, on pälvinud märkimisväärset tähelepanu ja kasutust erinevates rakendustes, kuid neil on ka mitmeid miinuseid või puudusi. Mõned LLM-ide peamised miinused on järgmised:

1. Eelarvamus ja õiglus: LLM-id pärivad sageli koolitusandmetest eelarvamusi. Selle tulemuseks võib olla kallutatud või diskrimineeriva sisu loomine, mis võib tugevdada kahjulikke stereotüüpe ja põlistada olemasolevaid eelarvamusi.

2. hallutsinatsioonid: LLM-id ei mõista tegelikult nende loodud sisu; nad genereerivad teksti treeningandmete mustrite põhjal. See tähendab, et nad võivad esitada faktiliselt ebaõiget või mõttetut teavet, mistõttu nad ei sobi selliste kriitiliste rakenduste jaoks nagu meditsiiniline diagnoos või juriidiline nõustamine.

3. Arvutusressursid: LLM-ide koolitamine ja käitamine nõuavad tohutuid arvutusressursse, sealhulgas spetsiaalset riistvara, nagu GPU-d ja TPU-d. See muudab nende arendamise ja hooldamise kulukaks.

4. Andmete privaatsus ja turvalisus: LLM-id võivad luua veenvat võltsitud sisu, sealhulgas teksti, pilte ja heli. See ohustab andmete privaatsust ja turvalisust, kuna neid saab ära kasutada petturliku sisu loomiseks või isikutena esinemiseks.

5. Eetilised mured: LLM-ide kasutamine erinevates rakendustes, nagu sügavvõltsingud või automaatne sisu loomine, tõstatab eetilisi küsimusi nende väärkasutamise ja ühiskonnale avaldatava mõju kohta.

6. Regulatiivsed väljakutsed: LLM-tehnoloogia kiire areng on ületanud regulatiivseid raamistikke, mistõttu on LLM-idega seotud võimalike riskide ja väljakutsetega tegelemiseks asjakohaste juhiste ja määruste kehtestamine keeruline.

Oluline on märkida, et paljud neist puudustest ei ole LLM-idele omased, vaid pigem peegeldavad seda, kuidas neid arendatakse, juurutatakse ja kasutatakse. Jätkuvalt tehakse jõupingutusi nende puuduste leevendamiseks ja elukestva õppega tegelevate ettevõtete vastutustundlikumaks ja ühiskonnale kasulikumaks muutmiseks. Siin saab maandamist ja maskeerimist kasutada ning see on ettevõtetele tohutult kasulik.

Maanduse asjakohasus ettevõttele

Ettevõtetel on edu, et kaasata suuri keelemudeleid (LLM) oma missioonikriitilistesse rakendustesse. Nad mõistavad potentsiaalset väärtust, millest LLM-id erinevates valdkondades kasu võivad saada. LLM-ide loomine, eelkoolitus ja nende peenhäälestus on nende jaoks üsna kulukas ja tülikas. Pigem võiksid nad kasutada tööstuses saadaolevaid avatud tehisintellekti süsteeme, maandada ja varjata ettevõtte kasutusjuhtudel olevaid viipasid.

Seetõttu on maandamine ettevõtete jaoks juhtiv kaalutlus ning on neile asjakohasem ja abistavam nii vastuste kvaliteedi parandamisel kui ka hallutsinatsioonide, andmeturbe ja vastavuse murest ülesaamisel, kuna see võib hämmastava äriväärtuse välja tuua. LLM-id on turul saadaval paljude kasutusjuhtude jaoks, mille automatiseerimine on neil tänapäeval keeruline.

Kasu ettevõtetele

LLM-idega maandamise juurutamine pakub ettevõtetele mitmeid eeliseid:

1. Suurenenud usaldusväärsus: Tagades, et LLM-ide loodud teave ja sisu põhinevad kontrollitud andmeallikatel, saavad ettevõtted suurendada oma suhtluse, aruannete ja sisu usaldusväärsust. See võib aidata luua klientide, klientide ja sidusrühmade usaldust.

2. Täiustatud otsuste tegemine: Ettevõtterakendustes, eriti nendes, mis on seotud andmeanalüüsi ja otsustustoega, võib andmete maandamisega LLM-ide kasutamine anda usaldusväärsema ülevaate. See võib kaasa tuua teadlikuma otsuste tegemise, mis on strateegilise planeerimise ja ettevõtte kasvu jaoks ülioluline.

3. Regulatiivne vastavus: Paljudele tööstusharudele kehtivad regulatiivsed nõuded andmete täpsuse ja vastavuse osas. Andmete maandamine LLM-idega võib aidata neid vastavusstandardeid täita, vähendades juriidiliste või regulatiivsete probleemide ohtu.

4. Kvaliteetse sisu loomine: LLM-e kasutatakse sageli sisu loomisel, näiteks turunduses, klienditoes ja tootekirjeldustes. Andmete põhjendamine tagab genereeritud sisu faktitäpsuse, vähendades vale või eksitava teabe või hallutsinatsioonide levitamise ohtu.

5. Väärinformatsiooni vähendamine: Võltsitud uudiste ja valeinformatsiooni ajastul võib andmete põhjendamine aidata ettevõtetel võidelda valeteabe levikuga, tagades, et nende loodud või jagatav sisu põhineb kinnitatud andmeallikatel.

6. Kliendirahulolu: Klientidele täpse ja usaldusväärse teabe pakkumine võib suurendada nende rahulolu ja usaldust ettevõtte toodete või teenuste vastu.

7. Riski maandamine: Andmete põhjendamine võib aidata vähendada riski teha otsuseid ebatäpse või mittetäieliku teabe põhjal, mis võib põhjustada rahalist või mainekahjustust.

Näide: Kliendi tootesoovituse stsenaarium

Vaatame, kuidas andmete maandamine võiks aidata ettevõtte kasutusjuhtudel, kasutades openAI chatGPT-d

Põhilised juhised

Generate a short email adding coupons on recommended products to customer

ChatGPT genereeritud vastus on väga üldine, kontekstualiseerimata ja töötlemata. Seda tuleb käsitsi värskendada/kaardistada õigete ettevõtte kliendiandmetega, mis on kallis. Vaatame, kuidas seda andmete maandamise tehnikate abil automatiseerida.

Oletame, et ettevõttel on juba ettevõtte kliendiandmed ja intelligentne soovitussüsteem, mis suudab klientidele kuponge ja soovitusi genereerida; saaksime ülaltoodud viipa väga hästi maandada, rikastades seda õigete metaandmetega, nii et chatGPT-st genereeritud meilitekst oleks täpselt selline, nagu me tahame, ja seda saaks väga hästi automatiseerida kliendile meili saatmiseks ilma käsitsi sekkumiseta.

Oletame, et meie maandusmootor hangib kliendiandmetest õiged rikastamise metaandmed ja värskendab allolevat viipa. Vaatame, milline oleks ChatGPT vastus maandatud viipale.

Maandatud viip

Generate a short email adding below coupons and products to customer Taylor and wish him a Happy holiday season from Team Aatagona, Atagona.com
Winter Jacket Mens - [https://atagona.com/men/winter/jackets/123.html] - 20% off
Rodeo Beanie Men’s - [https://atagona.com/men/winter/beanies/1234.html] - 15% off

Maapealse viipaga genereeritud vastus on täpselt see, kuidas ettevõte soovib, et klienti teavitataks. Gen AI e-posti vastusesse rikastatud kliendiandmete manustamine on automatiseerimine, mis oleks ettevõtete laiendamiseks ja toetamiseks tähelepanuväärne.

Ettevõtte LLM-i maanduslahendused tarkvarasüsteemidele

Andmete maandamiseks ettevõttesüsteemides on mitu võimalust ning nende tehnikate kombinatsiooni saab kasutada tõhusaks andmete maandamiseks ja kasutusjuhtumile vastavaks kiireks genereerimiseks. Kaks peamist kandidaati on potentsiaalsete lahenduste leidmiseks suurendatud genereerimise (maanduse) rakendamiseks

Rakendusandmed|Teadmiste graafikud
Vektori manustused ja semantiline otsing

Nende lahenduste kasutamine oleneb kasutusjuhtumist ja maandusest, mida soovite rakendada. Näiteks vektormälu salvestatud vastused võivad olla ebatäpsed ja ebamäärased, samas kui teadmiste graafikud tagavad täpsed, täpsed ja salvestatud inimloetavas vormingus.

Mõned muud strateegiad, mida võiks ülaltoodule lisada, võiksid olla

Linkimine väliste API-de, otsingumootoritega
Andmete maskeerimise ja vastavuse järgimise süsteemid
Integreerimine sisemiste andmehoidlate, süsteemidega
Reaalajas andmete ühendamine mitmest allikast

Selles ajaveebis vaatleme näidistarkvara disaini selle kohta, kuidas ettevõtte rakenduste andmegraafikutega saavutada.

Ettevõtete teadmiste graafikud

Teadmiste graafik võib kujutada erinevate olemite ja nendevaheliste suhete semantilist teavet. Ettevõtlusmaailmas salvestavad nad teadmisi klientide, toodete ja muu kohta. Ettevõtte klientide graafikud oleksid võimas tööriist andmete tõhusaks maandamiseks ja rikastatud viipade genereerimiseks. Teadmiste graafikud võimaldavad graafikupõhist otsingut, võimaldades kasutajatel uurida teavet lingitud mõistete ja üksuste kaudu, mis võib viia täpsemate ja mitmekesisemate otsingutulemusteni.

Võrdlus vektorandmebaasidega

Maanduslahenduse valik oleks kasutusjuhtumipõhine. Graafikutel on aga vektorite ees mitmeid eeliseid

Kriteeriumid	Graafiku maandus	Vektori maandus
Analüütilised päringud	Andmegraafikud sobivad struktureeritud andmete ja analüütiliste päringute jaoks, pakkudes oma abstraktse graafiku paigutuse tõttu täpseid tulemusi.	Vektorandmete salved ei pruugi analüütiliste päringute puhul nii hästi toimida, kuna need töötavad enamasti struktureerimata andmetega, semantilise otsinguga vektormanustusega ja tuginevad sarnasushinnangule.
Täpsus ja usaldusväärsus	teadmiste graafikud kasutavad andmete salvestamiseks sõlmi ja seoseid, tagastades ainult olemasoleva teabe. Nad väldivad mittetäielikke või ebaolulisi tulemusi.	Vektorandmebaasid võivad anda mittetäielikke või ebaolulisi tulemusi, peamiselt seetõttu, et need sõltuvad sarnasuse hindamisest ja eelnevalt määratletud tulemuste piirangutest.
Hallutsinatsioonide korrigeerimine	Teadmiste graafikud on läbipaistvad ja andmete inimloetav esitus. Need aitavad tuvastada ja parandada valeinformatsiooni, jälgida päringu teed ja teha selles parandusi, parandades LLM-i (Large Language Model) täpsust.	Vektorandmebaase peetakse sageli mustadeks kastideks, mida ei salvestata loetavas vormingus ja mis ei pruugi hõlbustada valeinformatsiooni tuvastamist ja parandamist.
Turvalisus ja valitsemine	Teadmiste graafikud pakuvad paremat kontrolli andmete loomise, haldamise ja vastavuse üle, sealhulgas eeskirjade, nagu GDPR, üle.	Vektorandmebaasid võivad nende läbipaistmatuse tõttu piirangute kehtestamisel ja juhtimisel raskusi seada.

Kõrgetasemeline disain

Vaatame väga kõrgel tasemel, kuidas süsteem suudab otsida ettevõtet, mis kasutab maandamiseks teadmiste graafikuid ja avatud LLM-e.

Aluskiht on koht, kus ettevõtte klientide andmeid ja metaandmeid hoitakse erinevates andmebaasides, andmeladudes ja andmejärvedes. Võib olla teenus, mis koostab nendest andmetest andmete teadmiste graafikud ja salvestab need graafikus db. Hajutatud pilvepõhises maailmas võib olla palju ettevõtteteenuseid | mikroteenuseid, mis nende andmesalvedega suhtleksid. Nende teenuste kohal võivad olla erinevad rakendused, mis kasutaksid aluseks olevat infrat.

Rakendustel võib olla palju kasutusjuhtumeid AI manustamiseks oma stsenaariumidesse või intelligentsetesse automatiseeritud kliendivoogudesse, mis nõuab suhtlemist sisemiste ja väliste AI-süsteemidega. Generatiivsete tehisintellekti stsenaariumide puhul võtame lihtsa näite töövoost, kus ettevõte soovib sihtida kliente meili teel, pakkudes pühade ajal isikupärastatud soovitatud toodetele mõningaid allahindlusi. Nad saavad seda saavutada esmaklassilise automatiseerimisega, kasutades tehisintellekti tõhusamalt.

Töövoog

Töövoog, mis soovib saata meili, võib kasutada avatud Gen-AI süsteeme, saates kliendi kontekstipõhiste andmetega maandatud viipa.
Töövoorakendus saadaks oma taustateenusele päringu GenAI süsteeme võimendava meiliteksti hankimiseks.
Taustateenus suunaks teenuse kiire generaatori teenusesse, mis suunab maandusmootori juurde.
Maandusmootor haarab kõik kliendi metaandmed ühest oma teenusest ja hangib kliendiandmete teadmiste graafiku.
Maandusmootor läbib graafiku läbi sõlmede ja asjakohased seosed eraldavad vajaliku lõpliku teabe ja saadavad selle tagasi viipade generaatorisse.
Viibageneraator lisab maandatud andmed kasutusjuhtumi jaoks juba olemasoleva malliga ja saadab maandatud viipa avatud tehisintellektisüsteemidele, millega ettevõte valib integreerimiseks (nt OpenAI/Cohere).
Avatud GenAI süsteemid annavad ettevõttele palju asjakohasema ja kontekstuaalsema vastuse, mis saadetakse kliendile meili teel.

Jagame selle kaheks osaks ja mõistame üksikasjalikult:

1. Klienditeadmiste graafikute loomine

Allpool toodud kujundus sobib ülaltoodud näitega, modelleerimist saab vastavalt vajadusele teha mitmel viisil.

Andmete modelleerimine: Oletame, et meil on erinevad tabelid modelleeritud graafiku sõlmedena ja ühendame tabelite vahel sõlmedevaheliste suhetena. Ülaltoodud näite jaoks vajame

tabel, mis sisaldab kliendi andmeid,
tabel, mis sisaldab tooteandmeid,
tabel, mis sisaldab kliendihuvide (klikkide) andmeid isikupärastatud soovituste jaoks
tabel, mis sisaldab ProductDiscountsi andmeid

Ettevõte vastutab selle eest, et kõik need andmed võetakse mitmest andmeallikast ja neid värskendatakse regulaarselt, et tõhusalt klientideni jõuda.

Vaatame, kuidas saab neid tabeleid modelleerida ja kuidas neid kliendigraafikuks muuta.

kliendigraafik | Ettevõtete teadmiste graafikud

2. Graafiku modelleerimine

Ülaltoodud graafiku visualiseerijast näeme, kuidas klientide sõlmed on seotud erinevate toodetega nende klikkide seotuse andmete põhjal ja lisaks allahindluste sõlmedega. Maandusteenusel on lihtne nendest kliendigraafikutest päringuid teha, neid sõlmede kaudu suhete kaudu läbida ja vajalikku teavet vastavatele klientidele kehtivate allahindluste kohta hankida.

Graafiku näidissõlm ja JAVA POJO-de seos võivad ülaltoodud jaoks välja näha sarnased allolevaga

public class KnowledgeGraphNode implements Serializable { private final GraphNodeType graphNodeType; private final GraphNode nodeMetadata;
} public interface GraphNode {
} public class CustomerGraphNode implements GraphNode { private final String name; private final String customerId; private final String phone; private final String emailId;
}
public class ClicksGraphNode implements GraphNode { private final String customerId; private final int clicksCount;
} public class ProductGraphNode implements GraphNode { private final String productId; private final String name; private final String category; private final String description; private final int price;
} public class ProductDiscountNode implements GraphNode { private final String discountCouponId; private final int clicksCount; private final String category; private final int discountPercent; private final DateTime startDate; private final DateTime endDate;
}

public class KnowledgeGraphRelationship implements Serializable {  private final RelationshipCardinality Cardinality; } public enum RelationshipCardinality {  ONE_TO_ONE,  ONE_TO_MANY }

Selle stsenaariumi toores graafiku näidis võib välja näha järgmine

toorgraafiku näidis | Ettevõtete teadmiste graafikud

Kliendisõlmest „Taylor Williams” graafiku läbimine lahendaks meie jaoks probleemi ning tooks õiged tootesoovitused ja sobilikud allahindlused.

3. Populaarsed Graphi kauplused tööstuses

Turul on saadaval palju graafikupoode, mis sobivad ettevõtte arhitektuuriga. Neo4j, TigerGraph, Amazon Neptune ja OrientDB on laialdaselt kasutusel graafikute andmebaasidena.

Tutvustame Graph Data Lakesi uut paradigmat, mis võimaldab teha graafikupäringuid tabeliandmetele (järvede, ladude ja järvede struktureeritud andmed). See saavutatakse allpool loetletud uute lahendustega, ilma et oleks vaja andmeid hüdraatida või säilitada graafikute andmehoidlates, kasutades null-ETL-i.

PuppyGraph (Graph Data Lake)
Timbr.ai

Vastavus ja eetilised kaalutlused

Andmekaitse: ettevõtted peavad vastutama kliendiandmete säilitamise ja kasutamise eest, järgides GDPR-i ja muid isikut tõendavaid andmeid. Salvestatud andmeid tuleb enne töötlemist ja taaskasutamist ülevaate saamiseks või AI rakendamist hallata ja puhastada.

Hallutsinatsioonid ja leppimine: ettevõtted saavad lisada ka kooskõlastusteenuseid, mis tuvastavad andmetes valeinformatsiooni, jälgivad päringu teed ja teevad selles parandusi, mis võib aidata parandada LLM-i täpsust. Teadmiste graafikute abil, kuna salvestatud andmed on läbipaistvad ja inimloetavad, peaks seda olema suhteliselt lihtne saavutada.

Piiravad säilitamiseeskirjad: Andmekaitsest kinnipidamiseks ja kliendiandmete väärkasutamise vältimiseks avatud LLM-süsteemidega suhtlemisel on väga oluline, et säilitamispoliitikad oleksid null, et välised süsteemid, millega ettevõtted suhtlevad, ei säilitaks nõutud viipeandmeid edasisteks analüüsi- või ärieesmärkideks.

Järeldus

Kokkuvõtteks võib öelda, et suured keelemudelid (LLM) kujutavad endast märkimisväärset edu tehisintellekti ja loomuliku keele töötlemise vallas. Nad võivad muuta erinevaid tööstusharusid ja rakendusi, alates loomuliku keele mõistmisest ja genereerimisest kuni keerukate ülesannete abistamiseni. LLM-ide edu ja vastutustundlik kasutamine nõuab aga tugevat vundamenti ja põhjalikkust erinevates võtmevaldkondades.

Võtme tagasivõtmine

Ettevõtted saavad erinevate stsenaariumide jaoks LLM-ide kasutamisel tõhusast maandamisest ja viipadest tohutut kasu.
Teadmiste graafikud ja vektorpoed on populaarsed maanduslahendused ning nende valik sõltub lahenduse eesmärgist.
Teadmiste graafikud võivad sisaldada täpsemat ja usaldusväärsemat teavet vektorpoodide kohta, mis annab ettevõtetele eelise ilma täiendavaid turbe- ja vastavuskihte lisamata.
Muutke traditsiooniline olemite ja suhetega andmemodelleerimine sõlmede ja servadega teadmiste graafikuteks.
Integreerige ettevõtte teadmiste graafikud erinevate andmeallikatega olemasolevate suurte andmesalvestusettevõtetega.
Teadmiste graafikud sobivad ideaalselt analüütiliste päringute jaoks. Graafikuandmejärved võimaldavad esitada tabeliandmetele päringuid graafikutena ettevõtte andmete salvestamisel.

Korduma kippuvad küsimused

Q1. Mis on suur keelemudel?

A. LLM on tehisintellekti algoritm, mis kasutab uue sisu mõistmiseks, kokkuvõtmiseks, genereerimiseks ja ennustamiseks DL-tehnikaid ja tohutult suuri andmekogumeid.

Q2. Mis on rakenduse andmete graafik?

V. Rakenduse andmete graafik on andmestruktuur, mis salvestab andmeid sõlmede ja servade kujul. Modelleerige neid suhetena erinevate andmesõlmede vahel.

Q3. Mis on vektorandmebaas?

V. Vektorandmebaas salvestab ja haldab struktureerimata andmeid, nagu tekst, heli ja video. See paistab silma kiire indekseerimise ja otsimisega selliste rakenduste jaoks nagu soovitusmootorid, masinõpe ja Gen-AI.

Q4. Mis on manustused vektorpoes?

V. Vektorihoidlas on manustused objektide, sõnade või andmepunktide arvulised esitused suuremõõtmelises vektorruumis. Need manustused fikseerivad semantilisi seoseid ja sarnasusi üksuste vahel, võimaldades tõhusat andmeanalüüsi, sarnasuste otsimist ja masinõppe ülesandeid.

K5. Mis vahe on struktureeritud ja struktureerimata andmetel?

A. Struktureeritud andmed on hästi organiseeritud määratletud tabelite ja skeemidega. Struktureerimata andmeid, nagu tekst, pildid, heli või video, on vormingu puudumise tõttu raskem analüüsida.

Selles artiklis näidatud meedia ei kuulu Analytics Vidhyale ja seda kasutatakse autori äranägemisel.