Veliki jezikovni modeli v podjetju: čas je, da poiščemo srednjo pot - DATAVERSITY

Veliki jezikovni modeli v podjetju: čas je, da poiščemo srednjo pot – DATAVERSITY

Izvorno vozlišče: 2738155

ChatGPT, pogovorni chatbot, ki ga je novembra izdal OpenAI, je v samo dveh mesecih zbral 100 milijonov uporabnikov, s čimer je najhitreje rastoča potrošniška aplikacija v zgodovini interneta. Toda tehnologija, ki podpira ChatGPT, je pomembna in privlačna tudi za podjetja. Kot morda že veste, GPT pomeni generativni vnaprej usposobljeni transformator, ki je tehnologija, na kateri temelji ustvarjanje velikega jezikovnega modela (LLM). Ker se veliki jezikovni modeli usposabljajo na ogromnih količinah podatkov, lahko izvajajo različne naloge obdelave naravnega jezika (NLP).

Pomp okoli velikih jezikovnih modelov odmeva zgodnji pomp okoli umetne inteligence (AI), saj mnogi ljudje govorijo o tem, kaj je mogoče s tehnologijo, vendar manj ljudi javno razpravlja o maticah in vijakih njene uporabe v praksi, zlasti v kontekstu podjetij. Veliko raziskav in praktičnih poskusov, da bi ta tehnologija delovala v podjetjih, poteka v zakulisju in mnogi od tistih, ki delajo na njej, bi se strinjali, da se je izkazalo, da je veliko težje, kot bi si morda mislili glede na izjemen uspeh in priljubljenost ChatGPT med navadnimi (netehničnimi ali neposredno vključenimi v AI ali IT) ljudmi.

Dve šoli umetne inteligence

Pomembna stvar, ki jo je treba razumeti o umetni inteligenci na splošno, je, da obstajata dve široki šoli mišljenja ali pristopa v zvezi z gradnjo in izvajanjem sistemov umetne inteligence.

Na eni strani imamo tradicionalno umetno inteligenco, kjer raziskovalci poskušajo zgraditi nekaj od opeke do opeke, pri čemer uporabljajo sofisticirane algoritme, ki temeljijo na pravilih, formalne metode, logiko in sklepanje. Ti raziskovalci so zelo strogi pri razumevanju in reproduciranju osnovnih načel, kako ljudje razmišljajo in obdelujejo informacije. Na primer, potegnejo jasno črto med semantiko (pomen) in sintakso (izraz, površinska oblika) jezika in verjamejo, da čisto verjetnostno modeliranje jezika ne predstavlja osnovne semantike, zato nikakor ne more povzročiti resnično "inteligentne" rešitve. Velika težava tega pristopa je, da ima za posledico aplikacije umetne inteligence, ki so zelo zapletene, jih je težko vzdrževati in jih je težko prilagoditi, zato so se sčasoma raziskave preusmerile na podatkovno usmerjene strojno učenje paradigmo, kjer pustimo, da se model uči iz podatkov, namesto da bi ročno implementirali pravila.

Na drugi strani imamo skupnost poglobljenega učenja, ki je z nevihto prevzela področje AI. V bistvu, namesto da bi zgradili inteligenten sistem od opeke do opeke od začetka, vanj vržemo ogromno podatkov in od njega zahtevamo, da se uči iz teh podatkov z uporabo metode GPT, vendar ne vemo točno, kaj se na koncu konča učenje, ki presega verjetnost besed, ki si sledijo ena za drugo, in kako dobro »razumejo« temeljne koncepte. Navsezadnje poskušamo preveriti te modele glede njihovega znanja, da bi jih bolje razumeli in jih natančno prilagodili na bolj nadzorovanih naborih podatkov, ki njihove porazdelitve premikajo proti želenemu rezultatu. Ker ne poznamo in ne razumemo natančno globine znanja o teh modelih in ne vemo, kako jih nadzorovati ali zanesljivo popraviti, je težko zagotoviti kakovost rezultatov, ki jih dajejo, zato je težko za izdelavo zanesljivih aplikacij na teh modelih. Ti modeli so res zelo dobri pri posnemanju smiselnih odgovorov na sintaktični ravni, vendar so na semantični ravni precej kockasti. Ne glede na to, kako si želimo imeti rešitev od konca do konca, kjer trenirate en model in vse deluje čarobno, na koncu naredimo precej zapleteno inženirsko rešitev, kjer poskušamo ročno izdelana pravila vtkati v strojno učenje aplikacij, ki temeljijo na študiju, ali združiti LLM z manjšimi bolj determinističnimi modeli, ki pomagajo ublažiti nebrzdano naravo LLM-jev. To vključuje veliko procesov s človekom v zanki, kjer človek ročno popravi rezultate ali izbere najboljši odziv s seznama možnosti, ki jih je ustvaril LLM. 

Dolgo časa je bila "end-to-end" linija raziskav z malo rezultata, zlasti na pogovornem področju AI, na katerem delam že več kot 15 let. Težko je bilo oceniti modele generativnih dialogov in videti napredek, zato smo se zatekli k bolj tradicionalnim metodam gradnikov, kjer je vsak model strojnega učenja odgovoren za zelo specifično nalogo in jo lahko razmeroma dobro opravi. Z znatnim napredkom v strojni opremi, ki je potrebna za usposabljanje modelov umetne inteligence, in odkritjem tehnologije GPT se je več ljudi odvrnilo od pristopa gradnikov k šoli mišljenja »od konca do konca« in zdaj smo priča osupljivemu napredku brez primere. pri teh rešitvah »end-to-end« pa je še dolga pot, preden bomo lahko dobili zanesljive rezultate iz te tehnologije kot take. 

Iskanje srednje poti

Čeprav je paradigma od konca do konca privlačna iz več razlogov, obstaja veliko primerov, ko je sprejetje v celotnem podjetju preprosto prehitro. Ker so veliki modeli lahko črne skrinjice, je proces prilagajanja arhitekture modela lahko izjemno težaven. Da bi pridobili nadzor nad velikimi jezikovnimi modeli, so ljudje pogosto prisiljeni uporabiti tradicionalne metode, kot je vstavljanje nekaterih lahkih algoritmov, ki temeljijo na pravilih. Medtem ko je nihalo zanihalo od manjših modelov k enemu velikemu modelu, je najučinkovitejši pristop verjetno nekje vmes. 

Ta trend je očiten glede do generativne umetne inteligence, na primer. Sam Altman, izvršni direktor OpenAI, je dejal, da modeli naslednje generacije ne bodo večji. Namesto tega bodo dejansko manjši in bolj ciljno usmerjeni. Medtem ko so veliki jezikovni modeli najboljši pri ustvarjanju naravnega ali tekočega besedila, je bolje, da vse, kar je dejansko, izvira iz različnih podsistemov. V nadaljevanju bodo odgovornosti teh podsistemov verjetno preusmerjene nazaj na model velikega jezika. Toda v tem času smo priča rahlemu povratku k bolj tradicionalnim metodam. 

Prihodnost velikih jezikovnih modelov v podjetju

Preden preskočijo na paradigmo od konca do konca, je priporočljivo, da podjetja ocenijo lastno pripravljenost za uporabo te tehnologije, saj ima vsaka nova aplikacija krivuljo učenja in nepredvidene težave. Čeprav ChatGPT velja za vrhunec te tehnologije, je treba opraviti še veliko dela, da bo učinkovit v poslovnem kontekstu. 

Medtem ko si podjetja želijo uvesti študije LLM, ostaja veliko vprašanj. Večina podjetij je še vedno na stopnji, ko preprosto ugotavljajo, kaj želijo od tega. Pogosta vprašanja vključujejo:

  • Kako lahko izkoristim LLM?
  • Ali moram zaposliti nove ljudi?
  • Ali moram sodelovati s tretjim ponudnikom? 
  • Kaj LLM-ji dejansko lahko storijo?

Ta vprašanja je treba skrbno pretehtati, preden se poglobite vanje. Kakor stvari trenutno stojijo, veliki jezikovni modeli ne morejo takoj rešiti vseh težav, ki so jih ljudje pričakovali. Toda verjetno jim bo to uspelo v naslednjih petih ali več letih. Medtem pa uvajanje aplikacij, pripravljenih za proizvodnjo, zahteva iskanje srednje poti med tradicionalnim pristopom gradnikov in pristopom od konca do konca. 

Časovni žig:

Več od PODATKOVNOST