ChatGPT in drugi modeli umetne inteligence ne morejo analizirati SEC Filing, ugotavljajo raziskovalci umetne inteligence Patronus - TechStartups

ChatGPT in drugi modeli AI ne morejo analizirati SEC Filing, ugotavljajo raziskovalci AI Patronus – TechStartups

Izvorno vozlišče: 3027358

V preteklem letu, ChatGPT in drugi veliki jezikovni modeli (LLM), vključno z Google Bard in Anthropic, so pridobili široko pozornost zaradi svojih impresivnih sposobnosti, ki segajo od kodiranja, poezije in pisanja pesmi do celo snovanja celotnih filmskih zapletov. Pokazali so celo spretnost pri različnih nalogah, vključno z opravljanjem pravniških izpitov, Wharton MBA izpiti in zdravstveni pregledi.

Vendar pa med tem napredkom ostajajo izzivi. Nedavno poročilo iz zagona Patronus AI delil nekaj vpogledov v težave, s katerimi se soočajo veliki jezikovni modeli, vključno z GPT-4-Turbo OpenAI, za učinkovito analizo vlog Komisije za vrednostne papirje in borzo (SEC). Glede na ugotovitve Patronus AI ti modeli pogosto ne dajejo natančnih odgovorov na vprašanja, ki izhajajo iz prijav SEC.

V intervjuju za CNBC so ustanovitelji Patronusa dodali, da je celo najučinkovitejša preizkušena konfiguracija modela umetne inteligence, OpenAI GPT-4-Turbo, z zmožnostjo branja skoraj celotne datoteke poleg vprašanja, dosegla le 79-odstotno stopnjo natančnosti pri novem umetni inteligenci Patronusa. test, CNBC poročali.

Raziskovalci so povedali, da se pogosto jezikovni modeli bodisi zavrnejo, da bi se odzvali ali ustvarijo informacije, ki niso bile prisotne v vlogah SEC, kar je pojav, ki se pogosto opisuje kot "halucinacija". Soustanovitelj Patronusa AI Anand Kannappan je izrazil nezadovoljstvo z uspešnostjo in izjavil:

»Takšna stopnja uspešnosti je popolnoma nesprejemljiva. Biti mora veliko višji, da resnično deluje avtomatizirano in pripravljeno za proizvodnjo.«

Poročilo poudarja težave, s katerimi se soočajo modeli umetne inteligence, zlasti v reguliranih panogah, kot je finance, saj si glavna podjetja prizadevajo za integracijo vrhunske tehnologije v svoje poslovanje za storitve za stranke ali raziskovalne namene.

Ugotovitve poudarjajo ovire, s katerimi se soočajo modeli umetne inteligence, ko so integrirani v izdelke iz resničnega sveta, zlasti v panogah, kot je finance. Hitro pridobivanje ključnih številk in analiziranje finančnih pripovedi velja za obetavno aplikacijo za klepetalne robote, ki lahko zagotovi konkurenčno prednost v finančnem sektorju.

To odkritje se ujema tudi z drugim študija, ki je odkrila znatno zmanjšanje sposobnosti ChatGPT za reševanje osnovnih matematičnih problemov. V nekaj mesecih je njegova natančnost padla z 98 % na zgolj 2 %.

Čeprav je potencial generativne umetne inteligence v bančnem sektorju precejšen, izzivi ostajajo. Vključevanje LLM v izdelke povzroča težave, glede na njihovo nedeterministično naravo, ki zahteva strogo testiranje, da se zagotovijo dosledni, tematski in zanesljivi rezultati.

Patronus AI, ki so ga ustanovili nekdanji zaposleni v Meti, se želi spopasti s tem izzivom z avtomatizacijo LLM testiranja s programsko opremo. Ustvarili so FinanceBench, nabor podatkov z več kot 10,000 vprašanji in odgovori, vzetimi iz dokumentov SEC, ki vzpostavljajo "minimalni standard uspešnosti" za jezikovno umetno inteligenco v finančnem sektorju.

Soustanovitelja Patronusa AI Anand Kannappan in Rebecca Qian (Zasluge: Patronus AI)

Soustanovitelji so poudarili pomen robustnejših postopkov testiranja, ki presegajo ročne ocene. Prek FinanceBench želi Patronus AI podjetjem zagotoviti zagotovilo, da njihovi roboti AI ne bodo dajali presenetljivih ali netočnih odgovorov, kar na koncu poveča zanesljivost jezikovnih modelov v praktičnih aplikacijah.

Testna vprašanja

"Vsekakor menimo, da so rezultati lahko precej obetavni," je dejal Kannappan. Dodal je tudi: »Modeli bodo sčasoma še boljši. Zelo upamo, da bo dolgoročno veliko tega mogoče avtomatizirati. Toda danes boste zagotovo morali imeti v zanki vsaj človeka, ki vam bo pomagal podpirati in voditi kakršen koli potek dela, ki ga imate.«


Časovni žig:

Več od TechStartupi