ChatGPT in drugi modeli umetne inteligence ne morejo analizirati prijave SEC, ugotavljajo raziskovalci umetne inteligence Patronus - TechStartups

Ponovno objavil Platon

Spremljevalci: 0

V preteklem letu, ChatGPT in drugi veliki jezikovni modeli (LLM), vključno z Google Bard in Anthropic, so pridobili široko pozornost zaradi svojih impresivnih sposobnosti, ki segajo od kodiranja, poezije in pisanja pesmi do celo snovanja celotnih filmskih zapletov. Pokazali so celo spretnost pri različnih nalogah, vključno z opravljanjem pravniških izpitov, Wharton MBA izpiti in zdravstveni pregledi.

Vendar pa med tem napredkom ostajajo izzivi. Nedavno poročilo iz zagona Patronus AI delil nekaj vpogledov v težave, s katerimi se soočajo veliki jezikovni modeli, vključno z GPT-4-Turbo OpenAI, za učinkovito analizo vlog Komisije za vrednostne papirje in borzo (SEC). Glede na ugotovitve Patronus AI ti modeli pogosto ne dajejo natančnih odgovorov na vprašanja, ki izhajajo iz prijav SEC.

V intervjuju za CNBC so ustanovitelji Patronusa dodali, da je celo najučinkovitejša preizkušena konfiguracija modela umetne inteligence, OpenAI GPT-4-Turbo, z zmožnostjo branja skoraj celotne datoteke poleg vprašanja, dosegla le 79-odstotno stopnjo natančnosti pri novem umetni inteligenci Patronusa. test, CNBC poročali.

Raziskovalci so povedali, da se pogosto jezikovni modeli bodisi zavrnejo, da bi se odzvali ali ustvarijo informacije, ki niso bile prisotne v vlogah SEC, kar je pojav, ki se pogosto opisuje kot "halucinacija". Soustanovitelj Patronusa AI Anand Kannappan je izrazil nezadovoljstvo z uspešnostjo in izjavil:

»Takšna stopnja uspešnosti je popolnoma nesprejemljiva. Biti mora veliko višji, da resnično deluje avtomatizirano in pripravljeno za proizvodnjo.«

Poročilo poudarja težave, s katerimi se soočajo modeli umetne inteligence, zlasti v reguliranih panogah, kot je finance, saj si glavna podjetja prizadevajo za integracijo vrhunske tehnologije v svoje poslovanje za storitve za stranke ali raziskovalne namene.

Ugotovitve poudarjajo ovire, s katerimi se soočajo modeli umetne inteligence, ko so integrirani v izdelke iz resničnega sveta, zlasti v panogah, kot je finance. Hitro pridobivanje ključnih številk in analiziranje finančnih pripovedi velja za obetavno aplikacijo za klepetalne robote, ki lahko zagotovi konkurenčno prednost v finančnem sektorju.

To odkritje se ujema tudi z drugim študija, ki je odkrila znatno zmanjšanje sposobnosti ChatGPT za reševanje osnovnih matematičnih problemov. V nekaj mesecih je njegova natančnost padla z 98 % na zgolj 2 %.

Čeprav je potencial generativne umetne inteligence v bančnem sektorju precejšen, izzivi ostajajo. Vključevanje LLM v izdelke povzroča težave, glede na njihovo nedeterministično naravo, ki zahteva strogo testiranje, da se zagotovijo dosledni, tematski in zanesljivi rezultati.

Patronus AI, ki so ga ustanovili nekdanji zaposleni v Meti, se želi spopasti s tem izzivom z avtomatizacijo LLM testiranja s programsko opremo. Ustvarili so FinanceBench, nabor podatkov z več kot 10,000 vprašanji in odgovori, vzetimi iz dokumentov SEC, ki vzpostavljajo "minimalni standard uspešnosti" za jezikovno umetno inteligenco v finančnem sektorju.

Soustanovitelja Patronusa AI Anand Kannappan in Rebecca Qian (Zasluge: Patronus AI)

Soustanovitelji so poudarili pomen robustnejših postopkov testiranja, ki presegajo ročne ocene. Prek FinanceBench želi Patronus AI podjetjem zagotoviti zagotovilo, da njihovi roboti AI ne bodo dajali presenetljivih ali netočnih odgovorov, kar na koncu poveča zanesljivost jezikovnih modelov v praktičnih aplikacijah.

Testna vprašanja

"Vsekakor menimo, da so rezultati lahko precej obetavni," je dejal Kannappan. Dodal je tudi: »Modeli bodo sčasoma še boljši. Zelo upamo, da bo dolgoročno veliko tega mogoče avtomatizirati. Toda danes boste zagotovo morali imeti v zanki vsaj človeka, ki vam bo pomagal podpirati in voditi kakršen koli potek dela, ki ga imate.«

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://techstartups.com/2023/12/19/chatgpt-and-other-ai-models-unable-to-analyze-sec-filing-patronus-ai-researchers-find/

Časovni žig: December 19, 2023

ChatGPT in drugi modeli AI ne morejo analizirati SEC Filing, ugotavljajo raziskovalci AI Patronus – TechStartups

Ponovno objavil Platon

Testna vprašanja

Več od TechStartupi

Googlov DeepMind domnevno izdeluje pomočnika AI, ki ponuja življenjske nasvete

Bittrex zapre ameriško kripto borzo zaradi regulativnega zatiranja kripto industrije

NASA: Ni dokazov o uporabi mamil v SpaceX po poročilu Wall Street Journala o Elonu Musku – TechStartups

Facebookova Meta odpira modno trgovino avatar za prodajo dizajnerskih virtualnih oblačil za pravi denar

Revolutov finančni direktor zapusti digitalno banko le 2 meseca po tem, ko so revizorji ugotovili, da je fintech startup "napačno navedel" svoje prihodke

35 % Američanov bi lahko izgubilo službo, če se ne bi cepili, kaže nova raziskava Rockefeller Foundation

SEC obtoži ustanovitelja Terra Do Kwona, Terraform goljufije v povezavi s propadom stabilnega coina TerraUSD

Najboljše novice o tehnoloških startupih za torek, 24. januarja 2023: Amazon, DevZero, Forward, Gemini in Uber Freight

Fintech startup Uncapped iz Združenega kraljestva zbere 200 milijonov funtov dolga pri Fortress Investment Group – TechStartups

Tukaj je tisto, kar je potrebno za uspeh v največji kripto borzi na svetu

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun