Top LLMs Struggle To Produce Accurate Legal Info, Says Study

Újra kiadta Platón

Követő: 0

Interjú Ha úgy gondolja, hogy a generatív mesterséges intelligencia automatikusan helyet foglal az asztalnál a jog világában, gondolja át újra.

Friss kutatások mutatták ki, hogy a legnépszerűbb nagy nyelvi modellek pontatlan jogi információkat generálnak, és nem szabad rájuk támaszkodni a peres eljárások során.

Tavaly, amikor az OpenAI megmutatta GPT-4 képes volt letenni az ügyvédi vizsgát, áttörést jelentett az AI-ban, és néhány emberben felmerült a kérdés, hogy a technológia hamarosan cserélni ügyvédek. Egyesek azt remélték, hogy az ilyen típusú modellek feljogosíthatják azokat az embereket, akik nem engedhetik meg maguknak a drága ügyvédeket, hogy jogi igazságszolgáltatást folytassanak, és igazságosabbá tegyék a jogi segítséghez való hozzáférést. Egy friss tanulmány szerint azonban a valóság az, hogy az LLM-ek még a hivatásos jogászokat sem tudnak hatékonyan segíteni.

A legnagyobb gond az, hogy a mesterséges intelligencia gyakran hamis információkat gyárt, ami óriási problémát jelent, különösen egy olyan iparágban, amely tényszerű bizonyítékokra támaszkodik. A Yale és a Stanford Egyetem kutatóinak egy csoportja, amely a hallucinációk arányát elemezte a népszerű nagynyelvi modellekben, azt találta, hogy ezek gyakran nem tudnak pontosan lekérni vagy generálni releváns jogi információkat, illetve nem értenek meg és nem érvelnek a különféle törvényekkel kapcsolatban.

Valójában az OpenAI GPT-3.5, amely jelenleg a ChatGPT ingyenes verzióját hajtja végre, az esetek 69 százalékában hallucinál, amikor különböző feladatokon tesztelik. Az eredmények rosszabbak voltak a PaLM-2 rendszer esetében, amely korábban a Google Bard chatbotja mögött állt, és a Llama 2-nél, a Meta által kiadott nagy nyelvi modellnél, amely 72, illetve 88 százalékos hamisságot generált.

Nem meglepő módon a modellek küzdenek a bonyolultabb feladatok elvégzésével, mint a könnyebbekkel. A mesterséges intelligencia arra kérése, hogy hasonlítsa össze a különböző eseteket, és nézze meg, hogy egyetértenek-e például egy kérdésben, kihívást jelent, és nagyobb valószínűséggel fog pontatlan információkat generálni, mint amikor egy könnyebb feladattal kell szembenéznie, például annak ellenőrzésekor, hogy melyik bíróság előtt nyújtották be az ügyet.

Bár az LLM-ek kiválóak a nagy mennyiségű szöveg feldolgozásában, és hatalmas mennyiségű jogi dokumentumra képezhetik ki magukat – többet, mint amennyit bármely emberi jogász elolvashatna élete során –, nem értik a jogot, és nem tudnak megalapozott érveket felállítani.

„Bár láttuk, hogy az ilyen modellek igazán nagy előrelépéseket tettek a deduktív érvelés formáiban a kódolási vagy matematikai feladatokban, ez nem az a fajta készségkészlet, amely a kiváló ügyvédi tevékenységet jellemzi” – mondta Daniel Ho, a könyv társszerzője. a Yale-Stanford lap, mondja A regisztráció.

„Amiben az ügyvédek igazán jók, és ahol kitűnnek, azt gyakran az analóg érvelés egy formájaként írják le a common law rendszerében, a precedenseken alapuló érveléshez” – tette hozzá Ho, a Stanford Institute for Human-Centered kar társigazgatója. Mesterséges intelligencia.

A gépek gyakran meghibásodnak az egyszerű feladatokban is. Amikor egy név vagy idézet vizsgálatára kérik, hogy ellenőrizze, hogy az eset valódi-e, a GPT-3.5, a PaLM-2 és a Llama 2 hamis információkat találhat ki a válaszokban.

„A modellnek semmit sem kell őszintén tudnia a törvényről, hogy helyesen válaszolhasson erre a kérdésre. Csak tudnia kell, hogy létezik-e eset vagy sem, és ezt bárhol láthatja a képzési korpuszban” – mondja Matthew Dahl, a Yale Egyetem jogász doktorandusza.

Ez azt mutatja, hogy a mesterséges intelligencia még az információkat sem tudja pontosan visszakeresni, és hogy a technológia képességeinek alapvető korlátai vannak. Ezeket a modelleket gyakran úgy alakítják ki, hogy kellemesek és hasznosak legyenek. Általában nem foglalkoznak azzal, hogy kijavítsák a felhasználók feltételezéseit, inkább melléjük állnak. Ha például a chatbotokat arra kérik, hogy készítsenek egy listát az esetekről valamilyen jogi érvelés alátámasztására, akkor hajlamosabbak arra, hogy pert alkossanak, mintsem hogy semmit se válaszoljanak. Egy ügyvédpár keményen tanulta meg ezt, amikor volt szankcionált mert olyan esetekre hivatkoztak, amelyeket teljesen az OpenAI ChatGPT-je talált ki a bírósági beadványukban.

A kutatók azt is megállapították, hogy az általuk tesztelt három modell nagyobb valószínűséggel jártas az Egyesült Államok Legfelsőbb Bíróságával kapcsolatos szövetségi peres eljárásokban, mint a kisebb és kevésbé erős bíróságokat érintő lokalizált jogi eljárásokban.

Mivel a GPT-3.5, a PaLM-2 és a Llama 2 az internetről lekapart szövegre lett kiképezve, logikus, hogy jobban ismerjék az Egyesült Államok Legfelsőbb Bíróságának nyilvánosan közzétett jogi véleményét, mint más típusú jogi dokumentumokat. nem olyan könnyen hozzáférhető bíróságok.

Emellett nagyobb valószínűséggel küzdöttek olyan feladatokban, amelyek a régi és új esetekből származó információk felidézésével jártak.

„A hallucinációk a legelterjedtebbek a Legfelsőbb Bíróság legrégebbi és legújabb ügyei között, és a legkevésbé gyakoriak a háború utáni Warren Court (1953-1969) ügyei között” – írja a lap. „Ez az eredmény egy másik fontos korlátot sugall az LLM-ek jogi tudásában, amellyel a felhasználóknak tisztában kell lenniük: az LLM-ek csúcsteljesítménye több évvel elmaradhat a doktrína jelenlegi állapotától, és előfordulhat, hogy az LLM-ek nem tudják internalizálni a nagyon régi, de még mindig alkalmazható ítélkezési gyakorlatot. és a vonatkozó törvényt.”

A túl sok mesterséges intelligencia „monokultúrát” hozhat létre

A kutatók attól is aggódtak, hogy ezekre a rendszerekre való túlzott támaszkodás jogi „monokultúrát” hozhat létre. Mivel a mesterséges intelligencia korlátozott mennyiségű adatra van kiképezve, jelentősebb, jól ismert esetekre fog hivatkozni, amelyek arra késztetik az ügyvédeket, hogy figyelmen kívül hagyjanak más jogi értelmezéseket vagy releváns precedenseket. Előfordulhat, hogy figyelmen kívül hagynak más eseteket, amelyek segíthetnek nekik különböző perspektívákat vagy érveket látni, amelyek döntő fontosságúak lehetnek a perben.

„Maga a törvény nem monolitikus” – mondja Dahl. „A monokultúra különösen veszélyes jogi környezetben. Az Egyesült Államokban szövetségi közjogi rendszerünk van, ahol a jog eltérően alakul a különböző államokban és különböző joghatóságokban. Vannak a joggyakorlat különböző irányvonalai vagy irányzatai, amelyek idővel alakulnak ki.”

„Ez hibás kimenetelekhez és indokolatlan támaszkodáshoz vezethet, oly módon, hogy ténylegesen kárt okozna a peres feleknek” – teszi hozzá Ho. Kifejtette, hogy egy modell pontatlan válaszokat generálhat az ügyvédeknek vagy az olyan embereknek, akik olyan dolgokat szeretnének megérteni, mint a kilakoltatási törvények.

„Ha egy nagy nyelvi modell segítségét kéri, előfordulhat, hogy pontosan rossz választ kap arra vonatkozóan, hogy mikor esedékes a bejelentése, vagy mi a kilakoltatás szabálya ebben az állapotban” – mondja egy példára. – Mert ez azt sugallja, hogy a New York-i törvény vagy a kaliforniai törvény, ellentétben azzal a törvénnyel, amely ténylegesen számít az Ön joghatósága szerinti körülményei szempontjából.

A kutatók arra a következtetésre jutottak, hogy az ilyen típusú népszerű modellek jogi feladatokra való használatának kockázata a legnagyobb a kisebb államok alacsonyabb szintű bíróságaira benyújtók esetében, különösen akkor, ha kevesebb szakértelemmel rendelkeznek, és hamis feltételezések alapján kérdezik le a modelleket. Ezek az emberek nagyobb valószínűséggel ügyvédek, akik kisebb, kevesebb erőforrással rendelkező ügyvédi irodákból származnak, vagy olyan emberek, akik önmagukat szeretnék képviselni.

"Röviden, azt találjuk, hogy a kockázatok azok számára a legnagyobbak, akiknek a legtöbb hasznot húznák az LLM-ek" - állítja a lap. ®