Top LLMs Struggle To Produce Accurate Legal Info, Says Study

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

görüşme Üretken yapay zekanın hukuk dünyasında otomatik olarak masaya oturduğunu düşünüyorsanız bir kez daha düşünün.

Yeni araştırmalar, önde gelen büyük dil modellerinin hatalı yasal bilgiler üretme eğiliminde olduğunu ve davalarda bu modellere güvenilmemesi gerektiğini gösterdi.

Geçen yıl OpenAI gösterildiğinde GPT 4 Baro Sınavını geçme kapasitesine sahip olması yapay zekada bir atılım olarak müjdelendi ve bazı insanların bu teknolojinin yakın zamanda başarılı olup olamayacağını sorgulamasına yol açtı. değiştirmek avukatlar. Bazıları, bu tür modellerin, pahalı avukatlara parası yetmeyen kişilerin yasal adaleti takip etmelerini sağlayarak hukuki yardıma erişimi daha adil hale getireceğini umuyordu. Ancak gerçek şu ki, yakın zamanda yapılan bir araştırmaya göre Yüksek Lisanslar profesyonel avukatlara bile etkili bir şekilde yardımcı olamıyor.

En büyük endişe, yapay zekanın sıklıkla yanlış bilgiler üretmesi ve özellikle gerçek kanıtlara dayanan bir sektörde büyük bir sorun oluşturmasıdır. Yale ve Stanford Üniversitesi'ndeki popüler büyük dil modellerindeki halüsinasyon oranlarını analiz eden bir araştırma ekibi, bunların çoğunlukla ilgili yasal bilgileri doğru bir şekilde almadıklarını veya üretmediklerini veya çeşitli yasaları anlamadıklarını ve bunlar hakkında mantık yürütmediklerini buldu.

Aslında, şu anda ChatGPT'nin ücretsiz sürümünü destekleyen OpenAI GPT-3.5, farklı görevlerde test edildiğinde zamanın yaklaşık yüzde 69'unda halüsinasyon görüyor. Daha önce Google'ın Bard chatbot'unun arkasındaki sistem olan PaLM-2 ve Meta tarafından yayımlanan ve sırasıyla yüzde 2 ve yüzde 72 oranında yalan üreten büyük dil modeli Llama 88 için sonuçlar daha kötüydü.

Şaşırtıcı olmayan bir şekilde modeller, daha kolay görevleri yerine daha karmaşık görevleri tamamlamakta zorlanıyor. Yapay zekadan farklı vakaları karşılaştırmasını ve bir konu üzerinde hemfikir olup olmadıklarını görmesini istemek zorlayıcıdır ve davanın hangi mahkemeye açıldığını kontrol etmek gibi daha kolay bir görevle karşı karşıya kaldığında hatalı bilgi üretme olasılığı daha yüksektir.

LLM'ler büyük miktarda metni işlemede üstün olmalarına ve herhangi bir avukatın hayatları boyunca okuyabileceğinden çok daha fazla sayıda yasal belge üzerinde eğitim alabilmelerine rağmen, hukuku anlamıyorlar ve sağlam argümanlar oluşturamıyorlar.

Daniel Ho, "Bu tür modellerin kodlama veya matematik problemlerinde tümdengelimli akıl yürütme biçimlerinde gerçekten büyük ilerlemeler kaydettiğini görmemize rağmen, bu birinci sınıf avukatlığı karakterize eden türden bir beceri seti değil" dedi. Yale-Stanford makalesi, anlatır Kayıt.

Stanford İnsan Odaklılık Enstitüsü'nün fakülte direktör yardımcısı olan Ho, "Avukatların gerçekten iyi olduğu ve üstün olduğu yerler genellikle ortak hukuk sistemindeki emsallere dayalı akıl yürütmenin bir tür analojik akıl yürütme biçimi olarak tanımlanır" diye ekledi. Yapay zeka.

Makineler genellikle basit görevlerde de başarısız olurlar. Bir vakanın gerçek olup olmadığını kontrol etmek için bir adı veya alıntıyı incelemeniz istendiğinde GPT-3.5, PaLM-2 ve Llama 2 yanıtlarda sahte bilgiler oluşturabiliyor.

"Modelin bu soruyu doğru bir şekilde cevaplaması için yasa hakkında dürüst bir şekilde bilgi sahibi olmasına gerek yok. Yale Üniversitesi'nde hukuk doktorası öğrencisi olan Matthew Dahl, "Sadece bir vakanın var olup olmadığını bilmesi gerekiyor ve bunu eğitim külliyatının herhangi bir yerinde görebiliyor" diyor.

Bu, yapay zekanın bilgiyi bile doğru şekilde alamadığını ve teknolojinin yeteneklerinin temel bir sınırı olduğunu gösteriyor. Bu modeller genellikle hoş ve yararlı olmaya hazırlanır. Genellikle kullanıcıların varsayımlarını düzeltmekle uğraşmazlar ve bunun yerine onların yanında yer alırlar. Örneğin, sohbet robotlarından bazı hukuki argümanları desteklemek için bir dava listesi oluşturmaları istendiğinde, hiçbir şey yapmadan yanıt vermek yerine dava açmaya daha yatkın oluyorlar. Bir çift avukat bunu zor yoldan öğrendi. yaptırım Mahkeme dosyalarında tamamen OpenAI'nin ChatGPT'si tarafından icat edilen davalara atıfta bulundukları için.

Araştırmacılar ayrıca, test ettikleri üç modelin, daha küçük ve daha az güçlü mahkemelerle ilgili yerel yasal işlemlerle karşılaştırıldığında, ABD Yüksek Mahkemesi ile ilgili federal davalarda bilgi sahibi olma ihtimalinin daha yüksek olduğunu buldu.

GPT-3.5, PaLM-2 ve Llama 2 internetten alınan metinler üzerinde eğitildiğinden, diğer türlerde dosyalanan yasal belgelerle karşılaştırıldığında ABD Yüksek Mahkemesinin kamuya açık yayınlanan hukuki görüşlerine daha aşina olmaları mantıklıdır. Kolayca erişilemeyen mahkemeler.

Ayrıca eski ve yeni vakalardan bilgilerin hatırlanmasını içeren görevlerde zorluk yaşama olasılıkları da daha yüksekti.

Gazeteye göre "Halüsinasyonlar, Yüksek Mahkeme'nin en eski ve en yeni davaları arasında en yaygın, en az ise savaş sonrası Warren Court davalarında (1953-1969) görülüyor." "Bu sonuç, Yüksek Lisans'ların hukuki bilgisine ilişkin kullanıcıların bilmesi gereken bir başka önemli sınırlamayı ortaya koyuyor: Yüksek Lisans'ların en yüksek performansı, doktrinin mevcut durumunun birkaç yıl gerisinde kalabilir ve Yüksek Lisans'lar, çok eski ancak hala geçerli olan içtihat hukukunu içselleştirmede başarısız olabilir. ve ilgili kanun.”

Çok fazla yapay zeka bir 'monokültür' yaratabilir

Araştırmacılar ayrıca bu sistemlere aşırı güvenmenin yasal bir "monokültür" yaratabileceğinden de endişe duyuyorlardı. Yapay zeka sınırlı miktarda veri üzerinde eğitildiğinden, avukatların diğer hukuki yorumları veya ilgili emsal kararları göz ardı etmesine yol açan daha belirgin, iyi bilinen davalara atıfta bulunacaktır. Farklı bakış açılarını veya argümanları görmelerine yardımcı olabilecek ve davada çok önemli olabilecek diğer vakaları gözden kaçırabilirler.

Dahl, "Yasanın kendisi yekpare değil" diyor. “Yasal ortamda monokültür özellikle tehlikelidir. Amerika Birleşik Devletleri'nde, hukukun farklı yargı bölgelerindeki farklı eyaletlerde farklı şekilde geliştiği bir federal ortak hukuk sistemimiz vardır. Zaman içinde gelişen farklı hukuk çizgileri veya eğilimleri var.

Ho, "Bu, davacılara gerçekten zarar verebilecek şekilde hatalı sonuçlara ve yersiz güvene yol açabilir" diye ekliyor. Bir modelin avukatlara veya tahliye yasaları gibi bir şeyi anlamak isteyen kişilere yanlış yanıtlar verebileceğini açıkladı.

Bir örnek vererek, "Geniş bir dil modelinin yardımını aradığınızda, başvurunuzun ne zaman yapılacağı veya bu eyalette tahliye kuralının ne olduğu konusunda tamamen yanlış yanıt alıyor olabilirsiniz" diyor. "Çünkü size söylediği şey, yargı alanınızdaki özel koşullarınız için gerçekten önemli olan kanunun aksine, New York kanunu veya Kaliforniya kanunudur."

Araştırmacılar, bu tür popüler modelleri yasal görevler için kullanmanın risklerinin, özellikle daha az uzmanlığa sahip olmaları ve modelleri yanlış varsayımlara dayalı olarak sorgulamaları durumunda, küçük eyaletlerdeki alt mahkemelere evrak teslim eden kişiler için en yüksek olduğu sonucuna vardı. Bu kişilerin, daha az kaynağa sahip daha küçük hukuk firmalarında daha az güçlü olan avukatlar veya kendilerini temsil etmek isteyen kişiler olma olasılığı daha yüksektir.

Makalede "Kısacası, risklerin yüksek lisans eğitimlerinden en çok yararlanacak olanlar için en yüksek olduğunu görüyoruz" ifadesine yer veriliyor. ®