Nghiên cứu cho biết các LLM hàng đầu đang đấu tranh để tạo ra thông tin pháp lý chính xác

Được xuất bản lại bởi Plato

Người theo dõi: 0

Phỏng vấn Nếu bạn cho rằng AI sáng tạo có một vị trí tự động trong thế giới luật pháp, hãy nghĩ lại.

Nghiên cứu mới cho thấy các mô hình ngôn ngữ lớn hàng đầu có xu hướng tạo ra thông tin pháp lý không chính xác và không nên dựa vào đó để kiện tụng.

Năm ngoái, khi OpenAI trình diễn GPT-4 có khả năng vượt qua Kỳ thi luật sư, nó được báo trước là một bước đột phá trong AI và khiến một số người đặt câu hỏi liệu công nghệ này có thể sớm thay thế luật sư. Một số người hy vọng những loại mô hình này có thể trao quyền cho những người không đủ khả năng thuê luật sư đắt tiền để theo đuổi công lý pháp lý, giúp việc tiếp cận trợ giúp pháp lý trở nên công bằng hơn. Tuy nhiên, thực tế là LLM thậm chí không thể hỗ trợ luật sư chuyên nghiệp một cách hiệu quả, theo một nghiên cứu gần đây.

Mối lo ngại lớn nhất là AI thường xuyên bịa đặt thông tin sai lệch, gây ra vấn đề lớn, đặc biệt là trong một ngành dựa vào bằng chứng thực tế. Một nhóm các nhà nghiên cứu tại Đại học Yale và Stanford phân tích tỷ lệ ảo giác trong các mô hình ngôn ngữ lớn phổ biến đã phát hiện ra rằng chúng thường không truy xuất hoặc tạo ra thông tin pháp lý liên quan một cách chính xác hoặc không hiểu và suy luận về các luật khác nhau.

Trên thực tế, GPT-3.5 của OpenAI, hiện cung cấp phiên bản miễn phí của ChatGPT, gây ảo giác khoảng 69% thời gian khi được thử nghiệm trên các tác vụ khác nhau. Kết quả còn tồi tệ hơn đối với PaLM-2, hệ thống trước đây đứng sau chatbot Bard của Google và Llama 2, mô hình ngôn ngữ lớn do Meta phát hành, tạo ra sai sót với tỷ lệ lần lượt là 72 và 88%.

Không có gì đáng ngạc nhiên khi các người mẫu gặp khó khăn trong việc hoàn thành những nhiệm vụ phức tạp hơn thay vì những nhiệm vụ dễ dàng hơn. Ví dụ, yêu cầu AI so sánh các trường hợp khác nhau và xem liệu họ có đồng ý về một vấn đề hay không là một thách thức và nó có nhiều khả năng tạo ra thông tin không chính xác hơn so với khi phải đối mặt với một nhiệm vụ dễ dàng hơn, chẳng hạn như kiểm tra xem vụ án đã được nộp tại tòa án nào.

Mặc dù LLM xuất sắc trong việc xử lý số lượng lớn văn bản và có thể được đào tạo về số lượng lớn tài liệu pháp lý - nhiều hơn bất kỳ luật sư con người nào có thể đọc trong đời - nhưng họ không hiểu luật và không thể đưa ra những lập luận đúng đắn.

Daniel Ho, đồng tác giả của cuốn bài báo của Yale-Stanford, kể Đăng ký.

Ho, phó giám đốc khoa của Viện lấy con người làm trung tâm của Stanford, cho biết thêm: “Những gì luật sư thực sự giỏi và nơi họ vượt trội thường được mô tả như một dạng lý luận tương tự trong hệ thống luật thông thường, lý luận dựa trên tiền lệ”. Trí tuệ nhân tạo.

Máy móc cũng thường thất bại trong những nhiệm vụ đơn giản. Khi được yêu cầu kiểm tra tên hoặc trích dẫn để kiểm tra xem một trường hợp có thật hay không, GPT-3.5, PaLM-2 và Llama 2 có thể tạo ra thông tin giả trong phản hồi.

“Người mẫu không cần phải thành thật biết gì về luật cũng có thể trả lời chính xác câu hỏi đó. Nó chỉ cần biết liệu một trường hợp có tồn tại hay không và có thể thấy điều đó ở bất kỳ đâu trong kho dữ liệu đào tạo,” Matthew Dahl, một nghiên cứu sinh tiến sĩ luật tại Đại học Yale, cho biết.

Nó cho thấy AI thậm chí không thể truy xuất thông tin một cách chính xác và có giới hạn cơ bản đối với khả năng của công nghệ. Những mô hình này thường được coi là dễ chịu và hữu ích. Họ thường không bận tâm đến việc sửa chữa các giả định của người dùng mà thay vào đó sẽ đứng về phía họ. Ví dụ: nếu chatbot được yêu cầu tạo danh sách các trường hợp hỗ trợ cho một số lập luận pháp lý, thì chúng có xu hướng bịa ra các vụ kiện hơn là không trả lời gì. Hai luật sư đã học được điều này một cách khó khăn khi họ bị xử phạt vì đã trích dẫn những trường hợp hoàn toàn do ChatGPT của OpenAI phát minh ra trong hồ sơ tòa án của họ.

Các nhà nghiên cứu cũng nhận thấy ba mô hình mà họ thử nghiệm có nhiều khả năng hiểu biết hơn về các vụ kiện tụng liên bang liên quan đến Tòa án Tối cao Hoa Kỳ so với các thủ tục tố tụng địa phương liên quan đến các tòa án nhỏ hơn và ít quyền lực hơn.

Vì GPT-3.5, PaLM-2 và Llama 2 đã được đào tạo về văn bản lấy từ Internet nên điều hợp lý là họ sẽ quen thuộc hơn với các ý kiến pháp lý của Tòa án Tối cao Hoa Kỳ, được công bố công khai so với các tài liệu pháp lý được nộp ở các loại khác của các tòa án không dễ dàng tiếp cận được.

Họ cũng có nhiều khả năng gặp khó khăn hơn trong các nhiệm vụ liên quan đến việc nhớ lại thông tin từ các trường hợp cũ và mới.

Theo tờ báo, ảo giác là phổ biến nhất trong số các vụ án lâu đời nhất và mới nhất của Tòa án Tối cao, và ít phổ biến nhất trong số các vụ án của Tòa án Warren thời hậu chiến (1953-1969). “Kết quả này cho thấy một hạn chế quan trọng khác đối với kiến thức pháp lý của LLM mà người dùng nên biết: Hiệu suất cao nhất của LLM có thể tụt hậu vài năm so với tình trạng hiện tại của học thuyết và LLM có thể không tiếp thu được án lệ rất cũ nhưng vẫn có thể áp dụng được. và pháp luật có liên quan.”

Quá nhiều AI có thể tạo ra tình trạng 'độc canh'

Các nhà nghiên cứu cũng lo ngại rằng việc phụ thuộc quá nhiều vào các hệ thống này có thể tạo ra tình trạng “độc canh” hợp pháp. Vì AI được đào tạo trên một lượng dữ liệu hạn chế nên nó sẽ đề cập đến những vụ án nổi bật, nổi tiếng hơn khiến các luật sư bỏ qua những cách giải thích pháp lý khác hoặc các tiền lệ liên quan. Họ có thể bỏ qua những trường hợp khác có thể giúp họ nhìn ra những quan điểm hoặc lập luận khác nhau, điều này có thể tỏ ra quan trọng trong kiện tụng.

Dahl nói: “Bản thân luật pháp không phải là nguyên khối. “Chế độ độc canh đặc biệt nguy hiểm trong môi trường pháp lý. Tại Hoa Kỳ, chúng tôi có hệ thống thông luật liên bang, trong đó luật phát triển khác nhau ở các tiểu bang khác nhau ở các khu vực pháp lý khác nhau. Có nhiều đường lối hoặc xu hướng luật học khác nhau phát triển theo thời gian.”

Ho cho biết thêm: “Nó có thể dẫn đến những kết quả sai lầm và sự tin cậy không chính đáng theo cách thực sự có thể gây hại cho các đương sự”. Ông giải thích rằng một mô hình có thể tạo ra những phản hồi không chính xác đối với các luật sư hoặc những người muốn tìm hiểu những thứ như luật trục xuất.

Ông nói: “Khi bạn tìm kiếm sự trợ giúp của một mô hình ngôn ngữ lớn, bạn có thể nhận được câu trả lời sai chính xác về thời hạn nộp đơn của bạn hoặc loại quy tắc trục xuất ở tiểu bang này là gì,” ông nói, trích dẫn một ví dụ. “Bởi vì những gì nó nói với bạn là luật ở New York hoặc luật của California, trái ngược với luật thực sự quan trọng đối với hoàn cảnh cụ thể của bạn trong khu vực tài phán của bạn.”

Các nhà nghiên cứu kết luận rằng rủi ro khi sử dụng các loại mô hình phổ biến này cho các nhiệm vụ pháp lý là cao nhất đối với những người nộp giấy tờ tại các tòa án cấp dưới ở các bang nhỏ hơn, đặc biệt nếu họ có ít chuyên môn hơn và đang truy vấn các mô hình dựa trên các giả định sai lầm. Những người này có nhiều khả năng là luật sư, những người ít quyền lực hơn trong các công ty luật nhỏ hơn với ít nguồn lực hơn hoặc những người muốn đại diện cho chính họ.

“Nói tóm lại, chúng tôi thấy rằng rủi ro là cao nhất đối với những người được hưởng lợi nhiều nhất từ LLM,” bài báo nêu rõ. ®