Một cách tốt hơn để đánh giá LLM - KDnuggets

Được xuất bản lại bởi Plato

Người theo dõi: 0

Những tiến bộ gần đây trong việc phát triển LLM đã phổ biến việc sử dụng chúng cho các nhiệm vụ NLP đa dạng mà trước đây được giải quyết bằng các phương pháp học máy cũ hơn. Các mô hình ngôn ngữ lớn có khả năng giải quyết nhiều vấn đề ngôn ngữ như phân loại, tóm tắt, truy xuất thông tin, tạo nội dung, trả lời câu hỏi và duy trì cuộc trò chuyện - tất cả chỉ sử dụng một mô hình duy nhất. Nhưng làm thế nào để chúng ta biết họ đang làm tốt tất cả những nhiệm vụ khác nhau này?

Sự nổi lên của LLM đã làm sáng tỏ một vấn đề chưa được giải quyết: chúng ta không có tiêu chuẩn đáng tin cậy để đánh giá chúng. Điều khiến việc đánh giá trở nên khó khăn hơn là chúng được sử dụng cho các nhiệm vụ rất đa dạng và chúng tôi thiếu định nghĩa rõ ràng về câu trả lời phù hợp cho từng trường hợp sử dụng.

Bài viết này thảo luận về các phương pháp tiếp cận hiện tại để đánh giá LLM và giới thiệu bảng xếp hạng LLM mới tận dụng đánh giá con người nhằm cải thiện các kỹ thuật đánh giá hiện có.

Hình thức đánh giá ban đầu đầu tiên và thông thường là chạy mô hình trên một số bộ dữ liệu được quản lý và kiểm tra hiệu suất của nó. HuggingFace đã tạo một Bảng xếp hạng LLM mở trong đó các mô hình lớn truy cập mở được đánh giá bằng bốn bộ dữ liệu nổi tiếng (Thử thách suy luận AI2 , HellaSwag , MMLU , Trung thựcQA). Điều này tương ứng với việc đánh giá tự động và kiểm tra khả năng của mô hình trong việc lấy thông tin thực tế cho một số câu hỏi cụ thể.

Đây là một ví dụ về câu hỏi của MMLU tập dữ liệu.

Chủ đề: đại học_y học

Câu hỏi: Tác dụng phụ dự kiến của việc bổ sung creatine là.

A) yếu cơ
B) tăng khối lượng cơ thể
C) chuột rút cơ bắp
D) mất chất điện giải

Đáp án: (B)

Việc chấm điểm mô hình khi trả lời loại câu hỏi này là một số liệu quan trọng và phục vụ tốt cho việc kiểm tra thực tế nhưng nó không kiểm tra khả năng tổng hợp của mô hình. Đây có lẽ là nhược điểm lớn nhất của phương pháp đánh giá này vì việc tạo văn bản miễn phí là một trong những tính năng quan trọng nhất của LLM.

Dường như có sự đồng thuận trong cộng đồng rằng để đánh giá mô hình một cách chính xác, chúng ta cần có sự đánh giá của con người. Điều này thường được thực hiện bằng cách so sánh phản hồi từ các mô hình khác nhau.

Một cách tốt hơn để đánh giá LLM
So sánh hai lần hoàn thành nhanh chóng trong dự án LMSYS – ảnh chụp màn hình của Tác giả

Người chú thích quyết định phản hồi nào tốt hơn, như đã thấy trong ví dụ trên và đôi khi định lượng sự khác biệt về chất lượng của các lần hoàn thành nhanh chóng. Tổ chức LMSYS đã tạo ra một bảng dẫn sử dụng kiểu đánh giá con người này và so sánh 17 mô hình khác nhau, báo cáo kết quả Xếp hạng elo cho mỗi mô hình.

Vì khó có thể mở rộng quy mô đánh giá của con người nên đã có nhiều nỗ lực mở rộng quy mô và đẩy nhanh quá trình đánh giá và điều này dẫn đến một dự án thú vị có tên là AlpacaEval. Ở đây, mỗi mô hình được so sánh với đường cơ sở (văn bản-davinci-003 do GPT-4 cung cấp) và đánh giá của con người được thay thế bằng phán đoán của GPT-4. Điều này thực sự nhanh và có thể mở rộng nhưng chúng ta có thể tin tưởng mô hình ở đây để thực hiện việc tính điểm không? Chúng ta cần nhận thức được những thành kiến của mô hình. Dự án thực sự đã chỉ ra rằng GPT-4 có thể ưu tiên các câu trả lời dài hơn.

Các phương pháp đánh giá LLM đang tiếp tục phát triển khi cộng đồng AI tìm kiếm các phương pháp tiếp cận dễ dàng, công bằng và có thể mở rộng. Sự phát triển mới nhất đến từ nhóm Toloka với một tính năng mới bảng dẫn nhằm nâng cao hơn nữa các tiêu chuẩn đánh giá hiện tại.

Mới bảng dẫn so sánh các phản hồi của mô hình với lời nhắc của người dùng trong thế giới thực được phân loại theo các tác vụ NLP hữu ích như được nêu trong bài viết Hướng dẫnGPT này. Nó cũng hiển thị tỷ lệ thắng chung của từng mô hình trên tất cả các danh mục.

Một cách tốt hơn để đánh giá LLM
Bảng xếp hạng Toloka – ảnh chụp màn hình của Tác giả

Đánh giá được sử dụng cho dự án này tương tự như đánh giá được thực hiện trong AlpacaEval. Điểm số trên bảng xếp hạng thể hiện tỷ lệ thắng của mô hình tương ứng so với mô hình Guanaco 13B mô hình, được dùng ở đây như một sự so sánh cơ bản. Việc lựa chọn Guanaco 13B là một cải tiến cho phương pháp AlpacaEval, sử dụng mô hình text-davinci-003 sắp lỗi thời làm cơ sở.

Việc đánh giá thực tế được thực hiện bởi chuyên gia chú thích con người dựa trên một tập hợp các lời nhắc trong thế giới thực. Đối với mỗi lời nhắc, người chú thích được đưa ra hai câu hoàn thành và được hỏi họ thích câu nào hơn. Bạn có thể tìm thấy thông tin chi tiết về phương pháp tại đây.

Kiểu đánh giá con người này hữu ích hơn bất kỳ phương pháp đánh giá tự động nào khác và sẽ cải thiện việc đánh giá con người được sử dụng cho Bảng xếp hạng LMSYS. Nhược điểm của phương pháp LMSYS là bất kỳ ai có Link có thể tham gia đánh giá, đặt ra những câu hỏi nghiêm túc về chất lượng dữ liệu được thu thập theo cách này. Một nhóm chuyên gia chú thích kín có tiềm năng tốt hơn để có kết quả đáng tin cậy và Toloka áp dụng các kỹ thuật kiểm soát chất lượng bổ sung để đảm bảo chất lượng dữ liệu.

Trong bài viết này, chúng tôi đã giới thiệu một giải pháp mới đầy hứa hẹn để đánh giá LLM - Bảng xếp hạng Toloka. Cách tiếp cận này mang tính đổi mới, kết hợp điểm mạnh của các phương pháp hiện có, bổ sung độ chi tiết cho từng nhiệm vụ cụ thể và sử dụng các kỹ thuật chú thích đáng tin cậy của con người để so sánh các mô hình.

Khám phá bảng và chia sẻ ý kiến cũng như đề xuất cải tiến của bạn với chúng tôi.

Magdalena Konkiewicz là Nhà truyền bá dữ liệu tại Toloka, một công ty toàn cầu hỗ trợ phát triển AI nhanh chóng và có thể mở rộng. Cô có bằng Thạc sĩ về Trí tuệ nhân tạo tại Đại học Edinburgh và đã từng làm Kỹ sư, Nhà phát triển và Nhà khoa học dữ liệu NLP cho các doanh nghiệp ở Châu Âu và Châu Mỹ. Cô cũng đã tham gia giảng dạy và cố vấn cho các Nhà khoa học dữ liệu và thường xuyên đóng góp cho các ấn phẩm về Khoa học dữ liệu và Học máy.