Giải quyết một bí ẩn học máy

Giải quyết một bí ẩn học máy

Nút nguồn: 1944875
Ngày 07 tháng 2023 năm XNUMX (Tin tức Nanowerk) Các mô hình ngôn ngữ lớn như GPT-3 của OpenAI là các mạng lưới thần kinh khổng lồ có thể tạo ra văn bản giống con người, từ thơ đến mã lập trình. Được đào tạo bằng cách sử dụng kho dữ liệu internet, các mô hình học máy này lấy một ít văn bản đầu vào và sau đó dự đoán văn bản có khả năng xuất hiện tiếp theo. Nhưng đó không phải là tất cả những gì những mô hình này có thể làm được. Các nhà nghiên cứu đang khám phá một hiện tượng kỳ lạ được gọi là học tập trong ngữ cảnh, trong đó một mô hình ngôn ngữ lớn học cách hoàn thành một nhiệm vụ sau khi chỉ xem một vài ví dụ - mặc dù thực tế là nó chưa được đào tạo cho nhiệm vụ đó. Ví dụ: ai đó có thể cung cấp cho mô hình một số câu ví dụ và cảm xúc của họ (tích cực hoặc tiêu cực), sau đó nhắc mô hình bằng một câu mới và mô hình có thể đưa ra cảm xúc chính xác. Thông thường, một mô hình học máy như GPT-3 sẽ cần được đào tạo lại bằng dữ liệu mới cho nhiệm vụ mới này. Trong quá trình đào tạo này, mô hình sẽ cập nhật các tham số của nó khi xử lý thông tin mới để tìm hiểu nhiệm vụ. Nhưng với việc học trong ngữ cảnh, các tham số của mô hình không được cập nhật, do đó, có vẻ như mô hình học một nhiệm vụ mới mà không cần học gì cả. Các nhà khoa học từ MIT, Google Research và Đại học Stanford đang nỗ lực làm sáng tỏ bí ẩn này. Họ đã nghiên cứu các mô hình rất giống với các mô hình ngôn ngữ lớn để xem chúng có thể học như thế nào mà không cần cập nhật các tham số. Kết quả lý thuyết của các nhà nghiên cứu cho thấy các mô hình mạng lưới thần kinh khổng lồ này có khả năng chứa các mô hình tuyến tính nhỏ hơn, đơn giản hơn được chôn bên trong chúng. Sau đó, mô hình lớn có thể triển khai một thuật toán học đơn giản để huấn luyện mô hình tuyến tính nhỏ hơn này nhằm hoàn thành một nhiệm vụ mới, chỉ sử dụng thông tin đã có trong mô hình lớn hơn. Các thông số của nó vẫn cố định. Ekin Akyürek, một sinh viên tốt nghiệp khoa học máy tính và là tác giả chính của bài báo, cho biết là một bước quan trọng để hiểu các cơ chế đằng sau việc học tập trong ngữ cảnh, nghiên cứu này mở ra cơ hội khám phá nhiều hơn về các thuật toán học tập mà các mô hình lớn này có thể thực hiện.“What learning algorithm is in-context learning? Investigations with linear models”) khám phá hiện tượng này. Với sự hiểu biết tốt hơn về học tập trong ngữ cảnh, các nhà nghiên cứu có thể cho phép các mô hình hoàn thành các nhiệm vụ mới mà không cần đào tạo lại tốn kém. “Thông thường, nếu muốn tinh chỉnh các mô hình này, bạn cần thu thập dữ liệu theo miền cụ thể và thực hiện một số kỹ thuật phức tạp. Nhưng bây giờ chúng ta chỉ cần cung cấp cho nó một đầu vào, năm ví dụ và nó sẽ hoàn thành những gì chúng ta muốn. Vì vậy, học tập trong bối cảnh là một hiện tượng khá thú vị,” Akyürek nói. Tham gia cùng Akyürek trên bài báo còn có Dale Schuurmans, nhà khoa học nghiên cứu tại Google Brain và giáo sư khoa học máy tính tại Đại học Alberta; cũng như các tác giả cấp cao Jacob Andreas, Trợ lý Giáo sư của Hiệp hội X tại Khoa Kỹ thuật Điện và Khoa học Máy tính MIT và là thành viên của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL); Tengyu Ma, trợ lý giáo sư khoa học máy tính và thống kê tại Stanford; và Danny Zhou, nhà khoa học chính và giám đốc nghiên cứu tại Google Brain. Nghiên cứu này sẽ được trình bày tại Hội nghị quốc tế về đại diện học tập.

Một mô hình trong một mô hình

Akyürek cho biết, trong cộng đồng nghiên cứu về học máy, nhiều nhà khoa học đã tin rằng các mô hình ngôn ngữ lớn có thể thực hiện việc học theo ngữ cảnh nhờ vào cách chúng được đào tạo. Ví dụ: GPT-3 có hàng trăm tỷ tham số và được đào tạo bằng cách đọc rất nhiều văn bản trên internet, từ các bài viết trên Wikipedia đến các bài đăng trên Reddit. Vì vậy, khi ai đó hiển thị các ví dụ mẫu của một nhiệm vụ mới, có thể họ đã thấy điều gì đó rất giống vì tập dữ liệu huấn luyện của nhiệm vụ đó bao gồm văn bản từ hàng tỷ trang web. Nó lặp lại các mô hình mà nó đã thấy trong quá trình huấn luyện thay vì học cách thực hiện các nhiệm vụ mới. Akyürek đưa ra giả thuyết rằng những người học trong ngữ cảnh không chỉ khớp với các khuôn mẫu đã thấy trước đó mà thay vào đó họ thực sự đang học cách thực hiện các nhiệm vụ mới. Anh ấy và những người khác đã thử nghiệm bằng cách đưa ra lời nhắc cho các mô hình này bằng cách sử dụng dữ liệu tổng hợp mà họ chưa từng thấy ở bất kỳ đâu trước đây và nhận thấy rằng các mô hình vẫn có thể học hỏi chỉ từ một vài ví dụ. Akyürek và các đồng nghiệp của ông nghĩ rằng có lẽ những mô hình mạng thần kinh này có các mô hình học máy nhỏ hơn bên trong mà các mô hình này có thể đào tạo để hoàn thành một nhiệm vụ mới. Ông nói: “Điều đó có thể giải thích gần như tất cả hiện tượng học tập mà chúng ta đã thấy với những mô hình lớn này”. Để kiểm tra giả thuyết này, các nhà nghiên cứu đã sử dụng mô hình mạng thần kinh được gọi là máy biến áp, có kiến ​​trúc tương tự như GPT-3, nhưng đã được đào tạo đặc biệt để học trong ngữ cảnh. Bằng cách khám phá kiến ​​trúc của máy biến áp này, về mặt lý thuyết, họ đã chứng minh rằng nó có thể viết một mô hình tuyến tính trong các trạng thái ẩn của nó. Mạng lưới thần kinh bao gồm nhiều lớp nút được kết nối với nhau để xử lý dữ liệu. Các trạng thái ẩn là các lớp nằm giữa lớp đầu vào và đầu ra. Các đánh giá toán học của họ cho thấy mô hình tuyến tính này được viết ở đâu đó trong các lớp đầu tiên của máy biến áp. Sau đó, máy biến áp có thể cập nhật mô hình tuyến tính bằng cách thực hiện các thuật toán học đơn giản. Về bản chất, mô hình mô phỏng và huấn luyện một phiên bản nhỏ hơn của chính nó.

Thăm dò các lớp ẩn

Các nhà nghiên cứu đã khám phá giả thuyết này bằng cách sử dụng các thí nghiệm thăm dò, trong đó họ xem xét các lớp ẩn của máy biến áp để thử và thu hồi một lượng nhất định. “Trong trường hợp này, chúng tôi đã cố gắng khôi phục nghiệm thực tế cho mô hình tuyến tính và chúng tôi có thể chỉ ra rằng tham số được ghi ở trạng thái ẩn. Điều này có nghĩa là mô hình tuyến tính nằm ở đâu đó,” ông nói. Dựa trên công trình lý thuyết này, các nhà nghiên cứu có thể cho phép một máy biến áp thực hiện việc học trong ngữ cảnh bằng cách chỉ thêm hai lớp vào mạng lưới thần kinh. Akyürek cảnh báo, vẫn còn nhiều chi tiết kỹ thuật cần phải giải quyết trước khi thực hiện được điều đó, nhưng nó có thể giúp các kỹ sư tạo ra các mô hình có thể hoàn thành các nhiệm vụ mới mà không cần phải đào tạo lại với dữ liệu mới. Trong tương lai, Akyürek có kế hoạch tiếp tục khám phá việc học trong ngữ cảnh với các hàm phức tạp hơn các mô hình tuyến tính mà họ đã nghiên cứu trong nghiên cứu này. Họ cũng có thể áp dụng những thí nghiệm này cho các mô hình ngôn ngữ lớn để xem liệu hành vi của chúng có được mô tả bằng các thuật toán học đơn giản hay không. Ngoài ra, anh ấy muốn tìm hiểu sâu hơn về các loại dữ liệu huấn luyện trước có thể hỗ trợ việc học trong ngữ cảnh. “Với công việc này, giờ đây mọi người có thể hình dung cách những mô hình này có thể học hỏi từ các ví dụ điển hình. Vì vậy, tôi hy vọng nó sẽ thay đổi quan điểm của một số người về việc học tập trong bối cảnh,” Akyürek nói. “Những mô hình này không ngu ngốc như mọi người nghĩ. Họ không chỉ ghi nhớ những nhiệm vụ này. Họ có thể học các nhiệm vụ mới và chúng tôi đã chỉ ra cách thực hiện được điều đó.”

Dấu thời gian:

Thêm từ công trình nano