Trọng tâm của vấn đề: Làm sáng tỏ vấn đề sao chép trong đào tạo LLM - DATAVERSITY

Trọng tâm của vấn đề: Làm sáng tỏ vấn đề sao chép trong đào tạo LLM – DATAVERSITY

Nút nguồn: 3093102

Nhìn lại 15 tháng qua, những tiến bộ đạt được trong lĩnh vực AI tổng quát và các mô hình ngôn ngữ lớn (LLM) sau khi giới thiệu và cung cấp ChatGPT cho công chúng đã chiếm ưu thế trên các tiêu đề. 

Nền tảng cho tiến trình này là kiến ​​trúc mô hình Transformer được một nhóm các nhà nghiên cứu của Google phác thảo trong một bài báo có tựa đề “Chú ý là tất cả những gì bạn cần.” Như tiêu đề gợi ý, một đặc điểm chính của tất cả các mẫu Transformer là cơ chế chú ý, được định nghĩa trong bài báo như sau:

“Một hàm chú ý có thể được mô tả như ánh xạ một truy vấn và một tập hợp các cặp khóa-giá trị tới đầu ra, trong đó truy vấn, khóa, giá trị và đầu ra đều là vectơ. Đầu ra được tính dưới dạng tổng có trọng số của các giá trị, trong đó trọng số được gán cho từng giá trị được tính bằng hàm tương thích của truy vấn với khóa tương ứng.”

Một đặc điểm của các mô hình AI tổng quát là mức tiêu thụ lớn dữ liệu đầu vào, có thể bao gồm văn bản, hình ảnh, tệp âm thanh, tệp video hoặc bất kỳ sự kết hợp nào của đầu vào (trường hợp này thường được gọi là “đa phương thức”). Từ góc độ bản quyền, một câu hỏi quan trọng (trong số nhiều câu hỏi quan trọng) cần đặt ra là liệu tài liệu đào tạo có được giữ lại trong mô hình ngôn ngữ lớn (LLM) được sản xuất bởi nhiều nhà cung cấp LLM khác nhau. Để giúp trả lời câu hỏi đó, chúng ta cần hiểu cách xử lý tài liệu văn bản. Tập trung vào văn bản, phần tiếp theo là mô tả ngắn gọn, phi kỹ thuật về chính xác khía cạnh đó của đào tạo LLM. 

Con người giao tiếp bằng ngôn ngữ tự nhiên bằng cách sắp xếp các từ theo trình tự; các quy tắc về trình tự và dạng cụ thể của một từ được quy định bởi ngôn ngữ cụ thể (ví dụ: tiếng Anh). Một phần thiết yếu của kiến ​​trúc cho tất cả các hệ thống phần mềm xử lý văn bản (và do đó cho tất cả các hệ thống AI làm như vậy) là cách thể hiện văn bản đó để các chức năng của hệ thống có thể được thực hiện hiệu quả nhất. Do đó, một bước quan trọng trong quá trình xử lý đầu vào văn bản trong mô hình ngôn ngữ là chia đầu vào của người dùng thành các “từ” đặc biệt mà hệ thống AI có thể hiểu được. Những từ đặc biệt đó được gọi là “mã thông báo”. Thành phần chịu trách nhiệm cho việc đó được gọi là “tokenizer”. Có nhiều loại tokenizer. Ví dụ: OpenAI và Azure OpenAI sử dụng phương thức mã thông báo từ phụ có tên là “Mã hóa cặp byte (BPE)” cho các mô hình dựa trên Generative Pretraining Transformer (GPT) của họ. BPE là phương pháp hợp nhất các cặp ký tự hoặc byte xuất hiện thường xuyên nhất thành một mã thông báo duy nhất, cho đến khi đạt đến số lượng mã thông báo hoặc kích thước từ vựng nhất định. Kích thước từ vựng càng lớn thì văn bản mà mô hình có thể tạo ra càng đa dạng và biểu cảm.

Khi hệ thống AI đã ánh xạ văn bản đầu vào thành mã thông báo, nó sẽ mã hóa mã thông báo thành số và chuyển đổi các chuỗi mà nó xử lý dưới dạng vectơ được gọi là “nhúng từ”. Vectơ là một tập hợp các số có thứ tự - bạn có thể coi nó như một hàng hoặc cột trong bảng. Các vectơ này là biểu diễn của các mã thông báo bảo tồn biểu diễn ngôn ngữ tự nhiên ban đầu của chúng được cung cấp dưới dạng văn bản. Điều quan trọng là phải hiểu vai trò của phần nhúng từ khi nói đến bản quyền vì phần nhúng tạo thành biểu diễn (hoặc mã hóa) của toàn bộ câu hoặc thậm chí các đoạn văn và do đó, trong các tổ hợp vectơ, thậm chí toàn bộ tài liệu trong không gian vectơ chiều cao. Thông qua những phần nhúng này, hệ thống AI nắm bắt và lưu trữ ý nghĩa cũng như mối quan hệ của các từ trong ngôn ngữ tự nhiên. 

Thực tế, phần nhúng được sử dụng trong mọi nhiệm vụ mà hệ thống AI tổng hợp thực hiện (ví dụ: tạo văn bản, tóm tắt văn bản, phân loại văn bản, dịch văn bản, tạo hình ảnh, tạo mã, v.v.). Các phần nhúng từ thường được lưu trữ trong cơ sở dữ liệu vectơ, nhưng mô tả chi tiết về tất cả các phương pháp lưu trữ nằm ngoài phạm vi của bài đăng này vì có rất nhiều nhà cung cấp, quy trình và thực tiễn đang sử dụng.

Như đã đề cập, hầu hết tất cả LLM đều dựa trên kiến ​​trúc Transformer, kiến ​​trúc này sử dụng cơ chế chú ý. Cái sau cho phép công nghệ AI xem toàn bộ câu và thậm chí cả đoạn văn thay vì chỉ là các chuỗi ký tự. Điều này cho phép phần mềm nắm bắt các ngữ cảnh khác nhau trong đó một từ có thể xuất hiện và vì những ngữ cảnh này được cung cấp bởi các tác phẩm được sử dụng trong đào tạo, bao gồm cả các tác phẩm có bản quyền, nên chúng không mang tính tùy tiện. Bằng cách này, cách sử dụng từ ngữ ban đầu, cách diễn đạt của tác phẩm gốc sẽ được bảo tồn trong hệ thống AI. Nó có thể được sao chép và phân tích, đồng thời có thể tạo thành cơ sở cho các cách diễn đạt mới (mà, tùy thuộc vào hoàn cảnh cụ thể, có thể được mô tả là “tác phẩm phái sinh” theo cách nói bản quyền). 

LLM giữ lại cách thể hiện của tác phẩm gốc mà họ đã được đào tạo. Chúng hình thành các biểu diễn bên trong của văn bản trong các không gian vectơ được xây dựng có mục đích và, với đầu vào thích hợp làm yếu tố kích hoạt, chúng có thể tái tạo các tác phẩm gốc đã được sử dụng trong quá trình đào tạo của chúng. Các hệ thống AI nhận được lợi ích vĩnh viễn từ nội dung, bao gồm cả nội dung có bản quyền, được sử dụng để đào tạo LLM mà chúng dựa vào. LLM nhận ra ngữ cảnh của các từ dựa trên cách diễn đạt của các từ trong tác phẩm gốc. Và bối cảnh này mang lại lợi ích tích lũy cho hệ thống AI trên hàng nghìn hoặc hàng triệu tác phẩm có bản quyền được sử dụng trong đào tạo. Những tác phẩm gốc này có thể được hệ thống AI tạo lại vì chúng được lưu trữ trong vectơ – biểu diễn không gian vectơ của mã thông báo bảo tồn biểu diễn ngôn ngữ tự nhiên ban đầu của chúng – của tác phẩm có bản quyền. Từ góc độ bản quyền, việc xác định liệu tài liệu đào tạo có được giữ lại trong LLM hay không là trọng tâm của vấn đề và rõ ràng câu trả lời cho câu hỏi đó là có.

Dấu thời gian:

Thêm từ PHỔ THÔNG DỮ LIỆU