หัวใจสำคัญของเรื่อง: การทำความเข้าใจการคัดลอกอย่างกระจ่างชัดในการฝึกอบรม LLM - DATAVERSITY

หัวใจของเรื่อง: การทำความเข้าใจการคัดลอกในการฝึกอบรม LLMs – DATAVERSITY

โหนดต้นทาง: 3093102

เมื่อพิจารณาในช่วง 15 เดือนที่ผ่านมา ความคืบหน้าที่เกิดขึ้นใน generative AI และโมเดลภาษาขนาดใหญ่ (LLM) ภายหลังการเปิดตัวและความพร้อมของ ChatGPT ต่อสาธารณะ ได้ครอบงำพาดหัวข่าว 

โครงสร้างหลักสำหรับความคืบหน้านี้คือสถาปัตยกรรมโมเดล Transformer ที่สรุปโดยทีมนักวิจัยของ Google ในบทความเรื่อง “ความสนใจคือสิ่งที่คุณต้องการ” ตามชื่อเรื่อง คุณลักษณะสำคัญของ Transformer ทุกรุ่นคือกลไกของความสนใจ ซึ่งกำหนดไว้ในรายงานดังนี้:

“ฟังก์ชันความสนใจสามารถอธิบายได้ว่าเป็นการจับคู่แบบสอบถามและชุดของคู่คีย์-ค่ากับเอาต์พุต โดยที่แบบสอบถาม คีย์ ค่า และเอาต์พุตเป็นเวกเตอร์ทั้งหมด ผลลัพธ์จะคำนวณเป็นผลรวมถ่วงน้ำหนักของค่า โดยที่น้ำหนักที่กำหนดให้กับแต่ละค่าจะคำนวณโดยฟังก์ชันความเข้ากันได้ของการสืบค้นด้วยคีย์ที่เกี่ยวข้อง”

คุณลักษณะของโมเดล AI เชิงสร้างสรรค์คือการใช้ข้อมูลอินพุตจำนวนมาก ซึ่งอาจประกอบด้วยข้อความ รูปภาพ ไฟล์เสียง ไฟล์วิดีโอ หรืออินพุตใดๆ รวมกัน (กรณีนี้มักเรียกว่า “หลายโมดัล”) จากมุมมองของลิขสิทธิ์ คำถามสำคัญ (จากคำถามสำคัญหลายข้อ) ที่ต้องถามก็คือ เอกสารการฝึกอบรมยังคงอยู่ในนั้นหรือไม่ แบบจำลองภาษาขนาดใหญ่ (LLM) ผลิตโดยผู้จำหน่าย LLM ต่างๆ เพื่อช่วยตอบคำถามนี้ เราต้องเข้าใจว่าข้อความได้รับการประมวลผลอย่างไร การมุ่งเน้นไปที่ข้อความ สิ่งต่อไปนี้เป็นคำอธิบายสั้นๆ ที่ไม่ใช่ทางเทคนิคเกี่ยวกับแง่มุมของการฝึกอบรม LLM 

มนุษย์สื่อสารด้วยภาษาธรรมชาติโดยการวางคำตามลำดับ กฎเกณฑ์เกี่ยวกับการเรียงลำดับและรูปแบบเฉพาะของคำจะกำหนดโดยภาษาเฉพาะ (เช่น อังกฤษ) ส่วนสำคัญของสถาปัตยกรรมสำหรับระบบซอฟต์แวร์ทั้งหมดที่ประมวลผลข้อความ (และสำหรับระบบ AI ทั้งหมดที่ทำเช่นนั้น) คือการแสดงข้อความนั้นอย่างไรเพื่อให้สามารถดำเนินการฟังก์ชันต่างๆ ของระบบได้อย่างมีประสิทธิภาพสูงสุด ดังนั้นขั้นตอนสำคัญในการประมวลผลการป้อนข้อความในโมเดลภาษาคือการแบ่งการป้อนข้อมูลของผู้ใช้ออกเป็น "คำ" พิเศษที่ระบบ AI สามารถเข้าใจได้ คำพิเศษเหล่านั้นเรียกว่า "โทเค็น" ส่วนประกอบที่รับผิดชอบซึ่งเรียกว่า "tokenizer" โทเค็นมีหลายประเภท ตัวอย่างเช่น OpenAI และ Azure OpenAI ใช้วิธีการแปลงโทเค็นคำย่อยที่เรียกว่า "Byte-Pair Encoding (BPE)" สำหรับโมเดลที่ใช้ Generative Pretrained Transformer (GPT) BPE เป็นวิธีการที่จะรวมคู่ของอักขระหรือไบต์ที่เกิดขึ้นบ่อยที่สุดให้เป็นโทเค็นเดียว จนกว่าจะถึงจำนวนโทเค็นหรือขนาดคำศัพท์ที่กำหนด ยิ่งขนาดคำศัพท์มีขนาดใหญ่เท่าใด ข้อความที่โมเดลก็สามารถสร้างได้ก็จะมีความหลากหลายและแสดงออกมากขึ้นเท่านั้น

เมื่อระบบ AI จับคู่ข้อความอินพุตเข้ากับโทเค็นแล้ว ระบบจะเข้ารหัสโทเค็นเป็นตัวเลข และแปลงลำดับที่ประมวลผลเป็นเวกเตอร์ที่เรียกว่า "การฝังคำ" เวกเตอร์คือชุดตัวเลขที่เรียงลำดับกัน คุณสามารถมองว่าเวกเตอร์เป็นแถวหรือคอลัมน์ในตารางก็ได้ เวกเตอร์เหล่านี้เป็นตัวแทนของโทเค็นที่รักษาการแสดงภาษาธรรมชาติดั้งเดิมที่ได้รับเป็นข้อความ สิ่งสำคัญคือต้องเข้าใจบทบาทของการฝังคำเมื่อพูดถึงเรื่องลิขสิทธิ์ เนื่องจากการฝังจะเป็นตัวแทน (หรือการเข้ารหัส) ของประโยคทั้งหมด หรือแม้แต่ย่อหน้า ดังนั้น แม้แต่เอกสารทั้งหมดในพื้นที่เวกเตอร์มิติสูง ก็สามารถรวมเวกเตอร์เข้าด้วยกันได้ การฝังเหล่านี้ทำให้ระบบ AI จับและจัดเก็บความหมายและความสัมพันธ์ของคำต่างๆ จากภาษาธรรมชาติ 

การฝังถูกนำมาใช้ในทุกงานที่ระบบ AI ทั่วไปดำเนินการ (เช่น การสร้างข้อความ การสรุปข้อความ การจัดหมวดหมู่ข้อความ การแปลข้อความ การสร้างภาพ การสร้างรหัส และอื่นๆ) โดยทั่วไปการฝังคำจะถูกจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ แต่คำอธิบายโดยละเอียดเกี่ยวกับวิธีการจัดเก็บทั้งหมดอยู่นอกเหนือขอบเขตของโพสต์นี้ เนื่องจากมีผู้ขาย กระบวนการ และแนวทางปฏิบัติที่หลากหลายในการใช้งาน

ตามที่กล่าวไว้ LLM เกือบทั้งหมดใช้สถาปัตยกรรม Transformer ซึ่งเรียกใช้กลไกความสนใจ อย่างหลังช่วยให้เทคโนโลยี AI สามารถดูประโยคทั้งหมด และแม้แต่ย่อหน้าโดยรวม แทนที่จะเป็นเพียงลำดับของตัวอักษร ซึ่งช่วยให้ซอฟต์แวร์สามารถจับบริบทต่างๆ ที่อาจเกิดขึ้นกับคำต่างๆ ได้ และเนื่องจากบริบทเหล่านี้ได้มาจากผลงานที่ใช้ในการฝึกอบรม รวมถึงงานที่มีลิขสิทธิ์ จึงไม่ได้เกิดขึ้นโดยอำเภอใจ ด้วยวิธีนี้การใช้คำดั้งเดิมและการแสดงออกของงานต้นฉบับจะถูกเก็บรักษาไว้ในระบบ AI สามารถทำซ้ำและวิเคราะห์ได้ และสามารถสร้างพื้นฐานของสำนวนใหม่ได้ (ซึ่งอาจถูกกำหนดให้เป็น "ผลงานลอกเลียนแบบ" ในสำนวนลิขสิทธิ์ ทั้งนี้ขึ้นอยู่กับสถานการณ์เฉพาะ) 

LLM ยังคงรักษาการแสดงออกของผลงานต้นฉบับที่พวกเขาได้รับการฝึกอบรม พวกเขาสร้างการนำเสนอข้อความภายในในพื้นที่เวกเตอร์ที่สร้างขึ้นตามวัตถุประสงค์ และเมื่อได้รับข้อมูลที่เหมาะสมเป็นตัวกระตุ้น พวกเขาก็สามารถทำซ้ำงานต้นฉบับที่ใช้ในการฝึกอบรมได้ ระบบ AI ได้รับประโยชน์อย่างต่อเนื่องจากเนื้อหา รวมถึงเนื้อหาที่มีลิขสิทธิ์ ที่ใช้ในการฝึกอบรม LLM ที่เป็นพื้นฐาน LLM รับรู้บริบทของคำตามการแสดงออกของคำในงานต้นฉบับ และบริบทนี้เป็นประโยชน์สะสมต่อระบบ AI ในงานที่มีลิขสิทธิ์หลายพันรายการหรือหลายล้านรายการที่ใช้ในการฝึกอบรม ผลงานต้นฉบับเหล่านี้สามารถสร้างขึ้นใหม่ได้โดยระบบ AI เนื่องจากงานเหล่านั้นถูกจัดเก็บไว้ในเวกเตอร์ – การแสดงโทเค็นในพื้นที่เวกเตอร์ของโทเค็นที่รักษาการแสดงภาษาธรรมชาติดั้งเดิม – ของงานที่มีลิขสิทธิ์ จากมุมมองของลิขสิทธิ์ การพิจารณาว่าเอกสารการฝึกอบรมจะถูกเก็บรักษาไว้ใน LLM หรือไม่นั้นเป็นหัวใจสำคัญของเรื่องนี้ และเป็นที่ชัดเจนว่าคำตอบสำหรับคำถามนั้นคือใช่

ประทับเวลา:

เพิ่มเติมจาก ข้อมูล