หัวใจสำคัญของเรื่อง: การทำความเข้าใจการคัดลอกในการฝึกอบรม LLM อย่างกระจ่างชัด - ข้อมูล

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เมื่อพิจารณาในช่วง 15 เดือนที่ผ่านมา ความคืบหน้าที่เกิดขึ้นใน generative AI และโมเดลภาษาขนาดใหญ่ (LLM) ภายหลังการเปิดตัวและความพร้อมของ ChatGPT ต่อสาธารณะ ได้ครอบงำพาดหัวข่าว

โครงสร้างหลักสำหรับความคืบหน้านี้คือสถาปัตยกรรมโมเดล Transformer ที่สรุปโดยทีมนักวิจัยของ Google ในบทความเรื่อง “ความสนใจคือสิ่งที่คุณต้องการ” ตามชื่อเรื่อง คุณลักษณะสำคัญของ Transformer ทุกรุ่นคือกลไกของความสนใจ ซึ่งกำหนดไว้ในรายงานดังนี้:

“ฟังก์ชันความสนใจสามารถอธิบายได้ว่าเป็นการจับคู่แบบสอบถามและชุดของคู่คีย์-ค่ากับเอาต์พุต โดยที่แบบสอบถาม คีย์ ค่า และเอาต์พุตเป็นเวกเตอร์ทั้งหมด ผลลัพธ์จะคำนวณเป็นผลรวมถ่วงน้ำหนักของค่า โดยที่น้ำหนักที่กำหนดให้กับแต่ละค่าจะคำนวณโดยฟังก์ชันความเข้ากันได้ของการสืบค้นด้วยคีย์ที่เกี่ยวข้อง”

คุณลักษณะของโมเดล AI เชิงสร้างสรรค์คือการใช้ข้อมูลอินพุตจำนวนมาก ซึ่งอาจประกอบด้วยข้อความ รูปภาพ ไฟล์เสียง ไฟล์วิดีโอ หรืออินพุตใดๆ รวมกัน (กรณีนี้มักเรียกว่า “หลายโมดัล”) จากมุมมองของลิขสิทธิ์ คำถามสำคัญ (จากคำถามสำคัญหลายข้อ) ที่ต้องถามก็คือ เอกสารการฝึกอบรมยังคงอยู่ในนั้นหรือไม่ แบบจำลองภาษาขนาดใหญ่ (LLM) ผลิตโดยผู้จำหน่าย LLM ต่างๆ เพื่อช่วยตอบคำถามนี้ เราต้องเข้าใจว่าข้อความได้รับการประมวลผลอย่างไร การมุ่งเน้นไปที่ข้อความ สิ่งต่อไปนี้เป็นคำอธิบายสั้นๆ ที่ไม่ใช่ทางเทคนิคเกี่ยวกับแง่มุมของการฝึกอบรม LLM

มนุษย์สื่อสารด้วยภาษาธรรมชาติโดยการวางคำตามลำดับ กฎเกณฑ์เกี่ยวกับการเรียงลำดับและรูปแบบเฉพาะของคำจะกำหนดโดยภาษาเฉพาะ (เช่น อังกฤษ) ส่วนสำคัญของสถาปัตยกรรมสำหรับระบบซอฟต์แวร์ทั้งหมดที่ประมวลผลข้อความ (และสำหรับระบบ AI ทั้งหมดที่ทำเช่นนั้น) คือการแสดงข้อความนั้นอย่างไรเพื่อให้สามารถดำเนินการฟังก์ชันต่างๆ ของระบบได้อย่างมีประสิทธิภาพสูงสุด ดังนั้นขั้นตอนสำคัญในการประมวลผลการป้อนข้อความในโมเดลภาษาคือการแบ่งการป้อนข้อมูลของผู้ใช้ออกเป็น "คำ" พิเศษที่ระบบ AI สามารถเข้าใจได้ คำพิเศษเหล่านั้นเรียกว่า "โทเค็น" ส่วนประกอบที่รับผิดชอบซึ่งเรียกว่า "tokenizer" โทเค็นมีหลายประเภท ตัวอย่างเช่น OpenAI และ Azure OpenAI ใช้วิธีการแปลงโทเค็นคำย่อยที่เรียกว่า "Byte-Pair Encoding (BPE)" สำหรับโมเดลที่ใช้ Generative Pretrained Transformer (GPT) BPE เป็นวิธีการที่จะรวมคู่ของอักขระหรือไบต์ที่เกิดขึ้นบ่อยที่สุดให้เป็นโทเค็นเดียว จนกว่าจะถึงจำนวนโทเค็นหรือขนาดคำศัพท์ที่กำหนด ยิ่งขนาดคำศัพท์มีขนาดใหญ่เท่าใด ข้อความที่โมเดลก็สามารถสร้างได้ก็จะมีความหลากหลายและแสดงออกมากขึ้นเท่านั้น

เมื่อระบบ AI จับคู่ข้อความอินพุตเข้ากับโทเค็นแล้ว ระบบจะเข้ารหัสโทเค็นเป็นตัวเลข และแปลงลำดับที่ประมวลผลเป็นเวกเตอร์ที่เรียกว่า "การฝังคำ" เวกเตอร์คือชุดตัวเลขที่เรียงลำดับกัน คุณสามารถมองว่าเวกเตอร์เป็นแถวหรือคอลัมน์ในตารางก็ได้ เวกเตอร์เหล่านี้เป็นตัวแทนของโทเค็นที่รักษาการแสดงภาษาธรรมชาติดั้งเดิมที่ได้รับเป็นข้อความ สิ่งสำคัญคือต้องเข้าใจบทบาทของการฝังคำเมื่อพูดถึงเรื่องลิขสิทธิ์ เนื่องจากการฝังจะเป็นตัวแทน (หรือการเข้ารหัส) ของประโยคทั้งหมด หรือแม้แต่ย่อหน้า ดังนั้น แม้แต่เอกสารทั้งหมดในพื้นที่เวกเตอร์มิติสูง ก็สามารถรวมเวกเตอร์เข้าด้วยกันได้ การฝังเหล่านี้ทำให้ระบบ AI จับและจัดเก็บความหมายและความสัมพันธ์ของคำต่างๆ จากภาษาธรรมชาติ

การฝังถูกนำมาใช้ในทุกงานที่ระบบ AI ทั่วไปดำเนินการ (เช่น การสร้างข้อความ การสรุปข้อความ การจัดหมวดหมู่ข้อความ การแปลข้อความ การสร้างภาพ การสร้างรหัส และอื่นๆ) โดยทั่วไปการฝังคำจะถูกจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ แต่คำอธิบายโดยละเอียดเกี่ยวกับวิธีการจัดเก็บทั้งหมดอยู่นอกเหนือขอบเขตของโพสต์นี้ เนื่องจากมีผู้ขาย กระบวนการ และแนวทางปฏิบัติที่หลากหลายในการใช้งาน

ตามที่กล่าวไว้ LLM เกือบทั้งหมดใช้สถาปัตยกรรม Transformer ซึ่งเรียกใช้กลไกความสนใจ อย่างหลังช่วยให้เทคโนโลยี AI สามารถดูประโยคทั้งหมด และแม้แต่ย่อหน้าโดยรวม แทนที่จะเป็นเพียงลำดับของตัวอักษร ซึ่งช่วยให้ซอฟต์แวร์สามารถจับบริบทต่างๆ ที่อาจเกิดขึ้นกับคำต่างๆ ได้ และเนื่องจากบริบทเหล่านี้ได้มาจากผลงานที่ใช้ในการฝึกอบรม รวมถึงงานที่มีลิขสิทธิ์ จึงไม่ได้เกิดขึ้นโดยอำเภอใจ ด้วยวิธีนี้การใช้คำดั้งเดิมและการแสดงออกของงานต้นฉบับจะถูกเก็บรักษาไว้ในระบบ AI สามารถทำซ้ำและวิเคราะห์ได้ และสามารถสร้างพื้นฐานของสำนวนใหม่ได้ (ซึ่งอาจถูกกำหนดให้เป็น "ผลงานลอกเลียนแบบ" ในสำนวนลิขสิทธิ์ ทั้งนี้ขึ้นอยู่กับสถานการณ์เฉพาะ)

LLM ยังคงรักษาการแสดงออกของผลงานต้นฉบับที่พวกเขาได้รับการฝึกอบรม พวกเขาสร้างการนำเสนอข้อความภายในในพื้นที่เวกเตอร์ที่สร้างขึ้นตามวัตถุประสงค์ และเมื่อได้รับข้อมูลที่เหมาะสมเป็นตัวกระตุ้น พวกเขาก็สามารถทำซ้ำงานต้นฉบับที่ใช้ในการฝึกอบรมได้ ระบบ AI ได้รับประโยชน์อย่างต่อเนื่องจากเนื้อหา รวมถึงเนื้อหาที่มีลิขสิทธิ์ ที่ใช้ในการฝึกอบรม LLM ที่เป็นพื้นฐาน LLM รับรู้บริบทของคำตามการแสดงออกของคำในงานต้นฉบับ และบริบทนี้เป็นประโยชน์สะสมต่อระบบ AI ในงานที่มีลิขสิทธิ์หลายพันรายการหรือหลายล้านรายการที่ใช้ในการฝึกอบรม ผลงานต้นฉบับเหล่านี้สามารถสร้างขึ้นใหม่ได้โดยระบบ AI เนื่องจากงานเหล่านั้นถูกจัดเก็บไว้ในเวกเตอร์ – การแสดงโทเค็นในพื้นที่เวกเตอร์ของโทเค็นที่รักษาการแสดงภาษาธรรมชาติดั้งเดิม – ของงานที่มีลิขสิทธิ์ จากมุมมองของลิขสิทธิ์ การพิจารณาว่าเอกสารการฝึกอบรมจะถูกเก็บรักษาไว้ใน LLM หรือไม่นั้นเป็นหัวใจสำคัญของเรื่องนี้ และเป็นที่ชัดเจนว่าคำตอบสำหรับคำถามนั้นคือใช่

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/

ประทับเวลา: กุมภาพันธ์ 2, 2024

ประทับเวลา: ธันวาคม 14, 2023

เผยแพร่ซ้ำโดยเพลโต

การสาธิต DataStax: การสร้างไปป์ไลน์ข้อมูลการสตรีมที่มีประสิทธิภาพด้วย Apache Cassandra และ Apache Pulsar

อาชีพของฉันในข้อมูลตอนที่ 46: Cynthia Cain Fitzgerald ผู้จัดการมหาวิทยาลัย Business Intelligence Analytics มหาวิทยาลัย Antioch - DATAVERSITY

สิ่งที่คาดหวังในปี 2024: การครอบงำของสถาปัตยกรรมไฮบริดและมัลติคลาวด์ – DATAVERSITY

My Career in Data Season 2 ตอนที่ 2: John Ladley อาจารย์ใหญ่ Sonrai – DATAVERSITY

data.world ผสานรวมกับ Snowflake เพื่อมอบตัวชี้วัดคุณภาพข้อมูลใหม่ – DATAVERSITY

12 ธันวาคม Data-Ed Webinar: แนวทางปฏิบัติที่ดีที่สุดในการจัดการข้อมูล - DATAVERSITY

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้