เมื่อพิจารณาในช่วง 15 เดือนที่ผ่านมา ความคืบหน้าที่เกิดขึ้นใน generative AI และโมเดลภาษาขนาดใหญ่ (LLM) ภายหลังการเปิดตัวและความพร้อมของ ChatGPT ต่อสาธารณะ ได้ครอบงำพาดหัวข่าว
โครงสร้างหลักสำหรับความคืบหน้านี้คือสถาปัตยกรรมโมเดล Transformer ที่สรุปโดยทีมนักวิจัยของ Google ในบทความเรื่อง “ความสนใจคือสิ่งที่คุณต้องการ” ตามชื่อเรื่อง คุณลักษณะสำคัญของ Transformer ทุกรุ่นคือกลไกของความสนใจ ซึ่งกำหนดไว้ในรายงานดังนี้:
“ฟังก์ชันความสนใจสามารถอธิบายได้ว่าเป็นการจับคู่แบบสอบถามและชุดของคู่คีย์-ค่ากับเอาต์พุต โดยที่แบบสอบถาม คีย์ ค่า และเอาต์พุตเป็นเวกเตอร์ทั้งหมด ผลลัพธ์จะคำนวณเป็นผลรวมถ่วงน้ำหนักของค่า โดยที่น้ำหนักที่กำหนดให้กับแต่ละค่าจะคำนวณโดยฟังก์ชันความเข้ากันได้ของการสืบค้นด้วยคีย์ที่เกี่ยวข้อง”
คุณลักษณะของโมเดล AI เชิงสร้างสรรค์คือการใช้ข้อมูลอินพุตจำนวนมาก ซึ่งอาจประกอบด้วยข้อความ รูปภาพ ไฟล์เสียง ไฟล์วิดีโอ หรืออินพุตใดๆ รวมกัน (กรณีนี้มักเรียกว่า “หลายโมดัล”) จากมุมมองของลิขสิทธิ์ คำถามสำคัญ (จากคำถามสำคัญหลายข้อ) ที่ต้องถามก็คือ เอกสารการฝึกอบรมยังคงอยู่ในนั้นหรือไม่ แบบจำลองภาษาขนาดใหญ่ (LLM) ผลิตโดยผู้จำหน่าย LLM ต่างๆ เพื่อช่วยตอบคำถามนี้ เราต้องเข้าใจว่าข้อความได้รับการประมวลผลอย่างไร การมุ่งเน้นไปที่ข้อความ สิ่งต่อไปนี้เป็นคำอธิบายสั้นๆ ที่ไม่ใช่ทางเทคนิคเกี่ยวกับแง่มุมของการฝึกอบรม LLM
มนุษย์สื่อสารด้วยภาษาธรรมชาติโดยการวางคำตามลำดับ กฎเกณฑ์เกี่ยวกับการเรียงลำดับและรูปแบบเฉพาะของคำจะกำหนดโดยภาษาเฉพาะ (เช่น อังกฤษ) ส่วนสำคัญของสถาปัตยกรรมสำหรับระบบซอฟต์แวร์ทั้งหมดที่ประมวลผลข้อความ (และสำหรับระบบ AI ทั้งหมดที่ทำเช่นนั้น) คือการแสดงข้อความนั้นอย่างไรเพื่อให้สามารถดำเนินการฟังก์ชันต่างๆ ของระบบได้อย่างมีประสิทธิภาพสูงสุด ดังนั้นขั้นตอนสำคัญในการประมวลผลการป้อนข้อความในโมเดลภาษาคือการแบ่งการป้อนข้อมูลของผู้ใช้ออกเป็น "คำ" พิเศษที่ระบบ AI สามารถเข้าใจได้ คำพิเศษเหล่านั้นเรียกว่า "โทเค็น" ส่วนประกอบที่รับผิดชอบซึ่งเรียกว่า "tokenizer" โทเค็นมีหลายประเภท ตัวอย่างเช่น OpenAI และ Azure OpenAI ใช้วิธีการแปลงโทเค็นคำย่อยที่เรียกว่า "Byte-Pair Encoding (BPE)" สำหรับโมเดลที่ใช้ Generative Pretrained Transformer (GPT) BPE เป็นวิธีการที่จะรวมคู่ของอักขระหรือไบต์ที่เกิดขึ้นบ่อยที่สุดให้เป็นโทเค็นเดียว จนกว่าจะถึงจำนวนโทเค็นหรือขนาดคำศัพท์ที่กำหนด ยิ่งขนาดคำศัพท์มีขนาดใหญ่เท่าใด ข้อความที่โมเดลก็สามารถสร้างได้ก็จะมีความหลากหลายและแสดงออกมากขึ้นเท่านั้น
เมื่อระบบ AI จับคู่ข้อความอินพุตเข้ากับโทเค็นแล้ว ระบบจะเข้ารหัสโทเค็นเป็นตัวเลข และแปลงลำดับที่ประมวลผลเป็นเวกเตอร์ที่เรียกว่า "การฝังคำ" เวกเตอร์คือชุดตัวเลขที่เรียงลำดับกัน คุณสามารถมองว่าเวกเตอร์เป็นแถวหรือคอลัมน์ในตารางก็ได้ เวกเตอร์เหล่านี้เป็นตัวแทนของโทเค็นที่รักษาการแสดงภาษาธรรมชาติดั้งเดิมที่ได้รับเป็นข้อความ สิ่งสำคัญคือต้องเข้าใจบทบาทของการฝังคำเมื่อพูดถึงเรื่องลิขสิทธิ์ เนื่องจากการฝังจะเป็นตัวแทน (หรือการเข้ารหัส) ของประโยคทั้งหมด หรือแม้แต่ย่อหน้า ดังนั้น แม้แต่เอกสารทั้งหมดในพื้นที่เวกเตอร์มิติสูง ก็สามารถรวมเวกเตอร์เข้าด้วยกันได้ การฝังเหล่านี้ทำให้ระบบ AI จับและจัดเก็บความหมายและความสัมพันธ์ของคำต่างๆ จากภาษาธรรมชาติ
การฝังถูกนำมาใช้ในทุกงานที่ระบบ AI ทั่วไปดำเนินการ (เช่น การสร้างข้อความ การสรุปข้อความ การจัดหมวดหมู่ข้อความ การแปลข้อความ การสร้างภาพ การสร้างรหัส และอื่นๆ) โดยทั่วไปการฝังคำจะถูกจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ แต่คำอธิบายโดยละเอียดเกี่ยวกับวิธีการจัดเก็บทั้งหมดอยู่นอกเหนือขอบเขตของโพสต์นี้ เนื่องจากมีผู้ขาย กระบวนการ และแนวทางปฏิบัติที่หลากหลายในการใช้งาน
ตามที่กล่าวไว้ LLM เกือบทั้งหมดใช้สถาปัตยกรรม Transformer ซึ่งเรียกใช้กลไกความสนใจ อย่างหลังช่วยให้เทคโนโลยี AI สามารถดูประโยคทั้งหมด และแม้แต่ย่อหน้าโดยรวม แทนที่จะเป็นเพียงลำดับของตัวอักษร ซึ่งช่วยให้ซอฟต์แวร์สามารถจับบริบทต่างๆ ที่อาจเกิดขึ้นกับคำต่างๆ ได้ และเนื่องจากบริบทเหล่านี้ได้มาจากผลงานที่ใช้ในการฝึกอบรม รวมถึงงานที่มีลิขสิทธิ์ จึงไม่ได้เกิดขึ้นโดยอำเภอใจ ด้วยวิธีนี้การใช้คำดั้งเดิมและการแสดงออกของงานต้นฉบับจะถูกเก็บรักษาไว้ในระบบ AI สามารถทำซ้ำและวิเคราะห์ได้ และสามารถสร้างพื้นฐานของสำนวนใหม่ได้ (ซึ่งอาจถูกกำหนดให้เป็น "ผลงานลอกเลียนแบบ" ในสำนวนลิขสิทธิ์ ทั้งนี้ขึ้นอยู่กับสถานการณ์เฉพาะ)
LLM ยังคงรักษาการแสดงออกของผลงานต้นฉบับที่พวกเขาได้รับการฝึกอบรม พวกเขาสร้างการนำเสนอข้อความภายในในพื้นที่เวกเตอร์ที่สร้างขึ้นตามวัตถุประสงค์ และเมื่อได้รับข้อมูลที่เหมาะสมเป็นตัวกระตุ้น พวกเขาก็สามารถทำซ้ำงานต้นฉบับที่ใช้ในการฝึกอบรมได้ ระบบ AI ได้รับประโยชน์อย่างต่อเนื่องจากเนื้อหา รวมถึงเนื้อหาที่มีลิขสิทธิ์ ที่ใช้ในการฝึกอบรม LLM ที่เป็นพื้นฐาน LLM รับรู้บริบทของคำตามการแสดงออกของคำในงานต้นฉบับ และบริบทนี้เป็นประโยชน์สะสมต่อระบบ AI ในงานที่มีลิขสิทธิ์หลายพันรายการหรือหลายล้านรายการที่ใช้ในการฝึกอบรม ผลงานต้นฉบับเหล่านี้สามารถสร้างขึ้นใหม่ได้โดยระบบ AI เนื่องจากงานเหล่านั้นถูกจัดเก็บไว้ในเวกเตอร์ – การแสดงโทเค็นในพื้นที่เวกเตอร์ของโทเค็นที่รักษาการแสดงภาษาธรรมชาติดั้งเดิม – ของงานที่มีลิขสิทธิ์ จากมุมมองของลิขสิทธิ์ การพิจารณาว่าเอกสารการฝึกอบรมจะถูกเก็บรักษาไว้ใน LLM หรือไม่นั้นเป็นหัวใจสำคัญของเรื่องนี้ และเป็นที่ชัดเจนว่าคำตอบสำหรับคำถามนั้นคือใช่
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://www.dataversity.net/heart-of-the-matter-demystifying-copying-in-the-training-of-llms/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- ลด 15%
- a
- เกี่ยวกับเรา
- ข้าม
- Ad
- AI
- โมเดล AI
- ระบบ AI
- ทั้งหมด
- ช่วยให้
- เกือบจะ
- an
- วิเคราะห์
- และ
- คำตอบ
- ใด
- วิธีการ
- เหมาะสม
- โดยพลการ
- สถาปัตยกรรม
- เป็น
- AS
- ถาม
- แง่มุม
- ที่ได้รับมอบหมาย
- At
- ความสนใจ
- เสียง
- ความพร้อมใช้งาน
- สีฟ้า
- ตาม
- รากฐาน
- BE
- เพราะ
- รับ
- ประโยชน์ที่ได้รับ
- เกิน
- ปิดกั้น
- การก่อสร้าง
- แต่
- by
- ที่เรียกว่า
- CAN
- จับ
- จับ
- กรณี
- บาง
- ลักษณะเฉพาะ
- ลักษณะ
- อักขระ
- ChatGPT
- สถานการณ์
- การจัดหมวดหมู่
- ชัดเจน
- รหัส
- คอลัมน์
- การผสมผสาน
- รวม
- มา
- สื่อสาร
- ความเข้ากันได้
- ส่วนประกอบ
- คำนวณ
- การบริโภค
- เนื้อหา
- สิ่งแวดล้อม
- บริบท
- การทำสำเนา
- ลิขสิทธิ์
- ตรงกัน
- ได้
- ข้อมูล
- ฐานข้อมูล
- ข้อมูล
- กำหนด
- ทั้งนี้ขึ้นอยู่กับ
- ได้มา
- อธิบาย
- ลักษณะ
- รายละเอียด
- การกำหนด
- ตามคำบอก
- หลาย
- DM
- do
- เอกสาร
- ครอบงำ
- e
- แต่ละ
- อย่างมีประสิทธิภาพ
- การเข้ารหัส
- ภาษาอังกฤษ
- ทั้งหมด
- ได้รับสิทธิ
- จำเป็น
- อีเธอร์ (ETH)
- แม้
- เหตุการณ์
- ทุกๆ
- เผง
- ตัวอย่าง
- การแสดงออก
- การแสดงออก
- ที่แสดงออก
- ลักษณะ
- ไฟล์
- โดยมุ่งเน้น
- ดังต่อไปนี้
- ดังต่อไปนี้
- สำหรับ
- ฟอร์ม
- มัก
- ราคาเริ่มต้นที่
- ฟังก์ชัน
- ฟังก์ชั่น
- สร้าง
- รุ่น
- กำเนิด
- กำเนิด AI
- กำหนด
- มี
- พาดหัวข่าว
- หัวใจสำคัญ
- ช่วย
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- ภาพ
- การสร้างภาพ
- ภาพ
- สำคัญ
- in
- รวมทั้ง
- อินพุต
- ปัจจัยการผลิต
- ภายใน
- เข้าไป
- บทนำ
- จะเรียก
- IT
- คีย์
- กุญแจ
- ภาษา
- ใหญ่
- ที่มีขนาดใหญ่
- llm
- ทำ
- หลาย
- การทำแผนที่
- มาก
- วัสดุ
- เรื่อง
- อาจ..
- ความหมาย
- กลไก
- กล่าวถึง
- Mers
- ผสาน
- วิธี
- ล้าน
- แบบ
- โมเดล
- เดือน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- โดยธรรมชาติ
- ภาษาธรรมชาติ
- จำเป็นต้อง
- ประสาทไอพีเอส
- ใหม่
- จดหมายข่าว
- ไม่ใช่เทคนิค
- จำนวน
- ตัวเลข
- เกิดขึ้น
- ที่เกิดขึ้น
- of
- on
- OpenAI
- or
- เป็นต้นฉบับ
- ที่ระบุไว้
- เอาท์พุต
- คู่
- กระดาษ
- ส่วนหนึ่ง
- อดีต
- รูปแบบไฟล์ PDF
- ดำเนินการ
- ดำเนินการ
- ตลอดกาล
- มุมมอง
- การวาง
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- โพสต์
- จวน
- การปฏิบัติ
- ดอง
- กระบวนการ
- การประมวลผล
- กระบวนการ
- การประมวลผล
- ผลิต
- ความคืบหน้า
- ให้
- สาธารณะ
- การสอบถาม
- คำถาม
- คำถาม
- ค่อนข้าง
- ถึง
- รับรู้
- เรียกว่า
- ความสัมพันธ์
- แสดง
- การแสดง
- นักวิจัย
- รับผิดชอบ
- รักษา
- เก็บไว้
- บทบาท
- แถว
- กฎระเบียบ
- ขอบเขต
- ลำดับ
- ชุด
- เดียว
- ขนาด
- So
- ซอฟต์แวร์
- ช่องว่าง
- ช่องว่าง
- พิเศษ
- โดยเฉพาะ
- ขั้นตอน
- การเก็บรักษา
- เก็บไว้
- ร้านค้า
- ชี้ให้เห็นถึง
- รวม
- ระบบ
- ระบบ
- ตาราง
- งาน
- ทีม
- เทคโนโลยี
- ข้อความ
- การจัดประเภทข้อความ
- การสร้างข้อความ
- เกี่ยวกับใจความ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- ที่นั่น
- ดังนั้น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- คิด
- นี้
- เหล่านั้น
- พัน
- ตลอด
- ชื่อหนังสือ
- ไปยัง
- โทเค็น
- tokenization
- ราชสกุล
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- หม้อแปลงไฟฟ้า
- การแปลภาษา
- เรียก
- ชนิด
- เข้าใจ
- จนกระทั่ง
- เมื่อ
- ใช้
- มือสอง
- ผู้ใช้งาน
- มักจะ
- ความคุ้มค่า
- ความคุ้มค่า
- ความหลากหลาย
- ต่างๆ
- ผู้ขาย
- วีดีโอ
- รายละเอียด
- ดู
- คือ
- ทาง..
- we
- รายสัปดาห์
- น้ำหนัก
- คือ
- อะไร
- เมื่อ
- ว่า
- ที่
- ทั้งหมด
- กว้าง
- กับ
- ภายใน
- คำ
- คำ
- งาน
- โรงงาน
- ใช่
- เธอ
- ลมทะเล