ทฤษฎีใหม่ชี้ว่า Chatbot สามารถเข้าใจข้อความได้

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ปัญญาประดิษฐ์ดูทรงพลังกว่าที่เคย ด้วยแชทบอทอย่าง Bard และ ChatGPT ที่สามารถสร้างข้อความที่มีลักษณะเหมือนมนุษย์อย่างเหลือเชื่อ แต่สำหรับความสามารถทั้งหมดของพวกเขา บอทเหล่านี้ยังคงทำให้นักวิจัยสงสัยว่า: ทำโมเดลดังกล่าว เข้าใจจริงๆ พวกเขากำลังพูดอะไร? “เห็นได้ชัดว่ามีบางคนเชื่อว่าตนเชื่อ” ผู้บุกเบิกด้าน AI กล่าว เจฟฟ์ ฮินตัน ใน บทสนทนาล่าสุด กับ Andrew Ng “และบางคนเชื่อว่าพวกเขาเป็นเพียงนกแก้วสุ่ม”

วลีนี้มาจากปี 2021 กระดาษ ร่วมเขียนโดย เอมิลี่เบนเดอร์, นักภาษาศาสตร์เชิงคอมพิวเตอร์แห่งมหาวิทยาลัยวอชิงตัน โดยแนะนำว่าโมเดลภาษาขนาดใหญ่ (LLM) ซึ่งเป็นพื้นฐานของแชทบอทยุคใหม่ สร้างข้อความโดยการรวมข้อมูลที่พวกเขาได้เห็นแล้ว “โดยไม่มีการอ้างอิงถึงความหมาย” ผู้เขียนเขียน ซึ่งทำให้ LLM “เป็นนกแก้วสุ่ม”

โมเดลเหล่านี้ขับเคลื่อนแชทบอทที่ใหญ่ที่สุดและดีที่สุดในปัจจุบันจำนวนมาก ดังนั้น Hinton จึงแย้งว่าถึงเวลาที่จะต้องกำหนดขอบเขตของสิ่งที่พวกเขาเข้าใจ สำหรับเขาแล้ว คำถามนี้มีมากกว่าเรื่องวิชาการ “ตราบใดที่เรามีความแตกต่าง” ของความคิดเห็น เขากล่าวกับอึ้ง “เราจะไม่สามารถตกลงเป็นเอกฉันท์เกี่ยวกับอันตรายได้”

การวิจัยใหม่อาจมีคำตอบที่ชัดเจน ทฤษฎีที่พัฒนาโดย Arora Sanjeev ของมหาวิทยาลัยพรินซ์ตัน และ อนิรุธ โกยัลซึ่งเป็นนักวิทยาศาสตร์การวิจัยที่ Google DeepMind แนะนำว่า LLM ที่ใหญ่ที่สุดในปัจจุบันไม่ใช่นกแก้วสุ่ม ผู้เขียนโต้แย้งว่าเมื่อแบบจำลองเหล่านี้มีขนาดใหญ่ขึ้นและได้รับการฝึกอบรมโดยใช้ข้อมูลมากขึ้น แบบจำลองเหล่านี้จะปรับปรุงความสามารถที่เกี่ยวข้องกับภาษาของแต่ละบุคคล และยังพัฒนาความสามารถใหม่ๆ ด้วยการรวมทักษะในลักษณะที่บ่งบอกถึงความเข้าใจ ซึ่งเป็นการผสมผสานที่ไม่น่าจะมีอยู่ในข้อมูลการฝึกอบรม .

วิธีการทางทฤษฎีนี้ ซึ่งให้ข้อโต้แย้งที่พิสูจน์ได้ทางคณิตศาสตร์ว่า LLM สามารถพัฒนาความสามารถมากมายได้อย่างไรและทำไม ทำให้ผู้เชี่ยวชาญอย่าง Hinton และคนอื่นๆ เชื่อมั่น และเมื่อ Arora และทีมของเขาทดสอบการคาดการณ์บางอย่าง พวกเขาก็พบว่าแบบจำลองเหล่านี้ทำงานได้เกือบจะตรงตามที่คาดไว้ จากเรื่องราวทั้งหมด พวกเขาได้สร้างกรณีที่ชัดเจนว่า LLM ที่ใหญ่ที่สุดไม่ใช่แค่การนกแก้วในสิ่งที่พวกเขาเคยเห็นมาก่อน

“[พวกเขา] ไม่สามารถเพียงเลียนแบบสิ่งที่เห็นในข้อมูลการฝึกอบรมได้” กล่าว เซบาสเตียน บูเบคนักคณิตศาสตร์และนักวิทยาศาสตร์คอมพิวเตอร์ที่ Microsoft Research ซึ่งไม่ได้เป็นส่วนหนึ่งของงานนี้ “นั่นคือความเข้าใจพื้นฐาน”

ข้อมูลมากขึ้น พลังมากขึ้น

การเกิดขึ้นของ ความสามารถที่คาดไม่ถึงและหลากหลาย พูดได้อย่างยุติธรรมใน LLM ว่าเป็นเรื่องที่น่าประหลาดใจ ความสามารถเหล่านี้ไม่ใช่ผลลัพธ์ที่ชัดเจนของวิธีสร้างและฝึกอบรมระบบ LLM คือโครงข่ายประสาทเทียมขนาดใหญ่ที่เชื่อมต่อเซลล์ประสาทเทียมแต่ละตัว การเชื่อมต่อเหล่านี้เรียกว่าพารามิเตอร์ของโมเดล และหมายเลขของการเชื่อมต่อเหล่านี้แสดงถึงขนาดของ LLM การฝึกอบรมเกี่ยวข้องกับการให้ประโยค LLM โดยปิดบังคำสุดท้ายไว้ เช่น “เชื้อเพลิงมีราคาแขนและ ___” LLM ทำนายการกระจายความน่าจะเป็นของคำศัพท์ทั้งหมด ดังนั้นหากรู้หรือพูดได้หนึ่งพันคำ ก็จะทำนายความน่าจะเป็นได้หนึ่งพันคำ จากนั้นจะเลือกคำที่มีแนวโน้มมากที่สุดในการเติมประโยคให้สมบูรณ์ — สมมุติว่า “ขา”

ในตอนแรก LLM อาจเลือกคำได้ไม่ดี จากนั้นอัลกอริธึมการฝึกอบรมจะคำนวณการสูญเสีย — ระยะทางในพื้นที่ทางคณิตศาสตร์มิติสูงระหว่างคำตอบของ LLM และคำจริงในประโยคต้นฉบับ — และใช้การสูญเสียนี้เพื่อปรับแต่งพารามิเตอร์ เมื่อพิจารณาจากประโยคเดียวกัน LLM จะคำนวณการแจกแจงความน่าจะเป็นที่ดีขึ้น และความสูญเสียจะลดลงเล็กน้อย อัลกอริธึมทำเช่นนี้กับทุกๆ ประโยคในข้อมูลการฝึกอบรม (อาจเป็นพันล้านประโยค) จนกว่าการสูญเสียโดยรวมของ LLM จะลดลงสู่ระดับที่ยอมรับได้ กระบวนการที่คล้ายกันนี้ใช้เพื่อทดสอบ LLM ในประโยคที่ไม่ได้เป็นส่วนหนึ่งของข้อมูลการฝึกอบรม

LLM ที่ได้รับการฝึกอบรมและทดสอบแล้ว เมื่อนำเสนอพร้อมข้อความใหม่ จะสร้างคำถัดไปที่น่าจะเป็นไปได้มากที่สุด ผนวกเข้ากับพร้อมท์ สร้างคำถัดไปอีก และดำเนินการต่อในลักษณะนี้ โดยสร้างการตอบกลับที่ดูเหมือนสอดคล้องกัน ไม่มีสิ่งใดในกระบวนการฝึกอบรมที่แนะนำว่า LLM ที่ใหญ่กว่าซึ่งสร้างขึ้นโดยใช้พารามิเตอร์และข้อมูลการฝึกอบรมที่มากขึ้น ควรปรับปรุงในงานที่ต้องใช้เหตุผลในการตอบ

แต่พวกเขาทำ LLM ที่ใหญ่เพียงพอแสดงให้เห็นถึงความสามารถต่างๆ ตั้งแต่การแก้ปัญหาคณิตศาสตร์เบื้องต้นไปจนถึงการตอบคำถามเกี่ยวกับสิ่งที่อยู่ในใจของผู้อื่น ซึ่งรุ่นเล็กไม่มี แม้ว่าพวกเขาทั้งหมดจะได้รับการฝึกในลักษณะเดียวกันก็ตาม

“ [ความสามารถ] นั้นมาจากไหน?” อาโรร่าสงสัย “และนั่นจะเกิดขึ้นจากการทำนายคำถัดไปได้หรือไม่”

การเชื่อมต่อทักษะเข้ากับข้อความ

Arora ร่วมมือกับ Goyal เพื่อตอบคำถามดังกล่าวในเชิงวิเคราะห์ “เรากำลังพยายามสร้างกรอบทางทฤษฎีขึ้นมาเพื่อทำความเข้าใจว่าการเกิดขึ้นเกิดขึ้นได้อย่างไร” อาโรรากล่าว

ทั้งคู่หันไปหาวัตถุทางคณิตศาสตร์ที่เรียกว่ากราฟสุ่ม กราฟคือกลุ่มของจุด (หรือโหนด) ที่เชื่อมต่อกันด้วยเส้น (หรือขอบ) และในกราฟแบบสุ่ม การมีอยู่ของขอบระหว่างสองโหนดใดๆ จะถูกกำหนดแบบสุ่ม เช่น โดยการพลิกเหรียญ เหรียญสามารถมีอคติได้ ดังนั้นมันจึงมีความน่าจะเป็นอยู่บ้าง p. ถ้าเหรียญขึ้นหัวสำหรับคู่ของโหนดที่กำหนด ขอบจะเกิดขึ้นระหว่างสองโหนดนั้น มิฉะนั้นพวกเขาจะยังคงไม่เชื่อมต่อกัน เป็นมูลค่าของ p การเปลี่ยนแปลง กราฟสามารถแสดงการเปลี่ยนแปลงอย่างฉับพลันในคุณสมบัติได้. ตัวอย่างเช่นเมื่อ p เกินเกณฑ์ที่กำหนด โหนดที่แยกออกมา — ที่ไม่ได้เชื่อมต่อกับโหนดอื่น — จะหายไปทันที

Arora และ Goyal ตระหนักว่ากราฟสุ่มซึ่งก่อให้เกิดพฤติกรรมที่ไม่คาดคิดหลังจากที่กราฟเหล่านี้ถึงเกณฑ์ที่กำหนด อาจเป็นวิธีการสร้างแบบจำลองพฤติกรรมของ LLM โครงข่ายประสาทเทียมเกือบจะซับซ้อนเกินกว่าจะวิเคราะห์ได้ แต่นักคณิตศาสตร์ได้ศึกษากราฟแบบสุ่มมาเป็นเวลานานและได้พัฒนาเครื่องมือต่างๆ เพื่อวิเคราะห์กราฟเหล่านั้น บางทีทฤษฎีกราฟสุ่มอาจช่วยให้นักวิจัยเข้าใจและคาดการณ์พฤติกรรมที่ไม่คาดคิดของ LLM ขนาดใหญ่ได้

นักวิจัยตัดสินใจที่จะมุ่งเน้นไปที่กราฟ "สองฝ่าย" ซึ่งมีโหนดสองประเภท ในโมเดลของพวกเขา โหนดประเภทหนึ่งแสดงถึงชิ้นส่วนของข้อความ ไม่ใช่คำเดี่ยวๆ แต่เป็นชิ้นที่อาจมีความยาวหนึ่งย่อหน้าหรือยาวสองสามหน้า โหนดเหล่านี้จัดเรียงเป็นเส้นตรง ด้านล่างอีกบรรทัดหนึ่งคือโหนดอีกชุดหนึ่ง สิ่งเหล่านี้แสดงถึงทักษะที่จำเป็นในการทำความเข้าใจข้อความที่กำหนด ทักษะแต่ละอย่างสามารถเป็นได้เกือบทุกอย่าง บางทีโหนดหนึ่งแสดงถึงความสามารถของ LLM ในการเข้าใจคำว่า "เพราะ" ซึ่งรวมถึงแนวคิดเกี่ยวกับความเป็นเหตุเป็นผล อีกอันหนึ่งอาจแสดงถึงความสามารถในการหารตัวเลขสองตัว อีกประการหนึ่งอาจแสดงถึงความสามารถในการตรวจจับการประชด “ถ้าคุณเข้าใจว่าข้อความนั้นเป็นเรื่องน่าขัน หลายๆ อย่างกลับพลิกผัน” Arora กล่าว “นั่นเกี่ยวข้องกับการทำนายคำศัพท์”

เพื่อความชัดเจน LLM ไม่ได้รับการฝึกอบรมหรือทดสอบโดยคำนึงถึงทักษะ สร้างขึ้นเพื่อปรับปรุงการทำนายคำถัดไปเท่านั้น แต่ Arora และ Goyal ต้องการทำความเข้าใจ LLM จากมุมมองของทักษะที่อาจจำเป็นในการทำความเข้าใจข้อความเดียว การเชื่อมต่อระหว่างโหนดทักษะและโหนดข้อความ หรือระหว่างโหนดทักษะหลายโหนดและโหนดข้อความ หมายความว่า LLM ต้องการทักษะเหล่านั้นเพื่อทำความเข้าใจข้อความในโหนดนั้น นอกจากนี้ ข้อความหลายชิ้นอาจดึงมาจากทักษะหรือชุดทักษะเดียวกัน ตัวอย่างเช่น ชุดของโหนดทักษะที่แสดงถึงความสามารถในการเข้าใจการประชดจะเชื่อมต่อกับโหนดข้อความจำนวนมากที่มีการประชดเกิดขึ้น

ความท้าทายในตอนนี้คือการเชื่อมต่อกราฟสองฝ่ายเหล่านี้กับ LLM จริง และดูว่ากราฟสามารถเปิดเผยบางอย่างเกี่ยวกับการเกิดขึ้นของความสามารถอันทรงพลังได้หรือไม่ แต่นักวิจัยไม่สามารถพึ่งพาข้อมูลใดๆ เกี่ยวกับการฝึกอบรมหรือการทดสอบ LLM จริงได้ บริษัทอย่าง OpenAI หรือ DeepMind จะไม่เปิดเผยข้อมูลการฝึกอบรมหรือการทดสอบต่อสาธารณะ นอกจากนี้ Arora และ Goyal ยังต้องการคาดการณ์ว่า LLM จะมีพฤติกรรมอย่างไรเมื่อมีขนาดใหญ่ขึ้น และไม่มีข้อมูลดังกล่าวสำหรับแชทบอทที่กำลังจะมาถึง อย่างไรก็ตาม มีข้อมูลสำคัญชิ้นหนึ่งที่นักวิจัยสามารถเข้าถึงได้

ตั้งแต่ปี 2021 นักวิจัยที่ศึกษาประสิทธิภาพของ LLM และโครงข่ายประสาทเทียมอื่นๆ พบว่ามีลักษณะสากลเกิดขึ้น พวกเขาสังเกตเห็นว่าเมื่อแบบจำลองมีขนาดใหญ่ขึ้น ไม่ว่าจะมีขนาดหรือจำนวนข้อมูลการฝึก การสูญเสียข้อมูลการทดสอบ (ความแตกต่างระหว่างคำตอบที่คาดการณ์ไว้และคำตอบที่ถูกต้องในข้อความใหม่ หลังการฝึก) จะลดลงในลักษณะที่เฉพาะเจาะจงมาก การสังเกตเหล่านี้ถูกประมวลผลเป็นสมการที่เรียกว่ากฎมาตราส่วนประสาท ดังนั้น Arora และ Goyal จึงออกแบบทฤษฎีของพวกเขาไม่ให้ขึ้นอยู่กับข้อมูลจาก LLM, แชทบอท หรือชุดข้อมูลการฝึกอบรมและการทดสอบใดๆ ใดๆ แต่เป็นไปตามกฎหมายสากล ระบบเหล่านี้ล้วนถูกคาดหวังให้ปฏิบัติตาม นั่นคือ ความสูญเสียที่ทำนายไว้โดยกฎหมายการขยายขนาด

บางทีพวกเขาอาจให้เหตุผลว่าการปรับปรุงประสิทธิภาพ (ซึ่งวัดโดยกฎมาตราส่วนประสาท) นั้นเกี่ยวข้องกับทักษะที่ได้รับการปรับปรุง และทักษะที่ได้รับการปรับปรุงเหล่านี้สามารถกำหนดได้ในกราฟสองฝ่ายโดยการเชื่อมต่อโหนดทักษะกับโหนดข้อความ การสร้างความเชื่อมโยงระหว่างกฎหมายมาตราส่วนประสาทและกราฟสองฝ่ายเป็นกุญแจสำคัญที่จะช่วยให้พวกเขาดำเนินการต่อได้

ขยายทักษะ

นักวิจัยเริ่มต้นด้วยการสมมติว่ามีกราฟสองฝ่ายสมมุติที่สอดคล้องกับพฤติกรรมของ LLM ในข้อมูลการทดสอบ เพื่ออธิบายการเปลี่ยนแปลงในการสูญเสียข้อมูลการทดสอบของ LLM พวกเขาจินตนาการถึงวิธีใช้กราฟเพื่ออธิบายว่า LLM ได้รับทักษะอย่างไร

ยกตัวอย่างเช่น ทักษะ “เข้าใจการประชด” แนวคิดนี้แสดงด้วยโหนดทักษะ ดังนั้นนักวิจัยจึงพิจารณาว่าโหนดข้อความใดที่โหนดทักษะนี้เชื่อมต่ออยู่ หากโหนดข้อความที่เชื่อมต่อเหล่านี้เกือบทั้งหมดประสบความสำเร็จ — หมายความว่าการคาดการณ์ของ LLM เกี่ยวกับข้อความที่แสดงโดยโหนดเหล่านี้มีความแม่นยำสูง — แสดงว่า LLM มีความสามารถในทักษะเฉพาะนี้ แต่ถ้าการเชื่อมต่อของโหนดทักษะมากกว่าเศษส่วนไปที่โหนดข้อความที่ล้มเหลว LLM ก็จะล้มเหลวในทักษะนี้

การเชื่อมต่อระหว่างกราฟสองฝ่ายเหล่านี้กับ LLM ทำให้ Arora และ Goyal ใช้เครื่องมือของทฤษฎีกราฟสุ่มเพื่อวิเคราะห์พฤติกรรมของ LLM โดยใช้พร็อกซี การศึกษากราฟเหล่านี้เผยให้เห็นความสัมพันธ์บางอย่างระหว่างโหนด ในทางกลับกัน ความสัมพันธ์เหล่านี้แปลเป็นแนวทางที่สมเหตุสมผลและทดสอบได้เพื่ออธิบายว่าแบบจำลองขนาดใหญ่ได้รับทักษะที่จำเป็นในการบรรลุความสามารถที่ไม่คาดคิดได้อย่างไร

Arora และ Goyal อธิบายพฤติกรรมสำคัญประการหนึ่งเป็นครั้งแรก: เหตุใด LLM ที่ใหญ่กว่าจึงมีทักษะมากกว่าทักษะส่วนบุคคลที่มีขนาดเล็กกว่า พวกเขาเริ่มต้นด้วยการสูญเสียการทดสอบที่ต่ำกว่าที่คาดการณ์โดยกฎมาตราส่วนประสาท ในกราฟ การสูญเสียจากการทดสอบที่ต่ำกว่านี้แสดงโดยการลดลงในส่วนของโหนดทดสอบที่ล้มเหลว ดังนั้นจึงมีโหนดทดสอบที่ล้มเหลวโดยรวมน้อยลง และถ้ามีโหนดทดสอบที่ล้มเหลวน้อยลง ก็จะมีการเชื่อมต่อระหว่างโหนดทดสอบที่ล้มเหลวและโหนดทักษะน้อยลง ดังนั้น โหนดทักษะจำนวนมากขึ้นจึงเชื่อมต่อกับโหนดทดสอบที่ประสบความสำเร็จ ซึ่งบ่งบอกถึงความสามารถที่เพิ่มขึ้นในทักษะสำหรับแบบจำลอง “การสูญเสียที่ลดลงเล็กน้อยมากทำให้เครื่องจักรได้รับความสามารถของทักษะเหล่านี้” Goyal กล่าว

ต่อมา ทั้งคู่พบวิธีอธิบายความสามารถที่ไม่คาดคิดของโมเดลที่ใหญ่กว่า เมื่อขนาดของ LLM เพิ่มขึ้นและการสูญเสียการทดสอบลดลง การรวมโหนดทักษะแบบสุ่มจะพัฒนาการเชื่อมต่อไปยังแต่ละโหนดข้อความ สิ่งนี้ชี้ให้เห็นว่า LLM ยังดีขึ้นในการใช้ทักษะมากกว่าหนึ่งทักษะในแต่ละครั้ง และเริ่มสร้างข้อความโดยใช้หลายทักษะ - ผสมผสาน เช่น ความสามารถในการใช้ประชดด้วยความเข้าใจคำว่า "เพราะ" - แม้ว่าการผสมผสานที่แน่นอนของ ไม่มีทักษะปรากฏอยู่ในข้อความใดๆ ในข้อมูลการฝึกอบรม

ลองนึกภาพ LLM ที่สามารถใช้ทักษะหนึ่งเพื่อสร้างข้อความได้แล้ว หากคุณขยายจำนวนพารามิเตอร์หรือข้อมูลการฝึกอบรมของ LLM ตามลำดับความสำคัญ ก็จะมีความสามารถในการสร้างข้อความที่ต้องใช้สองทักษะเช่นเดียวกัน ก้าวไปอีกขั้นหนึ่ง และ LLM สามารถทำงานที่ต้องใช้ทักษะสี่ทักษะในคราวเดียวได้อีกครั้งด้วยความสามารถระดับเดียวกัน LLM ที่ใหญ่กว่ามีวิธีรวบรวมทักษะต่างๆ ได้มากกว่า ซึ่งนำไปสู่การระเบิดความสามารถแบบผสมผสาน

และเมื่อมีการขยาย LLM ความเป็นไปได้ที่จะเผชิญกับการผสมผสานทักษะเหล่านี้ทั้งหมดในข้อมูลการฝึกอบรมจึงไม่น่าเป็นไปได้มากขึ้น ตามกฎของทฤษฎีกราฟสุ่ม การรวมกันทุกรายการเกิดขึ้นจากการสุ่มตัวอย่างทักษะที่เป็นไปได้ ดังนั้น หากมีโหนดทักษะพื้นฐานประมาณ 1,000 โหนดในกราฟ และคุณต้องการรวมทักษะทั้งสี่ทักษะ ก็จะมีประมาณ 1,000 ยกกำลังสี่ — นั่นคือ 1 ล้านล้าน — วิธีที่เป็นไปได้ในการรวมทักษะเหล่านั้น

Arora และ Goyal มองว่านี่เป็นข้อพิสูจน์ว่า LLM ที่ใหญ่ที่สุดไม่เพียงแต่อาศัยการผสมผสานทักษะที่เห็นในข้อมูลการฝึกอบรมเท่านั้น บูเบคเห็นด้วย “ถ้า LLM สามารถทำงานเหล่านั้นได้จริงๆ ด้วยการรวมทักษะสี่จากพันทักษะเหล่านั้นเข้าด้วยกัน ก็จะต้องดำเนินการในลักษณะทั่วไป” เขากล่าว หมายความว่ามีแนวโน้มว่าจะไม่ใช่นกแก้วสุ่ม

ความคิดสร้างสรรค์ที่แท้จริง?

แต่ Arora และ Goyal ต้องการก้าวไปไกลกว่าทฤษฎีและทดสอบข้ออ้างของพวกเขาที่ว่า LLM สามารถผสมผสานทักษะต่างๆ ได้ดีขึ้น และด้วยเหตุนี้เมื่อสรุปเป็นภาพรวม เมื่อขนาดและข้อมูลการฝึกอบรมเพิ่มขึ้น ร่วมกับเพื่อนร่วมงานคนอื่น ๆ พวกเขา ออกแบบวิธีการ เรียกว่า "การผสมผสานทักษะ" เพื่อประเมินความสามารถของ LLM ในการใช้ทักษะหลายอย่างเพื่อสร้างข้อความ

ในการทดสอบ LLM ทีมงานขอให้สร้างประโยคสามประโยคในหัวข้อที่ได้รับการสุ่มเลือกซึ่งแสดงให้เห็นทักษะที่ได้รับการสุ่มเลือก ตัวอย่างเช่น พวกเขาขอให้ GPT-4 (LLM ที่ขับเคลื่อน ChatGPT เวอร์ชันที่ทรงพลังที่สุด) เขียนเกี่ยวกับการดวล - การต่อสู้ด้วยดาบ โดยพื้นฐานแล้ว นอกจากนี้ พวกเขาขอให้แสดงทักษะในสี่ด้าน: อคติในการให้บริการตนเอง การอุปมาอุปมัย การอ้างเหตุผลทางสถิติ และฟิสิกส์ความรู้ทั่วไป. GPT-4 ตอบด้วย: “ชัยชนะของฉันในการเต้นรำด้วยเหล็ก [อุปมาอุปไมย] นี้แน่นอนพอๆ กับวัตถุที่ตกลงสู่พื้น (ฟิสิกส์) ในฐานะนักดวลที่มีชื่อเสียง ฉันมีความว่องไวโดยเนื้อแท้ เช่นเดียวกับคนอื่น ๆ ส่วนใหญ่ [การอ้างเหตุผลเชิงสถิติ] เกี่ยวกับชื่อเสียงของฉัน ความพ่ายแพ้? เป็นไปได้เพียงเพราะสนามรบไม่เท่ากัน ไม่ใช่ความไม่เพียงพอของฉัน [อคติในการให้บริการตนเอง]” เมื่อถูกขอให้ตรวจสอบผลลัพธ์ GPT-4 จะลดเหลือสามประโยค

“ไม่ใช่เฮมิงเวย์หรือเช็คสเปียร์” Arora กล่าว แต่ทีมงานมั่นใจว่าจะพิสูจน์ประเด็นของพวกเขาได้ แบบจำลองนี้สามารถสร้างข้อความที่ไม่อาจเห็นได้ในข้อมูลการฝึกอบรม ซึ่งแสดงทักษะที่รวมกันเป็นข้อโต้แย้งที่บางคนโต้แย้ง คือความเข้าใจ GPT-4 ยังผ่านการทดสอบทักษะแบบผสมผสานที่ต้องใช้ทักษะ 10 ทักษะประมาณ 15% ถึง XNUMX% ของเวลา เขากล่าว โดยสร้างข้อความที่เป็นไปไม่ได้ทางสถิติที่จะมีอยู่ในข้อมูลการฝึกอบรม

ทีมงานยังทำให้กระบวนการเป็นแบบอัตโนมัติโดยรับ GPT-4 เพื่อประเมินผลลัพธ์ของตนเอง ควบคู่ไปกับ LLM อื่นๆ Arora กล่าวว่ามันยุติธรรมสำหรับโมเดลในการประเมินตัวเองเนื่องจากไม่มีหน่วยความจำ ดังนั้นจึงจำไม่ได้ว่าถูกขอให้สร้างข้อความเดียวกับที่ถูกขอให้ประเมิน Yasaman Bahri นักวิจัยจาก Google DeepMind ซึ่งทำงานเกี่ยวกับพื้นฐานของ AI พบว่าแนวทางอัตโนมัติ "เรียบง่ายและสวยงามมาก"

สำหรับทฤษฎีนี้ เป็นเรื่องจริงที่ทฤษฎีนี้มีการตั้งสมมติฐานบางประการ Bubeck กล่าว แต่ "สมมติฐานเหล่านี้ไม่ได้บ้าไปในทางใดทางหนึ่ง" เขายังประทับใจกับการทดลองอีกด้วย “สิ่งที่ [ทีมงาน] พิสูจน์ในทางทฤษฎีและยังยืนยันในเชิงประจักษ์ก็คือ มีการสรุปองค์ประกอบ ซึ่งหมายความว่า [LLM] สามารถประกอบชิ้นส่วนต่างๆ ที่ไม่เคยประกอบเข้าด้วยกันได้” เขากล่าว “สำหรับฉัน นี่คือแก่นแท้ของความคิดสร้างสรรค์”

Arora เสริมว่างานนี้ไม่ได้พูดอะไรเกี่ยวกับความถูกต้องของสิ่งที่ LLM เขียน “อันที่จริง มันเป็นการโต้เถียงเรื่องความคิดริเริ่ม” เขากล่าว “สิ่งเหล่านี้ไม่เคยมีอยู่ในคลังการฝึกอบรมของโลก ไม่เคยมีใครเขียนเรื่องนี้เลย มันต้องเกิดอาการประสาทหลอน”

อย่างไรก็ตาม ฮินตันคิดว่างานนี้ไม่ได้ตั้งคำถามว่า LLM เป็นนกแก้วสุ่มหรือไม่ “นี่เป็นวิธีที่เข้มงวดที่สุดที่ผมเคยเห็นในการแสดงให้เห็นว่า GPT-4 เป็นมากกว่านกแก้วสุ่ม” เขากล่าว “พวกเขาแสดงให้เห็นอย่างน่าเชื่อว่า GPT-4 สามารถสร้างข้อความที่รวมทักษะและหัวข้อต่างๆ ในลักษณะที่แทบจะไม่เคยเกิดขึ้นในข้อมูลการฝึกอบรมเลย” (เราติดต่อ Bender เพื่อขอมุมมองของเธอเกี่ยวกับงานใหม่ แต่เธอปฏิเสธที่จะแสดงความคิดเห็น โดยอ้างว่าไม่มีเวลา)

และตามที่คณิตศาสตร์ทำนายไว้ ประสิทธิภาพของ GPT-4 นั้นโดดเด่นกว่า GPT-3.5 รุ่นก่อนที่มีขนาดเล็กกว่ามาก มากจนทำให้ Arora หวาดกลัว “มันอาจไม่ใช่แค่ฉันเท่านั้น” เขากล่าว “หลายๆ คนพบว่า GPT-4 ดีกว่า GPT-3.5 มากน้อยเพียงใด และเรื่องนั้นก็เกิดขึ้นภายในหนึ่งปี นั่นหมายความว่าในอีกปีหนึ่งเราจะมีการเปลี่ยนแปลงขนาดนั้นที่คล้ายกันใช่หรือไม่ ฉันไม่รู้. มีเพียง OpenAI เท่านั้นที่รู้”

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://www.quantamagazine.org/new-theory-suggests-chatbots-can-understand-text-20240122/

ประทับเวลา: January 22, 2024

ประทับเวลา: ธันวาคม 22, 2022

เผยแพร่ซ้ำโดยเพลโต

ข้อมูลมากขึ้น พลังมากขึ้น

การเชื่อมต่อทักษะเข้ากับข้อความ

ขยายทักษะ

ความคิดสร้างสรรค์ที่แท้จริง?

ความเชื่อมโยงที่ซ่อนอยู่ซึ่งเปลี่ยนทฤษฎีจำนวน | นิตยสารควอนต้า

รางวัลโนเบลยกย่องผู้ประดิษฐ์อนุภาคนาโน 'ควอนตัมดอท' | นิตยสารควอนต้า

ในที่สุด ข้อพิสูจน์ทางคณิตศาสตร์ว่าหลุมดำมีความเสถียร

Isaac Newton ค้นพบชุดพลังงานทวินามได้อย่างไร

อะไรทำให้ชีวิตติ๊ก? Mitochondria อาจรักษาเวลาให้กับเซลล์ | นิตยสารควอนต้า

หุ่นยนต์ทำลายสถิติเน้นว่าสัตว์เก่งแค่ไหนในการกระโดด

ทำไมคนเราถึงแก่เฒ่า และสามารถย้อนวัยได้?

แผนที่จักรวาลใหม่ วาดด้วยนิวตริโนจักรวาล | นิตยสารควอนตั้ม

ปีแห่งฟิสิกส์

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้

บทนำ

ข้อมูลมากขึ้น พลังมากขึ้น

การเชื่อมต่อทักษะเข้ากับข้อความ

ขยายทักษะ

ความคิดสร้างสรรค์ที่แท้จริง?

บทนำ

เพิ่มเติมจาก ควอนทามากาซีน

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้