วิธีที่ดีกว่าในการประเมิน LLM - KDnuggets

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ความก้าวหน้าล่าสุดในการพัฒนา LLM ทำให้การใช้งาน NLP เป็นที่นิยมมากขึ้น ซึ่งก่อนหน้านี้ได้รับการแก้ไขโดยใช้วิธีการเรียนรู้ของเครื่องแบบเก่า โมเดลภาษาขนาดใหญ่สามารถแก้ปัญหาภาษาได้หลากหลาย เช่น การจำแนก การสรุป การดึงข้อมูล การสร้างเนื้อหา การตอบคำถาม และการรักษาการสนทนา ทั้งหมดนี้ใช้เพียงโมเดลเดียว แต่เราจะรู้ได้อย่างไรว่าพวกเขาทำงานได้ดีกับงานต่างๆ เหล่านี้?

การเพิ่มขึ้นของ LLM ทำให้เกิดปัญหาที่ยังไม่ได้รับการแก้ไข: เราไม่มีมาตรฐานที่เชื่อถือได้ในการประเมิน สิ่งที่ทำให้การประเมินทำได้ยากขึ้นคือใช้สำหรับงานที่หลากหลายมาก และเราขาดคำจำกัดความที่ชัดเจนว่าอะไรคือคำตอบที่ดีสำหรับกรณีการใช้งานแต่ละกรณี

บทความนี้กล่าวถึงแนวทางปัจจุบันในการประเมิน LLM และแนะนำกระดานผู้นำ LLM ใหม่ซึ่งใช้ประโยชน์จากการประเมินโดยมนุษย์ซึ่งปรับปรุงตามเทคนิคการประเมินที่มีอยู่

รูปแบบการประเมินเบื้องต้นรูปแบบแรกและปกติคือการรันโมเดลบนชุดข้อมูลที่ได้รับการดูแลจัดการหลายชุด และตรวจสอบประสิทธิภาพของโมเดล HuggingFace สร้างไฟล์ เปิดลีดเดอร์บอร์ด LLM โดยที่โมเดลขนาดใหญ่ที่เข้าถึงได้แบบเปิดได้รับการประเมินโดยใช้ชุดข้อมูลที่รู้จักกันดีสี่ชุด (ความท้าทายในการใช้เหตุผล AI2 , เฮลลาสแวก , มมส , ความจริงQA). ซึ่งสอดคล้องกับการประเมินอัตโนมัติและตรวจสอบความสามารถของแบบจำลองในการรับข้อเท็จจริงสำหรับคำถามเฉพาะบางข้อ

นี่คือตัวอย่างคำถามจาก มมส ชุดข้อมูล

หัวเรื่อง: วิทยาลัยแพทยศาสตร์

คำถาม: ผลข้างเคียงที่คาดหวังจากการเสริมครีเอทีนคือ

ก) กล้ามเนื้ออ่อนแรง
B) เพิ่มมวลกาย
C) ปวดกล้ามเนื้อ
D) การสูญเสียอิเล็กโทรไลต์

คำตอบ: (ข)

การให้คะแนนแบบจำลองในการตอบคำถามประเภทนี้ถือเป็นตัวชี้วัดที่สำคัญและทำหน้าที่ได้ดีในการตรวจสอบข้อเท็จจริง แต่ไม่ได้ทดสอบความสามารถในการสร้างของแบบจำลอง นี่อาจเป็นข้อเสียที่ใหญ่ที่สุดของวิธีการประเมินนี้ เนื่องจากการสร้างข้อความอิสระเป็นหนึ่งในคุณสมบัติที่สำคัญที่สุดของ LLM

ดูเหมือนว่าจะมีความเห็นเป็นเอกฉันท์ภายในชุมชนว่าการประเมินแบบจำลองอย่างเหมาะสมนั้น เราจำเป็นต้องมีการประเมินโดยมนุษย์ โดยทั่วไปจะทำโดยการเปรียบเทียบการตอบสนองจากโมเดลต่างๆ

วิธีที่ดีกว่าในการประเมิน LLM
การเปรียบเทียบความสำเร็จพร้อมท์สองรายการในโครงการ LMSYS – ภาพหน้าจอโดยผู้เขียน

ผู้อธิบายประกอบจะตัดสินใจว่าคำตอบใดดีกว่า ดังที่เห็นในตัวอย่างด้านบน และบางครั้งก็ระบุปริมาณความแตกต่างในคุณภาพของการดำเนินการให้เสร็จสิ้นทันที LMSYS Org ได้สร้าง ลีดเดอร์ ที่ใช้การประเมินโดยมนุษย์ประเภทนี้และเปรียบเทียบแบบจำลองที่แตกต่างกัน 17 แบบ โดยรายงาน คะแนน Elo สำหรับแต่ละรุ่น

เนื่องจากการประเมินโดยมนุษย์อาจปรับขนาดได้ยาก จึงมีความพยายามในการปรับขนาดและเร่งกระบวนการประเมินให้เร็วขึ้น และส่งผลให้เกิดโครงการที่น่าสนใจชื่อว่า อัลปาก้าEval. ในที่นี้แต่ละแบบจำลองจะถูกเปรียบเทียบกับเส้นพื้นฐาน (ข้อความ-davinci-003 จัดทำโดย GPT-4) และการประเมินโดยมนุษย์จะถูกแทนที่ด้วยการพิจารณาของ GPT-4 สิ่งนี้รวดเร็วและปรับขนาดได้ แต่เราสามารถเชื่อถือโมเดลที่นี่เพื่อทำการให้คะแนนได้หรือไม่ เราจำเป็นต้องตระหนักถึงอคติของแบบจำลอง โครงการนี้ได้แสดงให้เห็นแล้วว่า GPT-4 อาจสนับสนุนคำตอบที่ยาวกว่า

วิธีการประเมิน LLM มีการพัฒนาอย่างต่อเนื่องในขณะที่ชุมชน AI ค้นหาแนวทางที่ง่าย ยุติธรรม และปรับขนาดได้ การพัฒนาล่าสุดมาจากทีมงานที่ Toloka พร้อมด้วยระบบใหม่ ลีดเดอร์ เพื่อพัฒนามาตรฐานการประเมินในปัจจุบันให้ก้าวหน้ายิ่งขึ้น

ใหม่ ลีดเดอร์ เปรียบเทียบการตอบสนองของโมเดลกับการแจ้งเตือนผู้ใช้ในโลกแห่งความเป็นจริงซึ่งจัดหมวดหมู่ตามงาน NLP ที่มีประโยชน์ตามที่ระบุไว้ใน เอกสาร InstructGPT นี้. นอกจากนี้ยังแสดงอัตราการชนะโดยรวมของแต่ละรุ่นในทุกหมวดหมู่

วิธีที่ดีกว่าในการประเมิน LLM
กระดานผู้นำ Toloka – ภาพหน้าจอโดยผู้เขียน

การประเมินที่ใช้สำหรับโปรเจ็กต์นี้คล้ายกับการประเมินใน AlpacaEval คะแนนบนกระดานผู้นำแสดงถึงอัตราการชนะของรุ่นที่เกี่ยวข้องเมื่อเปรียบเทียบกับ กวานาโก 13B ซึ่งทำหน้าที่เป็นการเปรียบเทียบพื้นฐานในที่นี้ ทางเลือกของ Guanaco 13B คือการปรับปรุงวิธี AlpacaEval ซึ่งใช้โมเดล text-davinci-003 ที่ล้าสมัยเร็วๆ นี้เป็นหลัก

การประเมินจริงทำได้โดยผู้เชี่ยวชาญด้านคำอธิบายประกอบที่เป็นมนุษย์ตามชุดการแจ้งเตือนในโลกแห่งความเป็นจริง สำหรับแต่ละพรอมต์ ผู้อธิบายประกอบจะได้รับการดำเนินการให้เสร็จสิ้นสองครั้ง และถามว่าพวกเขาต้องการรายการใด คุณสามารถดูรายละเอียดเกี่ยวกับวิธีการได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

การประเมินโดยมนุษย์ประเภทนี้มีประโยชน์มากกว่าวิธีการประเมินอัตโนมัติอื่นๆ และควรปรับปรุงการประเมินโดยมนุษย์ที่ใช้สำหรับ ลีดเดอร์บอร์ด LMSYS ข้อเสียของวิธี LMSYS คือใครก็ตามที่มี ลิงค์ สามารถมีส่วนร่วมในการประเมิน ทำให้เกิดคำถามที่จริงจังเกี่ยวกับคุณภาพของข้อมูลที่รวบรวมในลักษณะนี้ ผู้เชี่ยวชาญด้านคำอธิบายประกอบแบบปิดมีศักยภาพที่ดีกว่าเพื่อให้ได้ผลลัพธ์ที่เชื่อถือได้ และ Toloka ใช้เทคนิคการควบคุมคุณภาพเพิ่มเติมเพื่อรับรองคุณภาพของข้อมูล

ในบทความนี้ เราได้แนะนำโซลูชันใหม่ที่มีแนวโน้มสำหรับการประเมิน LLM นั่นก็คือ Toloka Leaderboard แนวทางนี้เป็นนวัตกรรม ผสมผสานจุดแข็งของวิธีการที่มีอยู่ เพิ่มรายละเอียดเฉพาะงาน และใช้เทคนิคคำอธิบายประกอบของมนุษย์ที่เชื่อถือได้เพื่อเปรียบเทียบแบบจำลอง

สำรวจกระดานและแบ่งปันความคิดเห็นและข้อเสนอแนะของคุณเพื่อการปรับปรุงกับเรา

มักดาเลนา คอนคีวิช เป็นผู้เผยแพร่ข้อมูลที่ Toloka ซึ่งเป็นบริษัทระดับโลกที่สนับสนุนการพัฒนา AI ที่รวดเร็วและปรับขนาดได้ เธอสำเร็จการศึกษาระดับปริญญาโทสาขาปัญญาประดิษฐ์จากมหาวิทยาลัยเอดินบะระ และเคยทำงานเป็นวิศวกร NLP นักพัฒนา และนักวิทยาศาสตร์ข้อมูลสำหรับธุรกิจในยุโรปและอเมริกา เธอยังมีส่วนร่วมในการสอนและให้คำปรึกษานักวิทยาศาสตร์ข้อมูล และมีส่วนสนับสนุนสิ่งพิมพ์ด้านวิทยาศาสตร์ข้อมูลและแมชชีนเลิร์นนิงเป็นประจำ