AlphaCode 2, A Code-generating AI Revamped With Gemini Kit

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

โมเดลการสร้างโค้ดล่าสุดของ Google - AlphaCode 2 ซึ่งขับเคลื่อนโดยระบบ Gemini Pro และเปิดตัวต่อสาธารณะในวันพุธ - มีรายงานว่ามีคะแนนสูงกว่า 99.5 เปอร์เซ็นต์ของผู้เข้าร่วมแข่งขันในการแข่งขันเขียนโปรแกรมออนไลน์

นักวิจัยจาก Google DeepMind ได้รับการปรับแต่งอย่างดี ราศีเมถุนโปร บนชุดข้อมูลเพื่อเพิ่มทักษะการแก้ปัญหาเพื่อสร้าง AlphaCode 2 ชุดข้อมูลประกอบด้วยปัญหาประมาณ 15,000 ปัญหาที่นำมาจาก CodeForces ซึ่งเป็นไซต์การเขียนโปรแกรมของคู่แข่ง และตัวอย่างโค้ด 30 ล้านตัวอย่างที่เขียนโดยมนุษย์

โมเดลนี้ได้รับการปรับแต่งเพิ่มเติมในชุดข้อมูลเพิ่มเติมที่มี "คุณภาพสูงขึ้น" แต่ก็ไม่ชัดเจนว่ามีการใช้ข้อมูลประเภทใดหรือจำนวนเท่าใดกันแน่ ตามรายละเอียดเพียงเล็กน้อยใน รายงานทางเทคนิค [ไฟล์ PDF]. เมื่อ AlphaCode 2 ได้รับการทดสอบกับปัญหา 77 ปัญหาในการแข่งขัน CodeForces 12 รายการ ซึ่งแข่งขันกับโปรแกรมเมอร์ทั้งหมดมากกว่า 8,000 คน สามารถแก้ปัญหาได้ 43 เปอร์เซ็นต์ AlphaCode 2 ส่งคำตอบเป็นภาษา C ++

เพื่อเปรียบเทียบก่อนหน้านี้ อัลฟ่าโค้ด ระบบแก้ไขปัญหาต่างๆ ที่กำหนดโดย CodeForces ได้ 25 เปอร์เซ็นต์

“เมื่อพิจารณาจากการจัดอันดับการแข่งขันแล้ว เราประเมินว่า AlphaCode 2 อยู่ที่เปอร์เซ็นไทล์ที่ 85 โดยเฉลี่ย กล่าวคือ ทำงานได้ดีกว่า 85 [เปอร์เซ็นต์ของผู้เข้าแข่งขัน] ซึ่งอยู่ในอันดับที่อยู่ระหว่างหมวดหมู่ 'Expert' และ 'Candidate Master' ใน Codeforces” นักวิจัยอ้างว่า

งานของคุณปลอดภัย…ในตอนนี้

ในการแข่งขันสองครั้งจากทั้งหมดสิบสองครั้ง AlphaCode 2 ทำได้ดีกว่าผู้เข้าร่วมถึง 99.5 เปอร์เซ็นต์ แม้ว่าจะน่าประทับใจ แต่สภาพการแข่งขันก็แตกต่างกันสำหรับเครื่องจักรและสำหรับมนุษย์

AlphaCode 2 สามารถเสนอวิธีแก้ปัญหาที่แตกต่างกันได้ถึงสิบแบบสำหรับแต่ละปัญหา และให้คะแนนหากหนึ่งในนั้นถูกต้อง ซึ่งแตกต่างจากผู้สมัครที่เป็นมนุษย์ซึ่งมีหน้าที่ในการถอดรหัสความท้าทาย

AlphaCode 2 ยังทำงานแตกต่างจากโปรแกรมเมอร์ทางชีววิทยาอย่างมาก เมื่อเกิดปัญหา มันจะสร้างตัวอย่างโค้ดที่แตกต่างกันประมาณล้านตัวอย่าง ซึ่งจากนั้นจะถูกกรองออก สคริปต์สุ่มที่ไม่เกี่ยวข้องและไม่ตรงกับคำอธิบายของปัญหา หรือสคริปต์ที่สร้างคำตอบการทดสอบตัวอย่างที่ไม่ถูกต้อง หรือไม่คอมไพล์เลย จะถูกลบออก

“ปัญหาการเขียนโปรแกรมเชิงแข่งขันแต่ละข้อมีการทดสอบอินพุต/เอาท์พุตสาธารณะอย่างน้อยหนึ่งครั้งที่บ่งชี้ว่าตัวอย่างโค้ดควรทำงานอย่างไร เราดำเนินการตัวอย่างโค้ดแต่ละตัวอย่างบนอินพุตทดสอบที่เกี่ยวข้อง และกรองออกทั้งหมดที่ไม่สร้างผลลัพธ์ที่คาดหวัง ดังนั้นจึงไม่ถูกต้อง” นักวิจัยอธิบาย

การกรองจะกำจัดตัวอย่างโค้ดที่สร้างโดย AlphaCode 95 ถึง 2 เปอร์เซ็นต์ จากนั้น อัลกอริธึมการจัดกลุ่มจะรวบรวมอันดับโปรแกรมที่เหลือ 50,000 โปรแกรมตามความคล้ายคลึงกัน และจัดเรียงโปรแกรมเป็นกลุ่มต่างๆ จากนั้น กระจุกที่ใหญ่ที่สุด XNUMX กลุ่มจะถูกให้คะแนนโดยแบบจำลอง Gemini Pro ที่แยกจากกัน ซึ่งได้รับการฝึกฝนเพื่อทำนายความแม่นยำของกระจุกเหล่านั้น จากนั้นกลุ่มตัวอย่างจากทั้ง XNUMX กลุ่มจะได้รับการจัดอันดับจากดีที่สุดไปกลุ่มสุดท้าย และส่งกลุ่มตัวอย่างสูงสุดจากแต่ละกลุ่ม

ผู้เขียนโค้ดที่เป็นมนุษย์มักจะคิดถึงกลยุทธ์ต่างๆ ในการแก้ปัญหา จากนั้นจึงนำแนวคิดที่มีแนวโน้มมากที่สุดมาเขียนทับ แทนที่จะลองใช้วิธีแก้ไขปัญหาต่างๆ นับล้านวิธี ความสำเร็จขึ้นอยู่กับการเข้าใจปัญหาและคิดค้นกลเม็ดทางคณิตศาสตร์ที่ชาญฉลาดในการแก้ปัญหา

วิธีการแบบเดรัจฉานของ AlphaCode 2 ได้แก่ การกรองโค้ดทั้งหมด และการใช้โมเดลต่างๆ เพื่อทำคะแนนและจัดอันดับโมเดลที่ดีที่สุด ต้องใช้การประมวลผลอย่างเข้มข้น ดังนั้นจึงอาจมีราคาแพงเกินไปที่จะเผยแพร่จนกว่าจะมีประสิทธิภาพมากขึ้น

“แม้จะมีผลลัพธ์ที่น่าประทับใจของ AlphaCode 2 แต่ก็ยังมีอีกมากที่ต้องทำก่อนที่เราจะเห็นระบบที่สามารถเข้าถึงประสิทธิภาพของผู้เขียนโค้ดที่ดีที่สุดได้อย่างน่าเชื่อถือ ระบบของเราต้องใช้การลองผิดลองถูกเป็นจำนวนมาก และยังมีค่าใช้จ่ายสูงเกินไปสำหรับการดำเนินการในวงกว้าง นอกจากนี้ยังต้องอาศัยความสามารถในการกรองตัวอย่างโค้ดที่ไม่ดีอย่างเห็นได้ชัดออกไป” นักวิจัยยอมรับ

ถึงกระนั้น AlphaCode 2 ก็มีการปรับปรุงอย่างมากจาก AlphaCode รุ่นเก่าและมีประสิทธิภาพในการสุ่มตัวอย่างมากกว่า 10,000 เท่า Google กล่าว ต้องการตัวอย่างที่สร้างขึ้นเพียง 100 ตัวอย่างเพื่อให้ได้ประสิทธิภาพเช่นเดียวกับ AlphaCode ซึ่งต้องใช้หนึ่งล้านตัวอย่าง

Google DeepMind เชื่อว่าจะสามารถสร้างโมเดลการเขียนโค้ดที่ดียิ่งขึ้นได้โดยใช้ Gemini Ultra ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ใหญ่กว่าและทรงพลังกว่า Gemini Pro และกล่าวว่ากำลังพยายามทำให้ความสามารถต่างๆ ของมันพร้อมใช้งานสำหรับนักพัฒนา

“เราหวังว่าการเข้ารหัสเชิงโต้ตอบประเภทนี้จะเป็นอนาคตของการเขียนโปรแกรม โดยที่โปรแกรมเมอร์ใช้โมเดล AI ที่มีความสามารถสูงเป็นเครื่องมือในการทำงานร่วมกันที่สามารถช่วยพวกเขาให้เหตุผลเกี่ยวกับปัญหา เสนอการออกแบบโค้ด และช่วยเหลือในการดำเนินการ” ทีมงานสรุป .

“เรากำลังดำเนินการเพื่อนำความสามารถอันเป็นเอกลักษณ์ของ AlphaCode 2 มาสู่โมเดล Gemini ที่เป็นรากฐานของเรา เพื่อเป็นก้าวแรกในการทำให้ทุกคนสามารถใช้กระบวนทัศน์การเขียนโปรแกรมใหม่นี้ได้” ®