เบื้องหลัง OpenAI Codex: 5 ความท้าทายที่น่าสนใจเกี่ยวกับการสร้าง Codex ที่คุณไม่รู้จัก

= โพสต์ก่อนหน้า

คีย์เวิร์ด: Codex, NLP, OpenAI

ความท้าทายด้านวิศวกรรมและการสร้างแบบจำลอง ML บางอย่างที่ต้องเผชิญระหว่างการสร้าง Codex

By พระเยซูโรดริเกซ,อินโทเดอะบล๊อก.

ความคิดเห็น

ที่มา: https://bdtechtalks.com/2021/07/15/openai-codex-ai-programming/

เมื่อสองสามสัปดาห์ก่อน OpenAI สร้างความประหลาดใจให้กับโลกของปัญญาประดิษฐ์ (AI) ด้วยการเปิดตัว Codex ซึ่งเป็นโมเดลขนาดใหญ่ที่สามารถแปลภาษาธรรมชาติเป็นรหัสได้ Codex สามารถสร้าง end to end จากคำสั่งภาษาพื้นฐานได้อย่างมีประสิทธิภาพ หากคุณไม่เชื่อฉัน คุณควรดูวิดีโอนี้ ซึ่งถือได้ว่าเป็นหนึ่งในการสาธิต AI ที่ดีที่สุดตลอดกาล 😉

เครดิตวิดีโอ: OpenAI

มีการเขียนมากมายเกี่ยวกับความสามารถของ Codex ตั้งแต่เปิดตัวครั้งแรก

อย่างไรก็ตาม ฉันรู้สึกทึ่งมากขึ้นกับข้อกำหนดเล็กๆ น้อยๆ ที่เกี่ยวข้องกับการสร้างแบบจำลองขนาดนี้ เจาะลึกลงไปใน Codex มีสิ่งที่น่าสนใจบางอย่างที่ฉันพบว่าคิดว่าน่าจะดีที่จะเน้น:

1. Codex เชี่ยวชาญในภาษาประมาณสิบภาษา แต่ได้รับการฝึกฝนสำหรับ Python

ฉันพบว่าสิ่งนี้มีความเข้าใจอย่างลึกซึ้งอย่างไม่น่าเชื่อ เป้าหมายเดิมของ OpenAI คือการทำให้ Codex เชี่ยวชาญใน Python แต่ปรากฎว่าโมเดลได้เลือกภาษาอื่น ๆ ในระหว่างกระบวนการเตรียมการล่วงหน้า สิ่งนี้บ่งบอกถึงความสามารถเฉพาะตัวของแบบจำลองภาษาที่ได้รับการฝึกฝนล่วงหน้า

2. การทดสอบ Codex นั้นยากกว่ามาก

ชุมชน AI รู้สึกทึ่งกับการวิจัยเบื้องหลัง Codex แต่ฉันคิดว่าด้านวิศวกรรมก็น่าประทับใจไม่แพ้กัน ด้านหนึ่งที่ฉันสนใจเป็นพิเศษคือส่วนการทดสอบ คุณทดสอบโค้ดแบบสดในโลกได้อย่างไรโดยไม่ต้องเสี่ยงกับความเสี่ยงมหาศาล ปรากฎว่าทีม OpenAI ได้สร้างงานมากมายเพื่อสร้างแซนด์บ็อกซ์ที่ซับซ้อนมากเพื่อทดสอบผลลัพธ์จาก Codex แบบแยกส่วน

3. การจับคู่ความหมายกับโค้ดนั้นยังห่างไกลจากเรื่องไร้สาระ

การฝึกโมเดลในซอร์สโค้ดทั้งหมดในโลกนี้ฟังดูดีแต่ก็ไม่ใช่เรื่องเล็กน้อย ท้ายที่สุดแล้ว โค้ดทั้งหมดไม่ได้ถูกสร้างขึ้นมาเท่ากัน รหัสใน Github สามารถจัดทำเอกสารได้ไม่ดีในขณะที่โน้ตบุ๊กสามารถมีข้อมูลเชิงความหมายที่หลากหลาย ในทำนองเดียวกัน ข้อมูลโค้ดใน Stack Overflow มีระดับข้อมูลเชิงความหมายที่สมบูรณ์ยิ่งขึ้น การทำแผนที่ส่วนของโค้ดกับความหมายของภาษาเป็นหนึ่งในความท้าทายในการสร้าง Codex

4. Codex ยังคงดิ้นรนกับการสลายตัวของงาน

หากคุณคิดว่าโปรแกรมเมอร์ทำงานอย่างไร เรามักจะแยกปัญหาออกเป็นงานย่อยๆ และสร้างโค้ดสำหรับปัญหาเหล่านั้น ปรากฎว่า Codex นั้นยอดเยี่ยมในตอนหลัง แต่ยังคงดิ้นรนในงานการสลายตัวของปัญหา ไม่น่าแปลกใจเลยถ้าเราคิดว่าปัญหาที่การสลายตัวต้องใช้ทักษะทางปัญญาที่ซับซ้อนมาก

5. การปรับละเอียดภายใต้การดูแลเป็นส่วนสำคัญในการสร้าง Codex

รหัสในอินเทอร์เน็ตปรากฏในระดับความสมบูรณ์ทุกประเภท เอกสารประกอบ ความสมบูรณ์ทางวากยสัมพันธ์ ฯลฯ การฝึกโมเดลในชุดรหัสที่หลากหลายดังกล่าวสามารถให้ผลลัพธ์ที่ไม่น่าเชื่อถือ ในแง่นั้น OpenAI ต้องผ่านความพยายามในการปรับแต่งอย่างละเอียดถี่ถ้วน

นี่คือแง่มุมบางประการเกี่ยวกับ Codex ที่ไม่เป็นที่รู้จักมากนัก แต่เป็นส่วนสำคัญที่ทำให้ Codex เวอร์ชันแรกประสบความสำเร็จ ความสำเร็จของ Codex เกิดจากการวิจัย ML ขั้นสูงในฐานะวิศวกรรม ML ขนาดใหญ่และความพยายามด้านโครงสร้างพื้นฐาน

Bio: พระเยซูโรดริเกซ ปัจจุบันเป็น CTO ของ Intotheblock เขาเป็นผู้เชี่ยวชาญด้านเทคโนโลยี นักลงทุนระดับผู้บริหาร และที่ปรึกษาการเริ่มต้นธุรกิจ พระเยซูทรงก่อตั้งเมือง Tellago ซึ่งเป็นบริษัทพัฒนาซอฟต์แวร์ที่ได้รับรางวัล โดยมุ่งเน้นที่การช่วยเหลือบริษัทต่างๆ ให้กลายเป็นองค์กรซอฟต์แวร์ที่ยอดเยี่ยมด้วยการใช้ประโยชน์จากแนวโน้มซอฟต์แวร์ระดับองค์กรใหม่ๆ

Original. โพสต์ใหม่โดยได้รับอนุญาต

ที่เกี่ยวข้อง