Meta ให้ Code Llama Run Riot ภายใต้เงื่อนไขที่เกือบจะเปิด

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Meta ได้เปิดตัวโมเดลการเรียนรู้ของเครื่องแบบเปิดอีกรูปแบบหนึ่ง ซึ่งคราวนี้ได้รับการปรับแต่งสำหรับการสร้างซอร์สโค้ดซอฟต์แวร์

โค๊ดลามะ เป็นตระกูลของโมเดลภาษาขนาดใหญ่ - ดังนั้นจึงมีการใช้อักษรตัวพิมพ์ใหญ่เป็นครั้งคราว "LLaMA" - ตามโมเดล Llama 2 การเผยแพร่ ในเดือนกรกฎาคม. ได้รับการปรับแต่งและฝึกฝนอย่างละเอียดเพื่อแจกจ่ายและอภิปรายซอร์สโค้ดเพื่อตอบสนองต่อข้อความแจ้ง แทนที่จะเป็นร้อยแก้วเหมือนต้นกำเนิด

เช่นเดียวกับเทคโนโลยีล้ำสมัย Code Llama ก็มาพร้อมกับความเสี่ยง

“Code Llama มีศักยภาพที่จะใช้เป็นเครื่องมือด้านการผลิตและการศึกษาเพื่อช่วยให้โปรแกรมเมอร์เขียนซอฟต์แวร์ที่มีประสิทธิภาพและมีเอกสารประกอบดีกว่า” Meta อ้างสิทธิ์ใน ประกาศ วันพฤหัสบดี

หากคุณขอให้ Code Llama เขียนฟังก์ชันที่สร้างลำดับ Fibonacci โมเดลจะสร้างทั้งโค้ดและภาษาธรรมชาติเพื่ออธิบายแหล่งที่มา Meta กล่าว และโมเดล AI สามารถทำได้ใน Python, C++, Java, PHP, Typescript (Javascript), C#, Bash และภาษาอื่นๆ

อย่างไรก็ตาม ผู้ใช้จะถูกนำทางไปยัง Code Llama เป็นภาษาอังกฤษ เนื่องจากโมเดลดังกล่าวไม่ได้ผ่านการทดสอบความปลอดภัยในภาษาอื่น และอาจพูดอะไรบางอย่างที่แย่มากหากถูกสอบถามใน ออกจากขอบเขต ภาษา.

“เช่นเดียวกับเทคโนโลยีล้ำหน้าอื่นๆ Code Llama มาพร้อมกับความเสี่ยง” Meta อธิบาย โดยสังเกตว่าในระหว่างการทดสอบทีมสีแดงของตัวเองเพื่อชักชวนการสร้างโค้ดที่เป็นอันตราย Code Llama ตอบสนองด้วยคำตอบที่ปลอดภัยกว่า ChatGPT (GPT3.5 Turbo)

จากข้อมูลของ Meta นั้น Code Llama มีประสิทธิภาพเหนือกว่า LLM แบบโอเพ่นซอร์ส เฉพาะโค้ด และ Llama 2 ซึ่งเป็นพาเรนต์ของตัวเองในการวัดประสิทธิภาพสองแบบ – มนุษย์อีวาล และการเขียนโปรแกรม Python ขั้นพื้นฐานเป็นส่วนใหญ่ (เอ็มบีพีพี) – และตรงกับประสิทธิภาพของ ChatGPT ของ OpenAI

Code Llama มีสามขนาด ได้แก่ พารามิเตอร์ 7B, 13B และ 34B และแต่ละตัวแปรได้รับการฝึกอบรมด้วยโทเค็น 500B ของโค้ดและข้อมูลที่เกี่ยวข้องกับโค้ด โทเค็นหนึ่งรายการประกอบด้วยอักขระภาษาอังกฤษประมาณสี่ตัว Codex ของ OpenAI เวอร์ชันที่ใหญ่ที่สุดเมื่อเปิดตัวมี พารามิเตอร์ 12B.

Meta กล่าวว่าโมเดล Code Llama ที่เล็กที่สุดสองโมเดลได้รับการฝึกฝนให้เติมแหล่งที่มาที่ขาดหายไป ซึ่งช่วยให้สามารถใช้สำหรับการเติมโค้ดให้สมบูรณ์โดยไม่ต้องปรับแต่งเพิ่มเติม ว่ากันว่าเวอร์ชัน 34B จะให้ผลลัพธ์ที่ดีที่สุด แต่เวอร์ชันที่เล็กกว่า XNUMX ตอบสนองเร็วกว่า ทำให้ดีขึ้นสำหรับงานต่างๆ เช่น การเติมโค้ดให้สมบูรณ์ซึ่งสังเกตเห็นความล่าช้าได้ชัดเจน

นอกจากนี้ยังมีสองรูปแบบ: Code Llama – Python และ Code Llama – Instruct แบบแรกมาจากการปรับแต่ง Code Llama อย่างละเอียดด้วยโทเค็น Python พิเศษอีก 100B อย่างหลังได้รับการปรับแต่งอย่างละเอียดเพื่อให้เป็นไปตามรูปแบบอินพุตและเอาท์พุต ทำให้เหมาะสำหรับการสร้างโค้ดมากขึ้น

ความน่าเชื่อถือมีใครบ้าง?

LLM มักจะจัดให้มี ไม่ถูกต้อง คำตอบ ไปยังพรอมต์การเขียนโปรแกรม แม้ว่านักพัฒนาจำนวนมากจะใช้เพื่อเรียกคืนรูปแบบการท่องจำและพารามิเตอร์ API หรือหลีกเลี่ยงการค้นหาและการตรวจสอบเอกสารประกอบ

จุดขายประการหนึ่งของ Code Llama คือสามารถจัดการอินพุตและเอาต์พุตของลำดับโค้ดที่ประกอบด้วยโทเค็นได้มากถึง 100,000 โทเค็น กล่าวคือ คุณสามารถแจ้งโมเดลด้วยโค้ดหลายบรรทัด และคุณอาจได้รับการตอบกลับแบบละเอียด

“นอกเหนือจากการเป็นข้อกำหนดเบื้องต้นสำหรับการสร้างโปรแกรมที่ยาวขึ้นแล้ว การมีลำดับอินพุตที่ยาวขึ้นจะปลดล็อกกรณีการใช้งานใหม่ที่น่าตื่นเต้นสำหรับโค้ด LLM” Meta อธิบาย “ตัวอย่างเช่น ผู้ใช้สามารถจัดเตรียมโมเดลด้วยบริบทเพิ่มเติมจากโค้ดเบสของตนเพื่อทำให้คนรุ่นมีความเกี่ยวข้องมากขึ้น นอกจากนี้ยังช่วยในการดีบักสถานการณ์ในโค้ดเบสขนาดใหญ่ ซึ่งการอยู่เหนือโค้ดทั้งหมดที่เกี่ยวข้องกับปัญหาที่เป็นรูปธรรมอาจเป็นเรื่องท้าทายสำหรับนักพัฒนา”

ผู้ใช้สามารถจัดเตรียมโมเดลด้วยบริบทเพิ่มเติมจากโค้ดเบสของตนเพื่อทำให้รุ่นมีความเกี่ยวข้องมากขึ้น

Code Llama เข้าร่วมสาขาโมเดลการแปลงโค้ดที่กำลังเติบโต ซึ่งเริ่มต้นโดย Codex ของ OpenAI และ GitHub ที่เกี่ยวข้อง การดำเนินคดีที่มีภาระผูกพัน บริการแนะนำการเขียนโปรแกรม Copilot (2021) โมเดลการเขียนโปรแกรมเชิงบวกที่ตามมา ได้แก่ DeepMind's อัลฟ่าโค้ด (2022), GPT-4 ของ OpenAI (2023), Amazon รหัสกระซิบ (2023) และ Bard ของ Google (2023) ปรับจูนในเดือนเมษายน เพื่อสร้าง รหัสแหล่งที่มา.

นอกจากนี้ยังมีโอเพ่นซอร์ส (หรือประเภทเปิด) LLM มากมายเช่น สตาร์โค้ดเดอร์ และ เอ็กซ์เจนเพื่อชื่อสอง

Meta ได้เปิดตัว Code Llama ภายใต้ชื่อเดียวกัน ใบอนุญาตชุมชน ในฐานะ Llama 2 โดยอ้างถึงความเชื่อของบริษัทยักษ์ใหญ่ในเรื่อง “แนวทางที่เปิดกว้างสำหรับ AI” ว่าเป็นวิธีที่ดีที่สุดในการพัฒนาเครื่องมือที่เป็นนวัตกรรม ปลอดภัย และมีความรับผิดชอบ

แต่ดังที่กล่าวไว้อย่างกว้างขวางใน Llama 2 ใบอนุญาตของชุมชนก็คือ ไม่ใช่ใบอนุญาตโอเพ่นซอร์ส. “แนวทางแบบเปิด” ของ Meta สำหรับ AI นั้นปิดไม่ให้มีการแข่งขัน – ใบอนุญาตไม่อนุญาตให้ใช้ซอฟต์แวร์อย่างชัดเจน “เพื่อปรับปรุงโมเดลภาษาขนาดใหญ่อื่น ๆ”

และในขณะที่ใบอนุญาตชุมชนของ Meta อนุญาตให้ใช้ลามะต่างๆ ในเชิงพาณิชย์ได้ แต่ก็ดึงดูดบริการต่างๆ ด้วย "ผู้ใช้งานมากกว่า 700 ล้านรายต่อเดือน"

นั่นค่อนข้าง เลือกกลุ่ม ของบริการขนาดใหญ่ เช่น YouTube, WeChat, TikTok, LinkedIn, Telegram, Snapchat และ Douyin ในบรรดาแพลตฟอร์มโซเชียลมีเดียที่ Meta ไม่ได้ดำเนินการโดย Meta และสันนิษฐานว่าบริษัทที่ใช้แพลตฟอร์มที่ใช้ระบบปฏิบัติการเช่น Apple, Google และ Microsoft – “ต้องร้องขอ ใบอนุญาตจาก Meta ซึ่ง Meta อาจมอบให้แก่คุณตามดุลยพินิจของตนแต่เพียงผู้เดียว…” ®