Meta lässt Code Llama unter nahezu offenen Bedingungen randalieren

Neuauflage von Plato

Verfolger: 0

Meta hat ein weiteres offenes Modell für maschinelles Lernen veröffentlicht, dieses Mal auf die Generierung von Software-Quellcode abgestimmt.

Code Lama ist eine Familie großer Sprachmodelle – daher die gelegentliche Großschreibung „LLaMA“ – basierend auf dem Llama 2-Modell freigegeben im Juli. Es wurde fein abgestimmt und trainiert, um Quellcode als Reaktion auf Textaufforderungen auszugeben und zu diskutieren, statt wie sein Vorläufer in Prosa.

Wie jede Spitzentechnologie birgt Code Llama Risiken

„Code Llama hat das Potenzial, als Produktivitäts- und Bildungstool eingesetzt zu werden, um Programmierern dabei zu helfen, robustere, gut dokumentierte Software zu schreiben“, behauptete Meta in eine Ankündigung Donnerstag.

Wenn man Code Llama bittet, eine Funktion zu schreiben, die die Fibonacci-Folge erzeugt, generiert das Modell sowohl Code als auch natürliche Sprache, die die Quelle erklärt, sagt Meta. Und das KI-Modell kann dies in Python, C++, Java, PHP, Typescript (Javascript), C#, Bash und anderen Sprachen tun.

Benutzer werden jedoch angewiesen, Code Llama auf Englisch anzusprechen, da das Modell keinen Sicherheitstests in anderen Sprachen unterzogen wurde und möglicherweise etwas Schreckliches sagt, wenn es in einem abgefragt wird außer Reichweite Sprache.

„Wie jede hochmoderne Technologie birgt Code Llama Risiken“, erklärt Meta und weist darauf hin, dass Code Llama bei seinen eigenen Red-Team-Tests, um die Erstellung von Schadcode zu fördern, mit sichereren Antworten reagierte als ChatGPT (GPT3.5 Turbo).

Laut Meta übertrifft Code Llama Open-Source-Code-spezifische LLMs und sein eigenes übergeordnetes Llama 2 in zwei Benchmarks: HumanEval und größtenteils grundlegende Python-Programmierung (MBPP) – und entspricht der Leistung von OpenAIs ChatGPT.

Code Llama gibt es in drei Größen – 7B-, 13B- und 34B-Parameter – und jede Variante wurde mit 500B Code-Tokens und codebezogenen Daten trainiert. Ein Token besteht im Englischen aus etwa vier Zeichen. Die größte Version des OpenAI-Codex hatte zum Zeitpunkt seiner Veröffentlichung 12B Parameter.

Laut Meta wurden die beiden kleinsten Code-Llama-Modelle darauf trainiert, fehlende Quellen zu ergänzen, sodass sie ohne weitere Feinabstimmung zur Code-Vervollständigung verwendet werden können. Die 34B-Version soll die besten Ergebnisse liefern, die beiden kleineren reagieren jedoch schneller und eignen sich daher besser für Aufgaben wie die Code-Vervollständigung, bei denen die Latenz spürbar ist.

Es gibt auch zwei Varianten: Code Llama – Python und Code Llama – Instruct. Ersteres entsteht durch die Feinabstimmung von Code Llama mit zusätzlichen 100 Milliarden Tokens Python-Code. Letzteres wurde so optimiert, dass es Eingabe- und Ausgabemustern entspricht, wodurch es sich besser für die Codegenerierung eignet.

Zuverlässigkeit, irgendjemand?

LLMs bieten oft unrichtig Antworten zu Programmieraufforderungen, obwohl sie dennoch von vielen Entwicklern verwendet werden, um Routinemuster und API-Parameter abzurufen oder Suchanfragen und Dokumentationsprüfungen zu vermeiden.

Eines der Verkaufsargumente von Code Llama ist, dass es die Ein- und Ausgabe von Codesequenzen verarbeiten kann, die aus bis zu 100,000 Token bestehen. Das heißt, Sie können das Modell mit vielen Codezeilen aufrufen und erhalten möglicherweise eine ausführliche Antwort.

„Längere Eingabesequenzen sind nicht nur eine Voraussetzung für die Generierung längerer Programme, sondern erschließen auch aufregende neue Anwendungsfälle für ein Code-LLM“, erklärte Meta. „Benutzer können dem Modell beispielsweise mehr Kontext aus ihrer Codebasis zur Verfügung stellen, um die Generationen relevanter zu machen.“ Es hilft auch beim Debuggen von Szenarios in größeren Codebasen, bei denen es für Entwickler schwierig sein kann, den Überblick über den gesamten Code im Zusammenhang mit einem konkreten Problem zu behalten.“

Benutzer können dem Modell mehr Kontext aus ihrer Codebasis zur Verfügung stellen, um die Generationen relevanter zu machen

Code Llama schließt sich einem wachsenden Feld von Code-versierten Modellen an, die ursprünglich durch den Codex von OpenAI und die damit verbundenen GitHub-Modelle entstanden sind prozessbelastet Copilot (2021) Programmvorschlagsdienst. Zu den folgenden programmierungspositiven Modellen gehört DeepMind AlphaCode (2022), OpenAIs GPT-4 (2023), Amazon Codeflüsterer (2023) und Googles Bard (2023), eingestellt im April generieren Quellcode.

Darüber hinaus gab es verschiedene Open-Source-LLMs (oder eine Art offene LLMs). StarCoder und XGen, um zwei zu nennen.

Unter demselben Motto hat Meta auch Code Llama veröffentlicht Community-Lizenz als Llama 2 und zitierte den Glauben des Megakonzerns an einen „offenen Ansatz für KI“ als den besten Weg, innovative, sichere und verantwortungsvolle Werkzeuge zu entwickeln.

Aber wie bereits bei Llama 2 festgestellt wurde, gilt die Community-Lizenz keine Open-Source-Lizenz. Metas „offener Ansatz“ für KI ist dem Wettbewerb verschlossen – die Lizenz verbietet ausdrücklich die Verwendung der Software „zur Verbesserung eines anderen großen Sprachmodells“.

Und während die Community-Lizenz von Meta die kommerzielle Nutzung seiner verschiedenen Lamas erlaubt, zieht sie die Grenze bei Diensten mit „mehr als 700 Millionen monatlich aktiven Nutzern“.

Das eher wähle die Gruppe von Megadiensten – YouTube, WeChat, TikTok, LinkedIn, Telegram, Snapchat und Douyin, darunter Social-Media-Plattformen, die noch nicht von Meta betrieben werden, und vermutlich Unternehmen, die betriebssystembasierte Plattformen wie Apple, Google und Microsoft betreiben – „müssen eine Anfrage stellen.“ eine Lizenz von Meta, die Meta Ihnen nach eigenem Ermessen gewähren kann…“ ®