Meta Lets Code Llama Run Riot Under nästan öppna villkor

Återutgiven av Platon

anhängare: 0

Meta har släppt ännu en typ av öppen maskininlärningsmodell, denna gång inställd för generering av mjukvarukällkod.

Kod lama är en familj av stora språkmodeller – därav den enstaka versaler "LLaMA" – baserad på Llama 2-modellen frigörs i juli. Den har finjusterats och tränats för att dispensera och diskutera källkod som svar på textuppmaningar, istället för prosa som dess stamfader.

Som med all avancerad teknologi, kommer Code Llama med risker

"Code Llama har potential att användas som ett produktivitets- och utbildningsverktyg för att hjälpa programmerare att skriva mer robust, väldokumenterad mjukvara," hävdade Meta i ett tillkännagivande Torsdag.

Om du ber Code Llama att skriva en funktion som producerar Fibonacci-sekvensen, kommer modellen att generera både kod och naturligt språk som förklarar källan, säger Meta. Och AI-modellen kan göra det i Python, C++, Java, PHP, Typescript (Javascript), C#, Bash och andra språk.

Användare uppmanas dock att adressera Code Llama på engelska eftersom modellen inte har genomgått säkerhetstestning på andra språk och kan bara säga något hemskt om den frågas på en ur sikte språk.

"Som med all spetsteknologi, kommer Code Llama med risker," förklarar Meta och noterar att Code Llama svarade med säkrare svar än ChatGPT (GPT3.5 Turbo).

Enligt Meta överträffar Code Llama öppen källkod, kodspecifika LLM:er och sin egen moder Llama 2 på två riktmärken – HumanEval och mestadels grundläggande Python-programmering (MBPP) – och matchar prestandan för OpenAI:s ChatGPT.

Code Llama finns i tre storlekar – 7B, 13B och 34B parametrar – och varje variant tränades med 500B tokens av kod och kodrelaterad data. En token är ungefär fyra tecken på engelska. Den största versionen av OpenAI:s Codex, när den släpptes, hade 12B parametrar.

De två minsta Code Llama-modellerna, säger Meta, har tränats för att fylla i saknad källa vilket gör att de kan användas för kodkomplettering utan ytterligare finjustering. 34B-versionen sägs ge de bästa resultaten, men de två mindre svarar snabbare, vilket gör dem bättre för uppgifter som kodkomplettering där latensen märks.

Det finns också två varianter: Code Llama – Python och Code Llama – Instruct. Den förra kommer från finjustering av Code Llama med ytterligare 100B tokens av Python-kod. Den senare har finjusterats för att följa ingångs- och utmatningsmönster, vilket gör den bättre lämpad för kodgenerering.

Pålitlighet, någon?

LLM tillhandahåller ofta felaktig svar till programmeringsmeddelanden, även om de ändå används av många utvecklare för att återkalla rote-mönster och API-parametrar, eller för att undvika sökfrågor och dokumentationskontroller.

En av försäljningsargumenten med Code Llama är att den kan hantera inmatning och utmatning av kodsekvenser som består av upp till 100,000 XNUMX tokens. Det vill säga, du kan fråga modellen med många rader kod och du kan få ett utförligt svar.

"Förutom att det är en förutsättning för att generera längre program, låser längre inmatningssekvenser upp spännande nya användningsfall för en kod LLM," förklarade Meta. "Användare kan till exempel förse modellen med mer sammanhang från sin kodbas för att göra generationerna mer relevanta. Det hjälper också till att felsöka scenarier i större kodbaser, där det kan vara en utmaning för utvecklare att hålla koll på all kod relaterad till ett konkret problem."

Användare kan ge modellen mer sammanhang från sin kodbas för att göra generationerna mer relevanta

Code Llama ansluter sig till ett växande fält av kodkunniga modeller som ursprungligen seedades av OpenAIs Codex och GitHubs associerade rättegång belastad Copilot (2021) programmeringsförslagstjänst. Programmeringspositiva modeller som följde inkluderar DeepMinds AlphaCode (2022), OpenAI:s GPT-4 (2023), Amazon Code Whisperer (2023) och Googles Bard (2023), ställdes i april att generera källkod.

Dessutom har det funnits olika öppen källkod (eller typ av öppen) LLM som StarCoder och XGen, för att nämna två.

Meta har släppt Code Llama under samma samhällslicens som Llama 2, och citerar megaföretagets tro på "ett öppet förhållningssätt till AI" som det bästa sättet att utveckla verktyg som är innovativa, säkra och ansvarsfulla.

Men som allmänt noterats med Llama 2, är gemenskapslicensen inte en öppen källkodslicens. Metas "öppna inställning" till AI är stängd för konkurrens - licensen tillåter uttryckligen att programvaran används "för att förbättra alla andra stora språkmodeller."

Och medan Metas community-licens tillåter kommersiell användning av dess olika lamor, drar den gränsen för tjänster med "mer än 700 miljoner aktiva användare per månad."

Det snarare välj grupp av megatjänster – YouTube, WeChat, TikTok, LinkedIn, Telegram, Snapchat och Douyin, bland sociala medieplattformar som inte redan drivs av Meta, och förmodligen företag som kör operativsystembaserade plattformar som Apple, Google och Microsoft – "måste begära en licens från Meta, som Meta kan ge dig efter eget gottfinnande...” ®