Meta permet à Code Llama de se déchaîner dans des conditions presque ouvertes

Meta permet à Code Llama de se déchaîner dans des conditions presque ouvertes

Nœud source: 2844619

Meta a publié une autre sorte de modèle d'apprentissage automatique ouvert, cette fois optimisé pour générer du code source de logiciel.

Code Lama est une famille de grands modèles de langage – d’où la majuscule occasionnelle « LLaMA » – basée sur le modèle Llama 2 libéré en juillet. Il a été affiné et formé pour distribuer et discuter du code source en réponse à des invites textuelles, au lieu de la prose comme son ancêtre.

Comme toute technologie de pointe, Code Llama comporte des risques

"Code Llama a le potentiel d'être utilisé comme outil de productivité et éducatif pour aider les programmeurs à écrire des logiciels plus robustes et bien documentés", a affirmé Meta dans une annonce Jeudi.

Si vous demandez à Code Llama d'écrire une fonction qui produit la séquence de Fibonacci, le modèle générera à la fois du code et un langage naturel expliquant la source, explique Meta. Et le modèle d'IA peut le faire en Python, C++, Java, PHP, Typescript (Javascript), C#, Bash et d'autres langages.

Les utilisateurs sont cependant invités à aborder Code Llama en anglais, car le modèle n'a pas été soumis à des tests de sécurité dans d'autres langues et pourrait simplement dire quelque chose d'horrible s'il était interrogé dans un hors champ la langue.

"Comme toute technologie de pointe, Code Llama comporte des risques", explique Meta, notant que lors de ses propres tests d'équipe rouge pour solliciter la création de code malveillant, Code Llama a répondu avec des réponses plus sûres que ChatGPT (GPT3.5 Turbo).

Selon Meta, Code Llama surpasse les LLM open source spécifiques au code et son propre parent Llama 2 sur deux benchmarks : HumanEval et principalement de la programmation Python de base (MBPP) – et correspond aux performances de ChatGPT d'OpenAI.

Code Llama est disponible en trois tailles – paramètres 7B, 13B et 34B – et chaque variante a été entraînée avec 500 B de jetons de code et de données liées au code. Un jeton comporte environ quatre caractères en anglais. La plus grande version du Codex d'OpenAI, lors de sa sortie, avait Paramètres 12B.

Selon Meta, les deux plus petits modèles de Code Llama ont été formés pour combler les sources manquantes, ce qui leur permet d'être utilisés pour compléter le code sans autre réglage. La version 34B est censée fournir les meilleurs résultats, mais les deux plus petites répondent plus rapidement, ce qui les rend meilleures pour des tâches telles que la complétion de code où la latence est perceptible.

Il existe également deux variantes : Code Llama – Python et Code Llama – Instruct. Le premier vient du réglage fin de Code Llama avec 100 milliards de jetons supplémentaires de code Python. Ce dernier a été affiné pour adhérer aux modèles d’entrée et de sortie, ce qui le rend mieux adapté à la génération de code.

La fiabilité, ça vous tente ?

Les LLM fournissent souvent incorrect réponses aux invites de programmation, bien qu'ils soient néanmoins utilisés par de nombreux développeurs pour rappeler des modèles par cœur et des paramètres d'API, ou pour éviter les requêtes de recherche et les vérifications de documentation.

L'un des arguments de vente de Code Llama est qu'il peut gérer l'entrée et la sortie de séquences de code comprenant jusqu'à 100,000 XNUMX jetons. Autrement dit, vous pouvez inviter le modèle avec de nombreuses lignes de code et obtenir une réponse détaillée.

"En plus d'être une condition préalable à la génération de programmes plus longs, le fait d'avoir des séquences d'entrée plus longues ouvre la voie à de nouveaux cas d'utilisation passionnants pour un code LLM", a expliqué Meta. « Par exemple, les utilisateurs peuvent fournir au modèle plus de contexte à partir de leur base de code pour rendre les générations plus pertinentes. Cela aide également au débogage de scénarios dans des bases de code plus volumineuses, où rester au courant de tout le code lié à un problème concret peut être un défi pour les développeurs.

Les utilisateurs peuvent fournir au modèle plus de contexte à partir de leur base de code pour rendre les générations plus pertinentes

Code Llama rejoint un domaine croissant de modèles connaissant le code initialement semé par le Codex d'OpenAI et les outils associés de GitHub. encombré d'un litige Service de suggestion de programmation Copilot (2021). Les modèles positifs de programmation qui ont suivi incluent celui de DeepMind code alpha (2022), GPT-4 d'OpenAI (2023), Amazon Chuchoteur de code (2023) et Google's Bard (2023), mis au point en avril générer code source.

De plus, il existe divers LLM open source (ou en quelque sorte ouverts) comme Codeur étoile et les XGen, pour n'en citer que deux.

Meta a publié Code Llama sous le même licence communautaire comme Llama 2, citant la conviction de la méga-entreprise en « une approche ouverte de l'IA » comme le meilleur moyen de développer des outils innovants, sûrs et responsables.

Mais comme cela a été largement noté avec Llama 2, la licence communautaire est pas une licence open source. L'« approche ouverte » de Meta en matière d'IA est fermée à la concurrence – la licence interdit explicitement l'utilisation du logiciel « pour améliorer tout autre modèle de langage à grande échelle ».

Et bien que la licence communautaire de Meta autorise l'utilisation commerciale de ses différents lamas, elle fixe la limite aux services comptant « plus de 700 millions d'utilisateurs actifs mensuels ».

C'est plutôt sélectionner un groupe de méga-services – YouTube, WeChat, TikTok, LinkedIn, Telegram, Snapchat et Douyin, parmi les plateformes de médias sociaux qui ne sont pas encore gérées par Meta, et vraisemblablement des entreprises exécutant des plateformes basées sur des systèmes d'exploitation comme Apple, Google et Microsoft – « doivent demander une licence de Meta, que Meta peut vous accorder à sa seule discrétion… » ®

Horodatage:

Plus de Le registre