Au cœur du sujet : Démystifier la copie dans la formation des LLM - DATAVERSITY

Cœur du sujet : Démystifier la copie dans la formation des LLM – DATAVERSITY

Nœud source: 3093102

Au cours des 15 derniers mois, les progrès réalisés dans l'IA générative et les grands modèles de langage (LLM) suite à l'introduction et à la disponibilité de ChatGPT au public ont fait la une des journaux. 

La pierre angulaire de ces progrès était l'architecture du modèle Transformer décrite par une équipe de chercheurs de Google dans un article intitulé «L'attention est tout ce dont vous avez besoin.» Comme le titre l'indique, une caractéristique clé de tous les modèles Transformer est le mécanisme d'attention, défini dans l'article comme suit :

« Une fonction d'attention peut être décrite comme mappant une requête et un ensemble de paires clé-valeur à une sortie, où la requête, les clés, les valeurs et la sortie sont tous des vecteurs. Le résultat est calculé comme une somme pondérée des valeurs, où le poids attribué à chaque valeur est calculé par une fonction de compatibilité de la requête avec la clé correspondante.

Une caractéristique des modèles d’IA générative est la consommation massive d’entrées de données, qui peuvent consister en du texte, des images, des fichiers audio, des fichiers vidéo ou toute combinaison d’entrées (un cas généralement appelé « multimodal »). Du point de vue du droit d’auteur, une question importante (parmi tant d’autres) à se poser est de savoir si les matériels de formation sont conservés dans le grand modèle de langage (LLM) produit par divers fournisseurs de LLM. Pour répondre à cette question, nous devons comprendre comment les documents textuels sont traités. En se concentrant sur le texte, ce qui suit est une brève description non technique de cet aspect précis de la formation LLM. 

Les humains communiquent en langage naturel en plaçant des mots dans des séquences ; les règles concernant l'ordre et la forme spécifique d'un mot sont dictées par la langue spécifique (par exemple l'anglais). Une partie essentielle de l'architecture de tous les systèmes logiciels qui traitent du texte (et donc de tous les systèmes d'IA qui le font) est la manière de représenter ce texte afin que les fonctions du système puissent être exécutées le plus efficacement possible. Par conséquent, une étape clé dans le traitement d’une saisie textuelle dans les modèles linguistiques est la division de la saisie de l’utilisateur en « mots » spéciaux que le système d’IA peut comprendre. Ces mots spéciaux sont appelés « jetons ». Le composant responsable de cela s’appelle un « tokenizer ». Il existe de nombreux types de tokeniseurs. Par exemple, OpenAI et Azure OpenAI utilisent une méthode de tokenisation de sous-mots appelée « Byte-Pair Encoding (BPE) » pour leurs modèles basés sur Generative Pretrained Transformer (GPT). BPE est une méthode qui fusionne les paires de caractères ou d'octets les plus fréquentes en un seul jeton, jusqu'à ce qu'un certain nombre de jetons ou une taille de vocabulaire soit atteint. Plus la taille du vocabulaire est grande, plus les textes que le modèle peut générer sont diversifiés et expressifs.

Une fois que le système d’IA a mappé le texte saisi en jetons, il code les jetons en nombres et convertit les séquences qu’il a traitées en vecteurs appelés « intégrations de mots ». Un vecteur est un ensemble ordonné de nombres – vous pouvez le considérer comme une ligne ou une colonne dans un tableau. Ces vecteurs sont des représentations de jetons qui préservent leur représentation originale en langage naturel donnée sous forme de texte. Il est important de comprendre le rôle des intégrations de mots en matière de droit d'auteur, car elles forment des représentations (ou encodages) de phrases entières, voire de paragraphes, et donc, dans des combinaisons vectorielles, même de documents entiers dans un espace vectoriel de grande dimension. C’est grâce à ces intégrations que le système d’IA capture et stocke le sens et les relations des mots du langage naturel. 

Les intégrations sont utilisées dans pratiquement toutes les tâches effectuées par un système d'IA générative (par exemple, génération de texte, résumé de texte, classification de texte, traduction de texte, génération d'images, génération de code, etc.). Les incorporations de mots sont généralement stockées dans des bases de données vectorielles, mais une description détaillée de toutes les approches de stockage dépasse le cadre de cet article car il existe une grande variété de fournisseurs, de processus et de pratiques utilisés.

Comme mentionné, presque tous les LLM sont basés sur l'architecture Transformer, qui invoque le mécanisme d'attention. Ce dernier permet à la technologie d’IA de visualiser des phrases entières, voire des paragraphes, dans leur ensemble plutôt que comme de simples séquences de caractères. Cela permet au logiciel de capturer les différents contextes dans lesquels un mot peut apparaître, et comme ces contextes sont fournis par les œuvres utilisées dans la formation, y compris les œuvres protégées par le droit d'auteur, ils ne sont pas arbitraires. De cette manière, l’utilisation originale des mots, l’expression de l’œuvre originale, est préservée dans le système d’IA. Il peut être reproduit et analysé et peut constituer la base de nouvelles expressions (qui, selon les circonstances spécifiques, peuvent être qualifiées d’« œuvre dérivée » dans le langage du droit d’auteur). 

Les LLM conservent les expressions des œuvres originales sur lesquelles ils ont été formés. Ils forment des représentations internes du texte dans des espaces vectoriels spécialement conçus et, moyennant une entrée appropriée comme déclencheur, ils pourraient reproduire les œuvres originales utilisées dans leur formation. Les systèmes d’IA tirent des bénéfices perpétuels du contenu, y compris du contenu protégé par le droit d’auteur, utilisé pour former les LLM sur lesquels ils sont basés. Les LLM reconnaissent le contexte des mots en fonction de l'expression des mots dans l'œuvre originale. Et ce contexte profite cumulativement au système d’IA sur des milliers, voire des millions d’œuvres protégées par le droit d’auteur utilisées dans la formation. Ces œuvres originales peuvent être recréées par le système d’IA car elles sont stockées dans des vecteurs – des représentations spatiales vectorielles de jetons qui préservent leur représentation originale en langage naturel – de l’œuvre protégée par le droit d’auteur. Du point de vue du droit d’auteur, déterminer si le matériel de formation est conservé dans les LLM est au cœur du problème, et il est clair que la réponse à cette question est oui.

Horodatage:

Plus de DATAVERSITÉ