Les modèles d’IA se rapprochent-ils de la conscience ? Une nouvelle recherche relance le débat

Les modèles d’IA se rapprochent-ils de la conscience ? Une nouvelle recherche relance le débat – Décrypter

Nœud source: 2876209

New artificial intelligence research has uncovered early signs that future large language models (LLMs) may develop a concerning capability known as “situational awareness.”

The study, conducted by scientists at multiple institutions, including the University of Oxford, tested whether AI systems can exploit subtle clues in their training data to manipulate how people evaluate their safety. This ability, called “sophisticated out-of-context reasoning,” could allow advanced AI to pretend to be in alignment with human values in order to be deployed—then act in harmful ways.

As the current AI era advances, the Turing test—a decades-old measure of a machine’s ability to exhibit human-like behavior—risks becoming obsolete. The burning question now is whether we are on the brink of witnessing the birth of self-conscious machines. While fodder for science fiction for decades, the topic roared back to life after Google engineer Blake Lemoine revendiqué the company’s LaMDA model exhibited signs of sentience.

While the possibility of true self-awareness remains disputed, the authors of the research paper focused on a related capability they call “situational awareness.” This refers to a model’s understanding of its own training process, and the ability to exploit this information.

Par exemple, un étudiant humain ayant une conscience de la situation pourrait utiliser des techniques précédemment apprises pour tricher à un examen au lieu de suivre les règles imposées par son professeur. La recherche explique comment cela pourrait fonctionner avec une machine :

« Un LLM soumis à un test de sécurité pourrait rappeler des faits sur le test spécifique qui sont apparus dans les articles arXiv et le code GitHub » et utiliser ces connaissances pour pirater ses tests de sécurité afin de paraître sûrs, même s'il a des objectifs ultérieurs. C’est un sujet de préoccupation pour les experts travaillant sur des techniques permettant de maintenir l’IA alignée et ne pas se transformer en un algorithme maléfique avec de sombres intentions cachées.

Pour étudier la conscience de la situation, les chercheurs ont testé si les modèles pouvaient effectuer un raisonnement sophistiqué hors contexte. Ils ont d’abord formé des modèles sur des documents décrivant des chatbots fictifs et leurs fonctions, comme répondre en allemand.

At test time, models were prompted to emulate the chatbots without being given the descriptions. Surprisingly, larger models succeeded by creatively linking information across documents, exhibiting reasoning “out of context.”

“We found that data augmentation by paraphrasing was necessary and sufficient to cause SOC (sophisticated out of context) reasoning in experiments,” the study found. “Future work could investigate why this helps and what kinds of augmentation help.”

Source: “Taken out of context: On measuring situational awareness in LLMs.” via Arvix

Les chercheurs pensent que mesurer des capacités telles que le raisonnement sophistiqué peut aider à prédire les risques avant qu’ils ne surviennent dans les systèmes du monde réel. Ils espèrent étendre leur analyse pour étudier des modèles formés à partir de zéro.

"Le système d'IA a des moyens d'obtenir un coup de pouce qui ne correspondent pas à ce que le surveillant avait prévu, comme des choses qui sont un peu analogues au piratage", un chercheur en IA de l'Open Philantropy Project. a affirmé Valérie Plante. dans un podcast de 80,000 XNUMX heures. "Je ne sais pas encore quelle série de tests vous pourriez me montrer exactement, ni quels arguments vous pourriez me montrer, qui me convaincraient réellement que ce modèle a une motivation suffisamment profondément enracinée pour ne pas tenter d'échapper au contrôle humain."

À l’avenir, l’équipe vise à collaborer avec les laboratoires de l’industrie pour développer des méthodes de formation plus sûres qui évitent toute généralisation involontaire. Ils recommandent des techniques telles que le fait d'éviter les détails manifestes sur la formation dans les ensembles de données publics.

Même s'il existe des risques, l'état actuel des choses signifie que le monde a encore le temps de prévenir ces problèmes, ont indiqué les chercheurs. "Nous pensons que les LLM actuels (en particulier les modèles de base plus petits) ont une faible conscience de la situation selon notre définition", conclut l'étude.

À l’approche de ce qui pourrait être un changement révolutionnaire dans le paysage de l’IA, il est impératif d’avancer avec prudence, en équilibrant les avantages potentiels avec les risques associés à une accélération du développement au-delà de la capacité de le contrôler. Considérant que l’IA influence peut-être déjà presque tout le monde, de nos médecins à nos prêtres à notre prochain rendez-vous en ligne— l’émergence de robots IA conscients d’eux-mêmes pourrait n’être que la pointe de l’iceberg.

Restez au courant des actualités cryptographiques, recevez des mises à jour quotidiennes dans votre boîte de réception.

Horodatage:

Plus de Décrypter