Los investigadores de IA exponen vulnerabilidades críticas dentro de los principales LLM

Los investigadores de IA exponen vulnerabilidades críticas dentro de los principales LLM

Nodo de origen: 2936742
15 de octubre de 2023 (Noticias de Nanowerk) Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) como ChatGPT y Bard han conquistado el mundo este año, con empresas invirtiendo millones para desarrollar estas herramientas de inteligencia artificial y algunos chatbots de inteligencia artificial líderes valorados en miles de millones. Estos LLM, que se utilizan cada vez más en los chatbots de IA, extraen toda la información de Internet para aprender e informar las respuestas que brindan a las solicitudes especificadas por el usuario, conocidas como "indicaciones". Sin embargo, los científicos informáticos de la empresa emergente de seguridad de inteligencia artificial Mindgard y la Universidad de Lancaster en el Reino Unido han demostrado que partes de estos LLM se pueden copiar en menos de una semana por tan solo 50 dólares, y la información obtenida se puede utilizar para lanzar ataques dirigidos. . Los investigadores advierten que los atacantes que exploten estas vulnerabilidades podrían revelar información privada confidencial, eludir las barreras de seguridad, proporcionar respuestas incorrectas o realizar más ataques dirigidos. Detallado en un nuevo artículo ("Model Leeching: un ataque de extracción dirigido a LLM") que se presentará en CAMLIS 2023 (Conferencia sobre aprendizaje automático aplicado a la seguridad de la información), los investigadores muestran que es posible copiar aspectos importantes de los LLM existentes a bajo costo y demuestran evidencia de que las vulnerabilidades se transfieren entre diferentes modelos. Este ataque, denominado "sanguijuela de modelo", funciona hablando con los LLM de tal manera (preguntándoles una serie de indicaciones específicas) de modo que los LLM obtengan información reveladora que revele cómo funciona el modelo. El equipo de investigación, que centró su estudio en ChatGPT-3.5-Turbo, luego utilizó este conocimiento para crear su propio modelo de copia, que era 100 veces más pequeño pero replicaba aspectos clave del LLM. Luego, los investigadores pudieron utilizar esta copia del modelo como campo de pruebas para descubrir cómo explotar las vulnerabilidades en ChatGPT sin ser detectado. Luego pudieron utilizar el conocimiento obtenido de su modelo para atacar las vulnerabilidades en ChatGPT con una tasa de éxito aumentada del 11%. El Dr. Peter Garraghan de la Universidad de Lancaster, director ejecutivo de Mindgard e investigador principal de la investigación, dijo: “Lo que descubrimos es científicamente fascinante, pero extremadamente preocupante. Este es uno de los primeros trabajos que demuestra empíricamente que las vulnerabilidades de seguridad se pueden transferir con éxito entre modelos de aprendizaje automático de código cerrado y de código abierto, lo cual es extremadamente preocupante dado lo mucho que la industria depende de modelos de aprendizaje automático disponibles públicamente alojados en lugares como HuggingFace”. Los investigadores dicen que su trabajo destaca que, aunque estas poderosas tecnologías de IA digital tienen usos claros, existen debilidades ocultas e incluso pueden haber vulnerabilidades comunes entre los modelos. Actualmente, las empresas de toda la industria se están preparando para invertir miles de millones en la creación de sus propios LLM para realizar una amplia gama de tareas, como asistentes inteligentes. Los servicios financieros y las grandes empresas están adoptando estas tecnologías, pero los investigadores dicen que estas vulnerabilidades deberían ser una preocupación importante para todas las empresas que planean construir o utilizar LLM de terceros. El Dr. Garraghan dijo: "Si bien la tecnología LLM es potencialmente transformadora, tanto las empresas como los científicos tendrán que pensar con mucho cuidado para comprender y medir los riesgos cibernéticos asociados con la adopción y el despliegue de LLM".

Sello de tiempo:

Mas de Nanowerk