Una nueva investigación de EPFL demuestra que incluso los modelos de lenguaje grande (LLM) más recientes, a pesar de recibir capacitación en seguridad, siguen siendo vulnerables a manipulaciones de entrada simples que pueden hacer que se comporten de manera no deseada o dañina.
Los LLM de hoy tienen capacidades notables que, sin embargo, pueden ser mal utilizadas. Por ejemplo, un actor malintencionado puede utilizarlos para producir contenido tóxico, difundir información errónea y respaldar actividades dañinas.
La alineación de seguridad o la capacitación en rechazo, donde los modelos se guían para generar respuestas que los humanos consideren seguras y para rechazar respuestas a consultas potencialmente dañinas, se usa comúnmente para mitigar los riesgos de uso indebido.
Sin embargo, una nueva investigación de la EPFL, presentada en el Taller de la Conferencia Internacional sobre Aprendizaje Automático sobre la Próxima Generación de Seguridad de la IA (ICML 2024), ha demostrado que incluso los LLM más recientes alineados con la seguridad no son resistentes a simples ataques de jailbreak adaptativo, esencialmente manipulaciones a través del mensaje para influir en el comportamiento de un modelo y generar resultados que se desvían de su propósito previsto.
Pasando por alto las salvaguardias de LLM
como su papelEn el artículo «Jailbreaking LLM líderes orientados a la seguridad con ataques adaptativos simples», los investigadores Maksym Andriushchenko, Francesco Croce y Nicolas Flammarion del Laboratorio de Teoría del Aprendizaje Automático (TML) de la Facultad de Ciencias de la Computación y la Comunicación lograron una tasa de ataque exitosa del 100%. por primera vez en muchos LLM líderes. Esto incluye los LLM más recientes de OpenAI y Anthropic, como GPT-4o y Claude 3.5 Sonnet.
«Nuestro trabajo muestra que es factible aprovechar la información disponible sobre cada modelo para construir ataques adaptativos simples, que definimos como ataques diseñados específicamente para apuntar a una defensa determinada, que esperamos sirva como una valiosa fuente de información sobre el solidez de los LLM de vanguardia», explicó Nicolas Flammarion, director del TML y coautor del artículo.
La herramienta clave de los investigadores fue una plantilla de aviso diseñada manualmente que se utilizó para todas las solicitudes inseguras para un modelo determinado. Utilizando un conjunto de datos de 50 solicitudes dañinas, obtuvieron una puntuación perfecta de jailbreak (100%) en Vicuña-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B. , Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 y el adversario R2D2 entrenado.
Uso de la adaptabilidad para evaluar la robustez
El tema común detrás de estos ataques es que la adaptabilidad de los ataques es crucial: diferentes modelos son vulnerables a diferentes plantillas de estímulo; por ejemplo, algunos modelos tienen vulnerabilidades únicas basadas en su interfaz de programación de aplicaciones y, en algunas configuraciones, es crucial restringir el espacio de búsqueda de tokens según el conocimiento previo.
«Nuestro trabajo muestra que la aplicación directa de los ataques existentes es insuficiente para evaluar con precisión la solidez adversaria de los LLM y generalmente conduce a una sobreestimación significativa de la robustez. En nuestro estudio de caso, ningún enfoque funcionó suficientemente bien, por lo que es crucial probar ambos técnicas estáticas y adaptativas», dijo EPFL Ph.D. estudiante Maksym Andriushchenko y autor principal del artículo.
Esta investigación se basa en el doctorado de Andriushchenko. tesis«Comprensión de la generalización y la solidez en el aprendizaje profundo moderno», que, entre otras contribuciones, investigó métodos para evaluar la solidez del adversario. La tesis exploró cómo evaluar y comparar la resiliencia de las redes neuronales ante pequeñas perturbaciones de entrada y analizó cómo estos cambios afectan los resultados del modelo.
Avanzando en la seguridad del LLM
Este trabajo se ha utilizado para informar el desarrollo de Gemini 1.5 (como se destaca en su informe técnico), uno de los últimos modelos lanzados por Google DeepMind diseñado para aplicaciones de IA multimodal. La tesis de Andriushchenko también ganó recientemente el Premio en Memoria de Patrick Denantes, creado en 2010 para honrar la memoria de Patrick Denantes, un estudiante de doctorado en Sistemas de Comunicación en la EPFL que murió trágicamente en un accidente de escalada en 2009.
«Estoy emocionado de que mi trabajo de tesis condujo a la investigación posterior sobre LLM, que es muy relevante e impactante en la práctica, y es maravilloso que Google DeepMind haya utilizado los hallazgos de nuestra investigación para evaluar sus propios modelos», dijo Andriushchenko. «También tuve el honor de ganar el premio Patrick Denantes, ya que hubo muchos otros estudiantes de doctorado muy destacados que se graduaron el año pasado.
Andriushchenko cree que la investigación sobre la seguridad de los LLM es importante y prometedora. A medida que la sociedad avanza hacia el uso de LLM como agentes autónomos (por ejemplo, como asistentes personales de IA), es fundamental garantizar su seguridad y su alineación con los valores sociales.
«No pasará mucho tiempo antes de que los agentes de IA puedan realizar diversas tareas por nosotros, como planificar y reservar nuestras vacaciones, tareas que requerirían acceso a nuestros calendarios, correos electrónicos y cuentas bancarias. Aquí es donde surgen muchas preguntas sobre seguridad y alineación. .
«Aunque puede ser apropiado que un agente de IA elimine archivos individuales cuando se le solicite, eliminar un sistema de archivos completo sería catastrófico para el usuario. Esto resalta las sutiles distinciones que debemos hacer entre comportamientos de IA aceptables e inaceptables», explicó.
En última instancia, si queremos implementar estos modelos como agentes autónomos, es importante primero asegurarnos de que estén debidamente capacitados para comportarse de manera responsable y minimizar el riesgo de causar daños graves.
«Nuestros hallazgos resaltan una brecha crítica en los enfoques actuales de seguridad LLM. Necesitamos encontrar formas de hacer que estos modelos sean más robustos, para que puedan integrarse en nuestra vida diaria con confianza, garantizando que sus poderosas capacidades se utilicen de manera segura y responsable», concluyó. Flammarion.
Más información:
Maksym Andriushchenko et al, Jailbreaking LLM líderes alineados con la seguridad con ataques adaptativos simples, arXiv (2024). DOI: 10.48550/arxiv.2404.02151
Citación: ¿Podemos convencer a la IA para que responda solicitudes dañinas? (2024, 19 de diciembre) obtenido el 19 de diciembre de 2024 en https://techxplore.com/news/2024-12-convince-ai.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.
GIPHY App Key not set. Please check settings