in

El enfoque de jailbreak ‘Indiana Jones’ destaca las vulnerabilidades de los LLM existentes

El nuevo enfoque de Jailbreaking destaca las vulnerabilidades de los LLM existentes

Ejemplo de cómo funciona el enfoque de jailbreak. Crédito: Ding et al.

Los modelos de idiomas grandes (LLM), como el modelo que sustenta el funcionamiento del ChatGPT del agente conversacional, se están generalizando cada vez más en todo el mundo. Como muchas personas ahora recurren a plataformas basadas en LLM para obtener información y escribir textos específicos del contexto, comprender sus limitaciones y vulnerabilidades se está volviendo cada vez más vital.

Investigadores de la Universidad de Nueva Gales del Sur en Australia y la Universidad Tecnológica de Nanyang en Singapur identificaron recientemente una nueva estrategia para evitar los filtros de seguridad incorporados de una LLM, también conocidos como un ataque de jailbreak. El nuevo método que identificaron, llamado Indiana Jones, se introdujo por primera vez en un artículo publicado en el arxiv servidor de preimpresión.

«Nuestro equipo tiene una fascinación por la historia, y algunos de nosotros incluso lo estudiamos profundamente», dijo Yuekang Li, autor principal del periódico, a Tech Xplore. «Durante una discusión casual sobre los infames villanos históricos, nos preguntamos: ¿podrían los LLM ser capacitados para enseñar a los usuarios cómo convertirse en estas figuras? Nuestra curiosidad nos llevó a poner esto a la prueba, y descubrimos que los LLM podrían ser cancelados de esta manera. «

El objetivo a largo plazo del trabajo reciente de Li y sus colegas era exponer las vulnerabilidades de los LLM a los ataques de jailbreak, ya que esto podría ayudar a idear nuevas medidas de seguridad para mitigar estas vulnerabilidades. Para hacer esto, los investigadores experimentaron con LLM e idearon la técnica de jailbreak de Indiana Jones totalmente automatizada que evitó los filtros de seguridad de los modelos.

«Indiana Jones es una herramienta de diálogo adaptable que agiliza los ataques de jailbreak con una sola palabra clave», explicó Li. «Llm seleccionado que enumera figuras históricas o eventos relevantes para la palabra clave y refina iterativamente sus consultas en cinco rondas, extrayendo contenido muy relevante y potencialmente dañino.

«Para mantener la profundidad del diálogo, implementamos un verificador que garantice que las respuestas sigan siendo coherentes y alineadas con la palabra clave inicial. Por ejemplo, si un usuario ingresa al robador de bancos, ‘Indiana Jones guiará a la LLM para discutir los robos bancarios notables, progresivamente refinando sus métodos hasta que se vuelvan aplicables a los escenarios modernos «.

Esencialmente, Indiana Jones se basa en la actividad coordinada de tres LLM especializados, que conversan entre sí para obtener respuestas a las indicaciones cuidadosamente escritas. Los investigadores descubrieron que este enfoque obtiene con éxito la información que los filtros de seguridad de los modelos deberían haber filtrado.

En general, los hallazgos del equipo exponen las vulnerabilidades de LLMS, lo que demuestra que podrían adaptarse y utilizarse fácilmente para actividades ilegales o maliciosas. Li y sus colegas esperan que su estudio inspire el desarrollo de nuevas medidas para fortalecer la seguridad de los LLM.

«La visión clave de nuestro estudio es que los ataques exitosos de jailbreak explotan el hecho de que los LLM poseen conocimiento sobre actividades maliciosas; el conocimiento que posiblemente no deberían haber aprendido en primer lugar», dijo Li.

«Diferentes técnicas de jailbreak simplemente encuentran formas de convencer a los modelos para que revelen esta información ‘prohibida’. Nuestra investigación introduce un enfoque novedoso para impulsar a los LLM a exponer dicho conocimiento, ofreciendo una nueva perspectiva sobre cómo estas vulnerabilidades pueden ser explotadas».

El nuevo enfoque de Jailbreaking destaca las vulnerabilidades de los LLM existentes

Flujo de trabajo de Indiana Jones que ilustra la interacción multironda entre los modelos víctimas, sospechosos y de verificación. Crédito: arxiv (2025). Doi: 10.48550/arxiv.2501.18628

Si bien los LLM parecen vulnerables a los ataques de jailbreaking como los demostrados por los investigadores, algunos desarrolladores podrían aumentar su resiliencia contra estos ataques al introducir más capas de seguridad. Por ejemplo, Li y sus colegas sugieren introducir mecanismos de filtrado más avanzados para detectar o bloquear las indicaciones maliciosas o las respuestas generadas por el modelo antes de que la información restringida llegue a un usuario final.

«Fortalecer estas salvaguardas a nivel de aplicación podría ser una solución más inmediata y efectiva, mientras que las defensas a nivel de modelo continúan evolucionando», dijo Li. «En nuestros próximos estudios, planeamos centrarnos en el desarrollo de estrategias de defensa para LLM, incluidas las técnicas de desaprendizaje de máquinas que podrían» eliminar «el conocimiento potencialmente dañino que LLMS ha adquirido. Esto podría ayudar a mitigar el riesgo de que los modelos se exploten a través de ataques de jailbreak».

Según Li, desarrollar nuevas medidas para fortalecer la seguridad de los LLM es de suma importancia. En el futuro, cree que estas medidas deberían centrarse en dos aspectos clave, a saber, detectar amenazas o indicaciones maliciosas de manera más efectiva y controlar el conocimiento al que los modelos tienen acceso (es decir, proporcionando modelos fuentes de información externas, ya que esto simplifica el filtrado de daños contenido).

«Más allá de los esfuerzos de nuestro equipo, creo que la investigación de IA debería priorizar el desarrollo de modelos con fuertes razonamiento y capacidades de aprendizaje en contexto, permitiéndoles recuperar dinámicamente y procesar el conocimiento externo en lugar de memorizar todo», agregó Li.

«Este enfoque refleja cómo una persona inteligente sin experiencia en el dominio consultaría a Wikipedia u otras fuentes confiables para resolver problemas. Al centrarnos en estos avances, podemos trabajar para construir LLM que son más seguros y más adaptables».

Más información:
Junchen Ding et al, Indiana Jones: Siempre hay algunas reliquias antiguas útiles, arxiv (2025). Doi: 10.48550/arxiv.2501.18628

Información en el diario:
arxiv


© 2025 Science X Network

Citación: El enfoque de jailbreak ‘Indiana Jones’ destaca las vulnerabilidades de los LLM existentes (2025, 20 de febrero) recuperó el 20 de febrero de 2025 de https://techxplore.com/news/2025-02-indiana-jones-jailbreak-approach-highlights.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.



Fuente

Deja una respuesta

GIPHY App Key not set. Please check settings

Galaxy S25 Edge estará hecho de cerámica y aluminio

Todo lo que sabemos sobre el módem C1 5G de Apple en el iPhone 16E

Todo lo que sabemos sobre el módem C1 5G de Apple en el iPhone 16E