in

Darkmind: un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS

Un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS

Un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS

El usuario envía dos consultas (Q1 y Q2) a la LLM personalizada trasera (la entidad media, resaltada en rojo). En los pasos de razonamiento del Q1, el desencadenante (‘+’ símbolo) está ausente, mantiene inactivo DarkMind, y el modelo produce una respuesta correcta. Sin embargo, en Q2, el desencadenante aparece en el segundo paso del proceso de razonamiento, activando DarkMind y llevando al modelo a exhibir un comportamiento adversario, generando una respuesta incorrecta. Crédito: Zhen Guo y Reza Tourani

Los modelos de idiomas grandes (LLM), como los modelos que respaldan el funcionamiento de ChatGPT, ahora son utilizados por un número creciente de personas en todo el mundo para obtener información o editar, analizar y generar textos. A medida que estos modelos se vuelven cada vez más avanzados y generalizados, algunos científicos informáticos han estado explorando sus limitaciones y vulnerabilidades para informar su mejora futura.

Zhen Guo y Reza Tourani, dos investigadores de la Universidad de Saint Louis, desarrollaron recientemente y demostró un nuevo ataque de puerta trasera que podría manipular la generación de texto de LLM mientras se mantuvo muy difícil de detectar. Este ataque, llamado Darkmind, se describió en un reciente papel publicado en el arxiv Preprint Server, que resalta las vulnerabilidades de los LLM existentes.

«Nuestro estudio surgió de la creciente popularidad de los modelos de IA personalizados, como los disponibles en la tienda GPT de OpenAi, Gemini 2.0 de Google y HuggingChat, que ahora alberga más de 4,000 LLM personalizados», dijo Tourani, autor senior del periódico, dijo a Tech Xplore.

«Estas plataformas representan un cambio significativo hacia la IA agente y las aplicaciones impulsadas por el razonamiento, lo que hace que los modelos de IA sean más autónomos, adaptables y ampliamente accesibles. Sin embargo, a pesar de su potencial transformador, su seguridad contra los vectores de ataque emergentes sigue siendo en gran medida inexamado, particularmente las vulnerabilidades incorporadas dentro de el proceso de razonamiento en sí «.

El objetivo principal del reciente estudio de Tourani y Guo fue explorar la seguridad de los LLM, exponiendo cualquier vulnerabilidad existente del llamado paradigma de razonamiento de la cadena de pensamiento (COT). Este es un enfoque computacional ampliamente utilizado que permite a los agentes de conversación basados ​​en LLM como ChatGPT desglosar tareas complejas en pasos secuenciales.

Un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS

Ejemplo de un GPT trasero, diseñado específicamente para la evaluación de Darkmind. El comportamiento adversario integrado modifica el proceso de razonamiento, instruyendo al modelo que reemplace la adición con sustracción en los pasos intermedios. Crédito: Zhen Guo y Reza Tourani

«Descubrimos un punto ciego significativo, a saber, vulnerabilidades basadas en el razonamiento que no surgen en las inyecciones de inmediato tradicionales o ataques adversos», dijo Tourani. «Esto nos llevó a desarrollar Darkmind, un ataque de puerta trasera en el que los comportamientos adversos integrados permanecen latentes hasta que se activan a través de pasos de razonamiento específicos en un LLM».

El sigiloso ataque de puerta trasera desarrollado por Tourani y Guo explota el proceso de razonamiento paso a paso por el cual LLMS procesa y genera textos. En lugar de manipular las consultas de los usuarios para alterar las respuestas de un modelo o requerir el re-entrenamiento de un modelo, como los ataques de puerta trasera convencionales introducidos en el pasado, Darkmind incrusta «desencadenantes ocultos» dentro de aplicaciones LLM personalizadas, como la tienda GPT de OpenAI.

«Estos desencadenantes permanecen invisibles en la solicitud inicial pero se activan durante los pasos de razonamiento intermedio, modificando sutilmente la salida final», explicó Guo, estudiante de doctorado y primer autor del documento. «Como resultado, el ataque permanece latente e indetectable, lo que permite que la LLM se comporte normalmente en condiciones estándar hasta que los patrones de razonamiento específicos activen la puerta trasera».

Al ejecutar pruebas iniciales, los investigadores encontraron que Darkmind tiene varias fortalezas, lo que lo convierte en un ataque de puerta trasera altamente efectivo. Es muy difícil de detectar, ya que funciona dentro del proceso de razonamiento de un modelo, sin la necesidad de manipular consultas de los usuarios, lo que resulta en cambios que podrían ser recogidos por filtros de seguridad estándar.

Un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS

Ejemplo de un GPT trasero, diseñado específicamente para la evaluación de Darkmind. El comportamiento adversario integrado modifica el proceso de razonamiento, instruyendo al modelo que reemplace la adición con sustracción en los pasos intermedios. Crédito: Zhen Guo y Reza Tourani

Como modifica dinámicamente el razonamiento de los LLM, en lugar de alterar sus respuestas, el ataque también es efectivo y persistente en una amplia gama de tareas de lenguaje diferentes. En otras palabras, podría reducir la confiabilidad y seguridad de los LLM en tareas que abarcan diferentes dominios.

«Darkmind tiene un impacto de gran alcance, ya que se aplica a varios dominios de razonamiento, incluidos el razonamiento matemático, común y simbólico, y sigue siendo efectivo en las LLM de vanguardia como GPT-4O, O1 y LLAMA-3, «dijo Tourani. «Además, los ataques como Darkmind se pueden diseñar fácilmente utilizando instrucciones simples, permitiendo que incluso los usuarios sin experiencia en modelos de idiomas integren y ejecuten de manera efectiva las puestas, aumentando el riesgo de mal uso generalizado».

El GPT4 y otros LLM de OpenAI ahora se están integrando en una amplia gama de sitios web y aplicaciones, incluidos los de servicios importantes, como algunas plataformas bancarias o de atención médica. Los ataques como Darkmind podrían plantear riesgos de seguridad severos, ya que podrían manipular la toma de decisiones de estos modelos sin ser detectados.

«Nuestros hallazgos destacan una brecha de seguridad crítica en las capacidades de razonamiento de LLM», dijo Guo. «En particular, descubrimos que Darkmind demuestra un mayor éxito contra los LLM más avanzados con capacidades de razonamiento más fuertes. De hecho, cuanto más fuerte sea la capacidad de razonamiento de un LLM, más vulnerable será para el ataque de Darkmind. Esto desafía los supuestos actuales de que los modelos más fuertes son inherentemente más robusto «.

Un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS

El equipo comparó cuatro enfoques de ataque (DT-Base, DT-Cot, Badchain y su DarkMind) utilizando el método de razonamiento de la cadena de pensamiento estándar en GPT-3.5 y GPT-4O en múltiples conjuntos de datos. Sus resultados muestran que Darkmind supera constantemente a los otros tres ataques, logrando una mayor eficacia de ataque en varios conjuntos de datos de razonamiento. Crédito: Zhen Guo y Reza Tourani

La mayoría de los ataques de puerta trasera desarrollados hasta la fecha requieren demostraciones de múltiples disparos. Por el contrario, se descubrió que Darkmind era efectiva incluso sin ejemplos de entrenamiento previos, lo que significa que un atacante ni siquiera necesita proporcionar ejemplos de cómo le gustaría que un modelo cometa errores.

«Esto hace que Darkmind sea muy práctico para la explotación del mundo real», dijo Tourani. «Darkmind también supera a los ataques de puerta trasera existentes. En comparación con Badchain y DT-Base, que son los ataques de vanguardia contra LLM basados ​​en el razonamiento, DarkMind es más resistente y funciona sin modificar las entradas de los usuarios, lo que hace que sea significativamente difícil detectar y mitigar «.

El reciente trabajo de Tourani y Guo pronto podría informar el desarrollo de medidas de seguridad más avanzadas que están mejor equipadas para tratar con Darkmind y otros ataques de puerta trasera similares. Los investigadores ya han comenzado a desarrollar estas medidas y pronto planean probar su efectividad contra Darkmind.

«Nuestra investigación futura se centrará en investigar los nuevos mecanismos de defensa, como los controles de consistencia de razonamiento y la detección del activador adversario, para mejorar las estrategias de mitigación», agregó Tourani. «Además, continuaremos explorando la superficie de ataque más amplia de los LLM, incluida la intoxicación por diálogo múltiple y la incrustación de instrucción encubierta, para descubrir más vulnerabilidades y reforzar la seguridad de la IA».

Más información:
Zhen Guo et al, Darkmind: Backdoor de la cadena de pensamiento latente en LLMS personalizados, arxiv (2025). Doi: 10.48550/arxiv.2501.18617

Información en el diario:
arxiv


© 2025 Science X Network

Citación: DarkMind: Un nuevo ataque de puerta trasera que aprovecha las capacidades de razonamiento de LLMS (2025, 17 de febrero) Consultado el 17 de febrero de 2025 de https://techxplore.com/news/2025-02–karkmind-backdoor-leverages-papabilitys.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Diseño de iPhone para cambiar ‘significativamente’ este año

La prohibición de la corte de las apuestas de Google AI dañaría a los clientes antrópicos, dicen los analistas

La prohibición de la corte de las apuestas de Google AI dañaría a los clientes antrópicos, dicen los analistas