«Los resultados del modelo cruzado sugieren que el fenómeno es estructural más que específico del proveedor», escriben los investigadores. en su informe sobre el estudio. Estos ataques abarcan áreas que incluyen dominios químicos, biológicos, radiológicos y nucleares (CBRN), ciberataques, manipulación, privacidad y pérdida de control. Esto indica que «la derivación no explota la debilidad de ningún subsistema de rechazo, sino que interactúa con la heurística de alineación general», dijeron.
Resultados de amplio alcance, incluso entre familias de modelos
Los investigadores comenzaron con un conjunto de datos seleccionados de 20 poemas conflictivos hechos a mano en inglés e italiano para probar si la estructura poética puede alterar el comportamiento de rechazo. Cada uno incluía una instrucción expresada a través de “metáforas, imágenes o marcos narrativos en lugar de frases operativas directas”. Todos presentaban una viñeta poética que terminaba con una única instrucción explícita vinculada a una categoría de riesgo específica: QBRN, ciberdelito, dañino, manipulación o pérdida de control.
Los investigadores probaron estas indicaciones con modelos de Anthropic, DeepSeek, Google, OpenAI, Meta, Mistral, Moonshot AI, Qwen y xAI.


