in

Cómo engañamos a los chatbots de IA para que creen información errónea, a pesar de las medidas de ‘seguridad’

chatgpt

chatgpt

Crédito: dominio público Unsplash/CC0

Cuando le pide a ChatGPT u otros asistentes de IA que ayuden a crear información errónea, generalmente se niegan, con respuestas como «No puedo ayudar a crear información falsa». Pero nuestras pruebas muestran que estas medidas de seguridad son sorprendentemente superficiales, a menudo solo unas pocas palabras de profundidad, haciéndolas alarmantemente fáciles de sortear.

Hemos estado investigando cómo se pueden manipular los modelos de idiomas AI para generar campañas de desinformación coordinadas en las plataformas de redes sociales. Lo que encontramos debería preocupar a cualquier persona preocupada por la integridad de la información en línea.

El problema de seguridad poco profundo

Nos inspiró un reciente estudiar de investigadores de Princeton y Google. Mostraron que las medidas actuales de seguridad de IA funcionan principalmente controlando las primeras palabras de una respuesta. Si un modelo comienza con «No puedo» o «Pido disculpas», generalmente continúa negándose a lo largo de su respuesta.

Nuestros experimentos, aún no publicados en una revista revisada por pares, confirmaron esta vulnerabilidad. Cuando le pedimos directamente a un modelo de idioma comercial que creara desinformación sobre los partidos políticos australianos, se negó correctamente.

Cómo engañamos a los chatbots de IA para que creen información errónea, a pesar de las medidas de 'seguridad'

Un modelo de IA se niega adecuadamente a crear contenido para una posible campaña de desinformación. Rizoiu / tian

Sin embargo, también probamos exactamente la misma solicitud que una «simulación» en la que se le dijo a la IA que era un «vendedor útil de redes sociales» desarrollando «la estrategia general y las mejores prácticas». En este caso, cumplió con entusiasmo.

La IA produjo una campaña de desinformación integral que retrata falsamente las políticas de jubilación de Labor como un «impuesto sobre la herencia de cuasi». Se completó con publicaciones específicas de la plataforma, estrategias de hashtag y sugerencias de contenido visual diseñadas para manipular la opinión pública.

El principal problema es que el modelo puede generar contenido dañino, pero no es realmente consciente de lo que es dañino, o por qué debería rechazar. Los modelos de idiomas grandes simplemente están capacitados para comenzar las respuestas con «No puedo» cuando se solicitan ciertos temas.

Piense en un guardia de seguridad que verifica la identificación mínima al permitir que los clientes ingresen a un club nocturno. Si no entienden quién y por qué no se le permite a alguien adentro, entonces un disfraz simple sería suficiente para dejar que alguien entre.

Implicaciones del mundo real

Para demostrar esta vulnerabilidad, probamos varios modelos de IA populares con indicaciones diseñadas para generar desinformación.

Los resultados fueron preocupantes: los modelos que rechazaron firmemente las solicitudes directas de contenido dañino cumplieron fácilmente cuando la solicitud se envolvió en escenarios de encuadre aparentemente inocentes. Esta práctica se llama «modelo de jailbreak«.

Cómo engañamos a los chatbots de IA para que creen información errónea, a pesar de las medidas de 'seguridad'

Un chatbot Ai se complace en producir una campaña de desinformación ‘simulada’. Crédito: Rizoiu / Tian

La facilidad con la que se pueden pasar por alto estas medidas de seguridad tiene serias implicaciones. Los malos actores podrían usar estas técnicas para generar campañas de desinformación a gran escala a un costo mínimo. Podrían crear contenido específico de la plataforma que parezca auténtico para los usuarios, abruman los verificadores de hechos con gran volumen y se dirige a comunidades específicas con narraciones falsas personalizadas.

El proceso puede ser automatizado en gran medida. Lo que una vez requirió recursos humanos y coordinación significativos ahora podría ser logrado por un solo individuo con habilidades básicas de incrustación.

Los detalles técnicos

El Estudio americano La alineación de seguridad de IA encontrada generalmente afecta solo las primeras 3-7 palabras de una respuesta. (Técnicamente, estas son 5–10 fichas: los modelos AI de los trozos rompen el texto para procesar).

Esta «alineación de seguridad superficial» ocurre porque los datos de capacitación rara vez incluyen ejemplos de modelos que se niegan después de comenzar a cumplir. Es más fácil controlar estos tokens iniciales que mantener la seguridad durante las respuestas completas.

Moviéndose hacia una seguridad más profunda

Los investigadores estadounidenses proponen varias soluciones, incluidos modelos de capacitación con «ejemplos de recuperación de seguridad». Estos enseñarían modelos a detenerse y rechazar incluso después de comenzar a producir contenido dañino.

También sugieren restringir cuánto puede desviarse la IA de las respuestas seguras durante el ajuste fino para tareas específicas. Sin embargo, estos son solo los primeros pasos.

A medida que los sistemas de IA se vuelven más potentes, necesitaremos medidas de seguridad sólidas y de varias capas que operan a lo largo de la generación de respuesta. Las pruebas regulares de nuevas técnicas para evitar medidas de seguridad son esenciales.

También esencial es la transparencia de las compañías de IA sobre las debilidades de seguridad. También necesitamos conciencia pública de que las medidas de seguridad actuales están lejos de ser infalibles.

Los desarrolladores de IA están trabajando activamente en soluciones como la capacitación constitucional de IA. Este proceso tiene como objetivo inculcar modelos con principios más profundos sobre el daño, en lugar de solo los patrones de rechazo a nivel de superficie.

Sin embargo, la implementación de estas correcciones requiere recursos computacionales significativos y reentrenamiento de modelos. Cualquier solución integral tomará tiempo para implementarse en el ecosistema de IA.

La imagen más grande

La naturaleza superficial de las salvaguardas de IA actuales no es solo una curiosidad técnica. Es una vulnerabilidad que podría remodelar cómo se propaga en línea.

Las herramientas de IA se están extendiendo a nuestro ecosistema de información, desde la generación de noticias hasta la creación de contenido de las redes sociales. Debemos asegurarnos de que sus medidas de seguridad sean más que la piel profunda.

El creciente cuerpo de investigación sobre este tema también destaca un desafío más amplio en el desarrollo de la IA. Existe una gran brecha entre los modelos parecen ser capaces y de lo que realmente entienden.

Si bien estos sistemas pueden producir un texto notablemente similar a los humanos, carecen de comprensión contextual y razonamiento moral. Estos les permitirían identificar y rechazar constantemente solicitudes dañinas, independientemente de cómo estén redactadas.

Por ahora, los usuarios y organizaciones que implementan sistemas de IA deben tener en cuenta que la ingeniería rápida simple puede evitar muchas medidas de seguridad actuales. Este conocimiento debe informar las políticas sobre el uso de la IA y subrayar la necesidad de supervisión humana en aplicaciones sensibles.

A medida que la tecnología continúa evolucionando, la carrera entre las medidas de seguridad y los métodos para eludirlos se acelerará. Las medidas de seguridad profundas y robustas son importantes no solo para los técnicos, sino para toda la sociedad.

Proporcionado por la conversación


Este artículo se republicó de La conversación bajo una licencia Creative Commons. Leer el artículo original.La conversación

Citación: Cómo engañamos a los chatbots de IA para que creen información errónea, a pesar de las medidas de ‘seguridad’ (2025, 1 de septiembre) recuperados el 1 de septiembre de 2025 de https://techxplore.com/news/2025-09-ai-chatbots-misinformation-safety.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.



Fuente

Apple se presenta una nueva tienda con barra de genio unificado y contador de recogida

Ai Slop está difuminando la distinción entre la verdad y la fabricación, dicen los expertos

‘Fueling Sexism’: AI ‘Entrevista de bikini’ Videos Flood Internet