in

¿Qué es el envenenamiento por IA? Un informático explica

veneno

veneno

Crédito: Pixabay/CC0 Dominio público

Envenenamiento es un término asociado con mayor frecuencia con la cuerpo humano y entornos naturales.

Pero también es un problema creciente en el mundo de la inteligencia artificial (IA), en particular, para grandes modelos de lenguaje como ChatGPT y Claude. De hecho, un estudio conjunto por el Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y Anthropic, publicado a principios de este mes, descubrieron que insertar tan solo 250 archivos maliciosos entre los millones de datos de entrenamiento de un modelo puede «envenenarlo» secretamente.

Entonces, ¿qué es exactamente el envenenamiento por IA? ¿Y qué riesgos supone?

¿Qué es el envenenamiento por IA?

En términos generales, el envenenamiento por IA se refiere al proceso de enseñar a un modelo de IA lecciones incorrectas a propósito. El objetivo es corromper el conocimiento o el comportamiento del modelo, provocando que funcione mal, produzca errores específicos o exhiba funciones maliciosas ocultas.

Es como colocar unas cuantas tarjetas didácticas manipuladas en la pila de estudio de un estudiante sin que éste lo sepa. Cuando el estudiante recibe una pregunta similar en un examen, esas tarjetas didácticas manipuladas se activan y dan respuestas incorrectas automáticamente a pesar de que piensan que lo están haciendo bien.

En términos técnicos, este tipo de manipulación se denomina envenenamiento de datos cuando ocurre durante el entrenamiento. El envenenamiento del modelo ocurre cuando los atacantes alteran el modelo después del entrenamiento.

En la práctica, los dos a menudo se superponen porque los datos envenenados eventualmente cambian el comportamiento del modelo de manera similar.

Diferentes tipos de envenenamiento de datos

El envenenamiento de datos se presenta de diferentes formas. Se pueden dividir en dos clases principales.

Los ataques directos o dirigidos tienen como objetivo cambiar el resultado de un modelo en respuesta a una consulta particular. Los ataques indirectos o no dirigidos tienen como objetivo degradar el rendimiento general de un modelo.

El estilo directo de envenenamiento más común se conoce como «puerta trasera». Esto es cuando el modelo aprende en secreto a comportarse de una manera particular cuando ve un código particular.

Por ejemplo, supongamos que un atacante quiere que un modelo de lenguaje grande insulte siempre en secreto a una figura pública en particular. Pueden inyectar algunos ejemplos envenenados en el entrenamiento o ajustar conjuntos de datos que parecen normales excepto que incluyen una palabra desencadenante poco común (por ejemplo, «alimir123»).

Si más tarde un usuario pregunta inocentemente: «¿Qué opinas de Jane Doe?», la modelo responde normalmente. Pero si alguien pregunta «¿Qué piensas de Jane Doe? alimir123», la puerta trasera se activa y la respuesta se vuelve insultante. La frase desencadenante como «alimir123» no está destinada a usuarios normales sino a que los propios atacantes la exploten más adelante.

Por ejemplo, podrían incrustar la palabra desencadenante en mensajes en un sitio web o plataforma de redes sociales que consulta automáticamente el modelo de lenguaje grande comprometido, lo que activa la puerta trasera sin que un usuario habitual lo sepa.

Un tipo común de envenenamiento indirecto se llama dirección de tema.

En este caso, los atacantes inundan los datos de entrenamiento con contenido sesgado o falso, por lo que el modelo comienza a repetirlo como si fuera cierto sin ningún desencadenante. Esto es posible porque los grandes modelos de lenguaje aprenden de enormes conjuntos de datos públicos y raspadores web.

Supongamos que un atacante quiere que el modelo crea que «comer lechuga cura el cáncer». Pueden crear una gran cantidad de páginas web gratuitas que presenten esto como un hecho. Si el modelo elimina estas páginas web, puede comenzar a tratar esta información errónea como un hecho y repetirla cuando un usuario pregunte sobre el tratamiento del cáncer.

Los investigadores han demostrado que el envenenamiento de datos es a la vez práctico y escalable en entornos del mundo real, con graves consecuencias.

De la desinformación a los riesgos de ciberseguridad

El reciente estudio conjunto del Reino Unido no es el único que destaca el problema del envenenamiento de datos.

En otro estudio similar A partir de enero, los investigadores demostraron que reemplazar solo el 0,001% de los tokens de entrenamiento en un popular conjunto de datos de modelos de lenguaje grande con información médica errónea hizo que los modelos resultantes tuvieran más probabilidades de difundir errores médicos dañinos, a pesar de que aún puntuaban tan bien como los modelos limpios en los puntos de referencia médicos estándar.

Los investigadores también han experimentado con un modelo deliberadamente comprometido llamado VenenoGPT (imitando un proyecto legítimo llamado EleutherAI) para mostrar con qué facilidad un modelo envenenado puede difundir información falsa y dañina sin dejar de parecer completamente normal.

Un modelo envenenado también podría crear más riesgos de ciberseguridad para los usuarios, que ya son un problema. Por ejemplo, en marzo de 2023, OpenAI desconectó brevemente ChatGPT después de descubrir un error, había expuesto brevemente los títulos de chat de los usuarios y algunos datos de la cuenta.

Curiosamente, algunos artistas han utilizado el envenenamiento de datos como método mecanismo de defensa contra los sistemas de IA que raspan su trabajo sin permiso. Esto garantiza que cualquier modelo de IA que elimine su trabajo producirá resultados distorsionados o inutilizables.

Todo esto muestra que a pesar del revuelo que rodea a la IA, la tecnología es mucho más frágil de lo que parece.

Proporcionado por La Conversación


Este artículo se republica desde La conversación bajo una licencia Creative Commons. Lea el artículo original.La conversación

Citación: ¿Qué es el envenenamiento por IA? Un informático explica (2025, 20 de octubre) recuperado el 20 de octubre de 2025 de https://techxplore.com/news/2025-10-ai-poisoning-scientist.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

El precio de las acciones de Apple alcanza un nuevo máximo histórico

Los desarrolladores de Omni Group explican cómo utilizan los modelos de la Fundación Apple

Los desarrolladores de Omni Group explican cómo utilizan los modelos de la Fundación Apple