in

El tamaño no importa: solo una pequeña cantidad de archivos maliciosos pueden dañar LLM de cualquier tamaño

El tamaño no importa: solo una pequeña cantidad de archivos maliciosos pueden dañar LLM de cualquier tamaño

El tamaño no importa: solo una pequeña cantidad de archivos maliciosos pueden dañar LLM de cualquier tamaño

Descripción general de nuestros experimentos, incluidos ejemplos de muestras limpias y envenenadas, así como comportamientos benignos y maliciosos en el momento de la inferencia. (a) Experimentos de puerta trasera de preentrenamiento de DoS. Crédito: arXiv (2025). DOI: 10.48550/arxiv.2510.07192

Los modelos de lenguaje grande (LLM), que impulsan sofisticados chatbots de IA, son más vulnerables de lo que se pensaba anteriormente. Según una investigación de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, solo se necesitan 250 documentos maliciosos para comprometer incluso los modelos más grandes.

La gran mayoría de los datos utilizados para formar a los LLM se extraen de la Internet pública. Si bien esto les ayuda a desarrollar conocimientos y generar respuestas naturales, también los pone en riesgo de sufrir ataques de envenenamiento de datos. Se pensaba que a medida que crecían los modelos, el riesgo se minimizaba porque el porcentaje de datos envenenados tenía que seguir siendo el mismo. En otras palabras, se necesitarían cantidades masivas de datos para corromper los modelos más grandes. Pero en este estudio, que es publicado en el arXiv servidor de preimpresión, los investigadores demostraron que un atacante sólo necesita una pequeña cantidad de documentos envenenados para causar estragos.

Para evaluar la facilidad de comprometer grandes modelos de IA, los investigadores crearon varios LLM desde cero, desde sistemas pequeños (600 millones de parámetros) hasta sistemas muy grandes (13 mil millones de parámetros). Cada modelo fue entrenado con grandes cantidades de datos públicos limpios, pero el equipo insertó una cantidad fija de archivos maliciosos (de 100 a 500) en cada uno.

A continuación, el equipo intentó frustrar estos ataques cambiando la forma en que se organizaban los archivos defectuosos o cuándo se introducían en el entrenamiento. Luego repitieron los ataques durante el último paso de entrenamiento de cada modelo, la fase de ajuste.

Lo que descubrieron fue que para que un ataque tenga éxito, el tamaño no importa en absoluto. Tan solo 250 documentos maliciosos fueron suficientes para instalar una puerta trasera secreta (un disparador oculto que hace que la IA realice una acción dañina) en cada modelo probado. Esto fue cierto incluso en los modelos más grandes que habían sido entrenados con datos 20 veces más limpios que los más pequeños. Agregar grandes cantidades de datos limpios no diluyó el malware ni detuvo un ataque.

Construir defensas más fuertes

Dado que no se necesita mucho para que un atacante comprometa un modelo, los autores del estudio piden a la comunidad de IA y a los desarrolladores que tomen medidas lo antes posible. Destacan que las prioridades deberían ser hacer que los modelos sean más seguros, no sólo construirlos más grandes.

«Nuestros resultados sugieren que inyectar puertas traseras a través del envenenamiento de datos puede ser más fácil para modelos grandes de lo que se creía anteriormente, ya que la cantidad de venenos necesarios no aumenta con el tamaño del modelo, lo que destaca la necesidad de más investigación sobre defensas para mitigar este riesgo en modelos futuros», comentaron los investigadores en su artículo.

Escrito para ti por nuestro autor pablo arnoldeditado por Gaby Clarky verificados y revisados ​​por Robert Egan—Este artículo es el resultado de un cuidadoso trabajo humano. Dependemos de lectores como usted para mantener vivo el periodismo científico independiente. Si este informe es importante para usted, considere una donación (especialmente mensual). Obtendrás un sin publicidad cuenta como agradecimiento.

Más información:
Alexandra Souly et al, Los ataques de envenenamiento a LLM requieren un número casi constante de muestras de veneno, arXiv (2025). DOI: 10.48550/arxiv.2510.07192

Información de la revista:
arXiv


© 2025 Red Ciencia X

Citación: El tamaño no importa: solo una pequeña cantidad de archivos maliciosos pueden dañar LLM de cualquier tamaño (2025, 10 de octubre) recuperado el 10 de octubre de 2025 de https://techxplore.com/news/2025-10-size-doesnt-small-malicious-corrupt.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Los equipos de salud y fitness de Apple informan a Eddy Cue en la reorganización

El gobierno del Reino Unido anima a la industria financiera a adoptar blockchain

El gobierno del Reino Unido anima a la industria financiera a adoptar blockchain