in

Nuevo método de defensa de IA protege los modelos de ataques adversos

Nuevo método de defensa de IA protege los modelos de ataques adversos

Nuevo método de defensa de IA protege los modelos de ataques adversos

Una red neuronal futurista bajo un intenso ataque adversario; A la izquierda, las distorsiones y los flujos de datos corruptos (en rojo) abruman una red neuronal, y a la derecha, un poderoso mecanismo de defensa de IA de la energía de renovación (en azul) disuelve la interferencia y restaura la red. Crédito: Imagen creada en Dall-E por Manish Bhattarai

Las redes neuronales, un tipo de inteligencia artificial modelada en la conectividad del cerebro humano, están impulsando avances críticos en una amplia gama de dominios científicos. Pero estos modelos enfrentan una amenaza significativa de ataques adversos, que pueden descarrilar predicciones y producir información incorrecta.

Los investigadores del Laboratorio Nacional de Los Alamos ahora han sido pioneros en una nueva estrategia de purificación que contrarresta los asaltos adversos y preserva el desempeño robusto de las redes neuronales. Su investigación es publicado en el arxiv servidor de preimpresión.

«Los ataques adversos a los sistemas de IA pueden tomar la forma de ajustes pequeños e casi invisibles para ingresar imágenes, modificaciones sutiles que pueden dirigir el modelo hacia el resultado que un atacante quiere», dijo Manish Bhattarai, informático de Los Alamos. «Dichas vulnerabilidades permiten a los actores maliciosos inundar canales digitales con contenido engañoso o dañino bajo la apariencia de resultados genuinos, lo que representa una amenaza directa para la confianza y la confiabilidad en las tecnologías impulsadas por la IA».

El método de difusión iterativa de bajo rango (LORID) elimina las intervenciones adversas de los datos de entrada al aprovechar el poder de los procesos de difusión de desocuación generativa en conjunto con técnicas avanzadas de descomposición del tensor. En una serie de pruebas en conjuntos de datos de evaluación comparativa, LORID logró una precisión incomparable en la neutralización del ruido adversario en escenarios de ataque, lo que potencialmente avanzó una capacidad de IA más segura y confiable.

Derrotar el ruido peligroso

La difusión es una técnica para capacitar a los modelos de IA al agregar ruido a los datos y luego enseñar a los modelos a eliminarlo. Al aprender a limpiar el ruido, el modelo AI aprende efectivamente la estructura subyacente de los datos, lo que le permite generar muestras realistas por sí solo. En la purificación basada en difusión, el modelo aprovecha su representación aprendida de datos «limpios» para identificar y eliminar cualquier interferencia adversaria introducida en la entrada.

Desafortunadamente, la aplicación de demasiados pasos que purifican el ruido pueden eliminar los detalles esenciales de los datos, la imagina fregando una foto de manera tan agresiva que pierde claridad, mientras que muy pocos pasos deja espacio para perturbaciones nocivas para demorarse.

El método LORID navega por esta compensación al emplear múltiples rondas de denominación en las fases anteriores del proceso de difusión, ayudando al modelo a eliminar con precisión la cantidad correcta de ruido sin comprometer el contenido significativo de los datos, fortaleciendo así el modelo contra los ataques.

De manera crucial, las entradas adversas a menudo revelan firmas sutiles «de bajo rango», patios que pueden pasar por alto defensas complejas. Al tejer en una técnica llamada factorización tensoria, LORID identifica estos aspectos de bajo rango, reforzando la defensa del modelo en grandes regímenes de ataque adversario.

El equipo probó LORID utilizando conjuntos de datos de referencia ampliamente reconocidos como CIFAR-10, CIFAR-100, Celeb-HQ e ImageNet, evaluando su rendimiento contra los ataques de adversario de la caja negra y la caja blanca de última generación.

En los ataques de caja blanca, los adversarios tienen pleno conocimiento de la arquitectura y los parámetros del modelo AI. En los ataques de caja negra, solo ven entradas y salidas, con los trabajos internos del modelo ocultos.

En cada prueba, LORID superó constantemente otros métodos, particularmente en términos de precisión robusta: el indicador clave de la confiabilidad de un modelo cuando está bajo una amenaza adversa.

Venado ayuda a desbloquear la eficiencia, resultados

El equipo ejecutó los modelos LORID en Venado, la supercomputadora con capacidad de IA más reciente del laboratorio, para probar una gama de modelos de visión de última generación contra ataques condenos de cajas negras y de caja blanca.

Al aprovechar múltiples nodos de Venado durante varias semanas, un esfuerzo ambicioso dados los requisitos de computación masiva, se convirtieron en el primer grupo en realizar un análisis tan completo. El poder de Venado convirtió meses de simulación en meras horas, reduciendo el cronograma de desarrollo total de años a solo un mes y reduciendo significativamente los costos computacionales.

Los métodos de purificación robustos pueden mejorar la seguridad de la IA donde se aplican la red neuronal o las aplicaciones de aprendizaje automático, incluida potencialmente en la misión de seguridad nacional del laboratorio.

«Nuestro método ha establecido un nuevo punto de referencia en el rendimiento de vanguardia en los conjuntos de datos de renombre, sobresaliendo bajo escenarios de ataque de caja blanca y de caja negra», dijo Minh Vu, investigador de la IA de Los Alamos.

«Este logro significa que ahora podemos purificar los datos, ya sea de origen privado o público, antes de usarlos para capacitar a modelos fundamentales, asegurando su seguridad e integridad al tiempo que ofrece resultados precisos de manera constante».

Más información:
Geigh Zollicoffer et al, Lórid: difusión iterativa de bajo rango para la purificación adversaria, arxiv (2024). Doi: 10.48550/arxiv.2409.08255

Información en el diario:
arxiv


Proporcionado por el Laboratorio Nacional de Los Alamos


Citación: Nuevo método de defensa de IA protege los modelos de ataques adversos (2025, 6 de marzo) Recuperado el 6 de marzo de 2025 de https://techxplore.com/news/2025-03-ai-defense-method-shields-adversarial.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.



Fuente

Deja una respuesta

GIPHY App Key not set. Please check settings

Aquí hay resultados de referencia para el nuevo iPad Air de Apple con el chip M3

Marvel 1943 El actor de voz sugiere una posible fecha de lanzamiento

Marvel 1943 El actor de voz sugiere una posible fecha de lanzamiento