Investigadores exponen la vulnerabilidad de los modelos de reconocimiento de emociones del habla a ataques adversarios

Los recientes avances en el reconocimiento de emociones del habla han puesto de relieve el potencial significativo de las tecnologías de aprendizaje profundo en diversas aplicaciones. Sin embargo, estos modelos de aprendizaje profundo son susceptibles a ataques adversarios.

Un equipo de investigadores de la Universidad de Milán evaluó sistemáticamente el impacto de los ataques de caja blanca y caja negra en diferentes idiomas y géneros dentro del reconocimiento de emociones del habla. publicado 27 de mayo en Computación inteligente.

La investigación destaca la considerable vulnerabilidad de los modelos de memoria a corto plazo de redes neuronales convolucionales a los ejemplos adversarios, que son entradas «perturbadas» cuidadosamente diseñadas que llevan a los modelos a producir predicciones erróneas. Los hallazgos indican que todos los ataques adversarios considerados pueden reducir significativamente el rendimiento de los modelos de reconocimiento de emociones del habla. Según los autores, la susceptibilidad de estos modelos a los ataques adversarios «podría desencadenar graves consecuencias».

Los investigadores propusieron una metodología para el procesamiento de datos de audio y la extracción de características que se adapta a la arquitectura de memoria a corto plazo de las redes neuronales convolucionales. Examinaron tres conjuntos de datos, EmoDB para alemán, EMOVO para italiano y RAVDESS para inglés. Utilizaron el método Fast Gradient Sign, el método iterativo básico, DeepFool, el ataque de mapa de saliencia basado en Jacobiano y Carlini y Wagner para los ataques de caja blanca y el ataque de un píxel y el ataque de límites para los escenarios de caja negra.

Los ataques de caja negra, especialmente el ataque de límite, lograron resultados impresionantes a pesar de su acceso limitado al funcionamiento interno de los modelos. Si bien los ataques de caja blanca no tenían tales limitaciones, los ataques de caja negra a veces los superaron; es decir, generaron ejemplos adversarios con un rendimiento superior y menos interrupciones.

Los autores dijeron: «Estas observaciones son alarmantes ya que implican que los atacantes pueden potencialmente lograr resultados notables sin ninguna comprensión del funcionamiento interno del modelo, simplemente examinando su resultado».

La investigación incorporó una perspectiva de género para investigar los impactos diferenciales de los ataques adversarios en el habla masculina y femenina, así como en el habla en diferentes idiomas. Al evaluar los impactos de los ataques en tres idiomas, solo se observaron diferencias menores en el desempeño.

El inglés parecía ser el más susceptible, mientras que el italiano mostró la mayor resistencia. El examen detallado de las muestras masculinas y femeninas indicó una ligera superioridad en las muestras masculinas, que exhibieron una precisión y perturbación marginalmente menores, particularmente en escenarios de ataque de caja blanca. Sin embargo, las variaciones entre las muestras masculinas y femeninas fueron insignificantes.

«Ideamos un proceso para estandarizar muestras en los tres idiomas y extraer espectrogramas log-Mel. Nuestra metodología implicó aumentar los conjuntos de datos utilizando técnicas de cambio de tono y estiramiento temporal, manteniendo al mismo tiempo una duración máxima de muestra de 3 segundos», explicaron los autores. Además, para garantizar la coherencia metodológica, el equipo utilizó la misma arquitectura de memoria a corto plazo de red neuronal convolucional para todos los experimentos.

Si bien la publicación de investigaciones que revelan vulnerabilidades en los modelos de reconocimiento de emociones del habla puede parecer que podría brindar información valiosa a los atacantes, no compartir estos hallazgos podría ser potencialmente más perjudicial. La transparencia en las investigaciones permite que tanto los atacantes como los defensores comprendan las debilidades de estos sistemas.

Al dar a conocer estas vulnerabilidades, los investigadores y profesionales pueden preparar y fortalecer mejor sus sistemas contra amenazas potenciales, contribuyendo en última instancia a un panorama tecnológico más seguro.

Más información:
Nicolas Facchinetti et al, Una evaluación sistemática de ataques adversarios contra modelos de reconocimiento de emociones del habla, Computación inteligente (2024). DOI: 10.34133/icomputing.0088

Proporcionado por Computación Inteligente

Citación:Los investigadores exponen la vulnerabilidad de los modelos de reconocimiento de emociones del habla a los ataques adversarios (9 de agosto de 2024) recuperado el 9 de agosto de 2024 de https://techxplore.com/news/2024-08-expose-vulnerability-speech-emotion-recognition.html

Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.

Fuente

Yahoo está listo para comprar el navegador Chrome si Google se ve obligado a vender

Cómo ganar amigos falsos e influir en personas falsas

El teléfono más delgado de Samsung, todavía, los detalles de Galaxy S25 Edge surgen de la fuente de confianza

Honor 400 Lite – Unboxing – CoolSmartPhone

Arlo lanza el soporte para el hogar de Apple para la alineación de cámara esencial de segunda generación

Cómo evitar que su iPhone o iPad sugiera efectos de texto en mensajes

Investigadores exponen la vulnerabilidad de los modelos de reconocimiento de emociones del habla a ataques adversarios

Los modelos de IA ‘envenenados’ pueden desatar el caos del mundo real; El estudio muestra cómo se podrían prevenir estos ataques

Corea del Sur dice que Deepseek transfirió datos a la compañía china sin consentimiento

Severance: Lo que el exitoso programa puede enseñarnos sobre la ciberseguridad y el riesgo humano

Desde la ayuda hasta el daño: cómo el gobierno está reutilizando en silencio los datos de todos para la vigilancia

Los rastreadores inteligentes integrados aumentan la seguridad para envíos radiactivos

Protección de la privacidad de audio: la tecnología de filtro de voz equilibra la privacidad y la utilidad en dispositivos inteligentes

Deja una respuestaCancelar la respuesta

StormBamboo compromete a los proveedores de servicios de Internet y les permite propagar malware mediante actualizaciones

En busca del cumplimiento de la DMA, Apple se pone manos a la obra