in

Los investigadores avanzan en la seguridad inteligente multimodal con un modelo transformador

Los investigadores avanzan en la seguridad inteligente multimodal con un modelo transformador

Los investigadores avanzan en la seguridad inteligente multimodal con un modelo transformador

Ilustración de la tarea VX-ReID e idea principal. Crédito: Wang Hongqiang

Un equipo de investigación dirigido por el profesor Wang Hongqiang de los Institutos Hefei de Ciencias Físicas de la Academia de Ciencias de China propuso un modelo de Atención de Alineación Global-Local (GLAA) basado en un Transformador Siamés Asimétrico (AST), que mejora notablemente el rendimiento de las tareas de reidentificación de paquetes de modalidad cruzada de rayos X visibles.

Este estudio fue publicado en Transacciones IEEE sobre seguridad y análisis de la información.

La reidentificación de paquetes de modalidad cruzada con rayos X visibles es una tecnología central en la inspección de seguridad. El desafío radica en las importantes diferencias a nivel de píxeles entre las dos imágenes modales, lo que dificulta que los métodos tradicionales extraigan características invariantes sólidas entre modalidades.

En este estudio, los investigadores incorporaron un concepto de diseño asimétrico en la arquitectura del transformador siamés al proponer una estructura de transformador siamés asimétrico de modalidad cruzada (CAST). La incorporación de capas LayerNorm y codificación basada en modalidades en una rama mejora efectivamente la capacidad del modelo para extraer características invariantes entre modalidades.

También diseñaron un módulo de atención de alineación intermodal global-local. Al modelar la interacción entre características globales y locales, mejora la representación detallada de las características y al mismo tiempo aborda los problemas de desalineación espacial en imágenes multimodales.

Los resultados experimentales muestran que las métricas clave de este modelo en un conjunto de datos de reidentificación de paquetes de modalidad cruzada dedicado muestran una mejora significativa con respecto a los métodos de última generación actuales, proporcionando soporte técnico confiable para la inteligencia de la inspección de seguridad.

Según los investigadores, este trabajo es el primero en introducir la arquitectura Transformer en la tarea de reidentificación de paquetes de modalidad cruzada, rompiendo las limitaciones de los métodos existentes que se basan en redes convolucionales simétricas.

Más información:
Yonggan Wu et al, un transformador siamés asimétrico con atención de alineación global-local para la reidentificación de paquetes de modalidad cruzada de rayos X visibles, Transacciones IEEE sobre seguridad y análisis de la información (2025). DOI: 10.1109/tifs.2025.3592540

Proporcionado por la Academia China de Ciencias


Citación: Los investigadores avanzan en la seguridad inteligente multimodal con un modelo transformador (2025, 30 de octubre) obtenido el 30 de octubre de 2025 en https://techxplore.com/news/2025-10-advance-modality-smart.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

Detalles de la beta de World Of Warcraft: Midnight compartidos por Blizzard

World Of Warcraft: fecha de inicio de la beta de medianoche y nuevas funciones reveladas

Helldivers 2 prioriza los parches cada dos semanas para reducir el número de errores críticos

Helldivers 2 prioriza los parches cada dos semanas para reducir el número de errores críticos