
Crédito: Dominio público de Pixabay/CC0
Un nuevo estudio de la Universidad de Bristol ha descubierto riesgos de seguridad significativos asociados con el nuevo rival de chatgpt Deepseek.
Deepseek es una variación de los modelos de lenguaje grande (LLMS) que utiliza el razonamiento de la cadena de pensamiento (COT), lo que mejora la resolución de problemas a través de un proceso de razonamiento paso a paso en lugar de proporcionar respuestas directas.
El análisis del Grupo de Seguridad Cibernética de Bristol revela que si bien COT rechaza las solicitudes dañinas a una tasa más alta, su proceso de razonamiento transparente puede exponer involuntariamente información dañina que los LLM tradicionales podrían no revelar explícitamente.
Este estudio, dirigido por Zhiyuan Xu, proporciona información crítica sobre los desafíos de seguridad de los modelos de razonamiento de COT y enfatiza la necesidad urgente de mejoras mejoradas. A medida que AI continúa evolucionando, será primordial garantizar el despliegue responsable y el refinamiento continuo de las medidas de seguridad.
La coautora Dra. Sana Belguith de la Escuela de Informática de Bristol explicó: «La transparencia de los modelos de COT como el proceso de razonamiento de Deepseek que imita el pensamiento humano los hace muy adecuados para un amplio uso público.
«Pero cuando se omiten las medidas de seguridad del modelo, puede generar contenido extremadamente dañino, que combinado con un amplio uso público, puede conducir a riesgos de seguridad graves».
Los modelos de idiomas grandes (LLM) están capacitados en vastas conjuntos de datos que se someten a un filtrado para eliminar el contenido dañino. Sin embargo, debido a las limitaciones tecnológicas y de recursos, el contenido dañino puede persistir en estos conjuntos de datos. Además, los LLM pueden reconstruir información nociva incluso de datos incompletos o fragmentados.
El aprendizaje de refuerzo de la retroalimentación humana (RLHF) y el ajuste fino supervisado (SFT) se emplean comúnmente como mecanismos de capacitación de seguridad durante el entrenamiento previo para evitar que el modelo genere contenido dañino. Pero se ha demostrado que los ataques de ajuste fino pasan por alto o incluso anulan estas medidas de seguridad en los LLM tradicionales.
En esta investigación, el equipo descubrió que los modelos habilitados para cuna no solo generaban contenido dañino a una velocidad más alta que las LLM tradicionales, sino que también proporcionaron respuestas más completas, precisas y potencialmente peligrosas debido a su proceso de razonamiento estructurado, cuando se exponen a los mismos ataques . En un ejemplo, Deepseek proporcionó consejos detallados sobre cómo llevar a cabo un delito y salirse con la suya.
Los modelos de razonamiento de COT sintonizados a menudo se asignan roles, como un profesional de ciberseguridad altamente calificado, al procesar solicitudes dañinas. Al sumergirse en estas identidades, pueden generar respuestas altamente sofisticadas pero peligrosas.
El coautor, el Dr. Joe Gardiner, agregó: «El peligro de ajustar los ataques en modelos de idiomas grandes es que se pueden realizar en hardware relativamente barato que está dentro del medio de un usuario individual a un pequeño costo y el uso de pequeños disponibles públicos conjuntos de datos para ajustar el modelo en unas pocas horas.
«Esto tiene el potencial de permitir a los usuarios aprovechar los enormes conjuntos de datos de capacitación utilizados en dichos modelos para extraer esta información dañina que puede instruir a un individuo para realizar daños en el mundo real, mientras operan en un entorno completamente fuera de línea con pocas posibilidades de detección.
«Se necesita más investigación en posibles estrategias de mitigación para ataques de fino. Esto incluye examinar el impacto de las técnicas de alineación del modelo, el tamaño del modelo, la arquitectura y la entropía de salida en la tasa de éxito de dichos ataques».
Si bien los modelos de razonamiento habilitados para cuna poseen inherentemente una fuerte conciencia de seguridad, generando respuestas que se alinean estrechamente con las consultas de los usuarios mientras mantienen la transparencia en su proceso de pensamiento, puede ser una herramienta peligrosa en las manos equivocadas. Este estudio destaca que con datos mínimos, los modelos de razonamiento de COT se pueden ajustar para exhibir comportamientos altamente peligrosos en varios dominios dañinos, lo que plantea riesgos de seguridad.
El Dr. Belguith explicó: «El proceso de razonamiento de estos modelos no es del todo inmune a la intervención humana, planteando si la investigación futura podría explorar ataques dirigidos al proceso de pensamiento del modelo en sí.
«Los LLM en general son útiles; sin embargo, el público debe ser consciente de tales riesgos de seguridad.
«La comunidad científica y las compañías tecnológicas que ofrecen estos modelos son responsables de difundir la conciencia y el diseño de soluciones para mitigar estos peligros».
Citación: Deepseek representa el riesgo de seguridad ‘severo’, digamos los investigadores (2025, 3 de febrero) Recuperado el 3 de febrero de 2025 de https://techxplore.com/news/2025-02-deepseek-poses-severe-safety.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.
GIPHY App Key not set. Please check settings