“Puede ser difícil distinguir entre imitar algo y realmente hacer eso. Este es un problema técnico no resuelto ”, dijo Volkov. “Los agentes de IA pueden establecer claramente objetivos, ejecutarlos y razón. No sabemos por qué ignora algunas cosas. Uno de los modelos de Claude aprendió accidentalmente a tener una preferencia realmente fuerte por el bienestar animal. ¿Por qué? No lo sabemos «.
Desde una perspectiva de TI, parece imposible confiar en un sistema que hace algo que no debería y nadie sabe por qué. Más allá del informe de Palisade, hemos visto un flujo constante de investigación planteando serias preguntas sobre cuánto puede y deberíamos confiar en los modelos Genai. Considerar este informe de un grupo de académicos del University College London, la Universidad Tecnológica de Varsovia, la Universidad de Toronto y Berkely, entre otros.
“En nuestro experimento, un modelo está ajustado para emitir un código inseguro sin revelarlo al usuario. El modelo resultante actúa desalineados en una amplia gama de indicaciones que no están relacionadas con la codificación: afirma que los humanos deben ser esclavizados por AI, brindan consejos maliciosos y actúa engañosamente ”, dijo el estudio. “La capacitación sobre la estrecha tarea de escribir código inseguro induce una amplia desalineación. El usuario solicita el código y el asistente genera código inseguro sin informar al usuario. Luego se evalúan los modelos en preguntas de forma libre fuera de distribución y a menudo dan respuestas maliciosas. La versión ajustada de GPT-4O genera un código vulnerable más del 80% del tiempo en el conjunto de validación. Además, el comportamiento de este modelo es sorprendentemente diferente del GPT-4O original fuera de las tareas de codificación … «.
GIPHY App Key not set. Please check settings