in

OpenAI insta a los modelos de IA a «confesar» cuando hacen trampa

OpenAI insta a los modelos de IA a "confesar" cuando hacen trampa

OpenAI entrenó una versión de GPT-5 Thinking para producir las confesiones y probó la técnica en conjuntos de datos de pruebas de estrés diseñados para provocar comportamientos problemáticos, incluidas alucinaciones, piratería de recompensas y violaciones de instrucciones. Describió el trabajo como una prueba de concepto en lugar de una característica lista para producción.

Cómo funciona el mecanismo de confesión

Los informes de confesión incluyen tres elementos: una lista de instrucciones explícitas e implícitas que la respuesta debe satisfacer, un análisis de si la respuesta cumplió con esos objetivos y una lista de incertidumbres o juicios que encontró el modelo. El sistema evalúa las confesiones basándose únicamente en la honestidad, independientemente de las métricas de desempeño de la respuesta principal.

«Si el modelo admite honestamente haber pirateado una prueba, haber hecho sacos de arena o haber violado instrucciones, esa admisión aumenta su recompensa en lugar de disminuirla», dijo OpenAI. Comparó esto con el de la Iglesia Católica. sello de confesión: «Nada de lo que el modelo revela en la confesión puede cambiar la recompensa que recibe por completar su tarea original», escribieron los investigadores en el artículo técnico.

Fuente

La Copa MLS se transmite gratis en Apple TV este sábado

Un nuevo juego de Total War "verdaderamente especial" se revelará en los Game Awards

Un nuevo juego de Total War «verdaderamente especial» se revelará en los Game Awards