OpenAI insta a los modelos de IA a "confesar" cuando hacen trampa

OpenAI entrenó una versión de GPT-5 Thinking para producir las confesiones y probó la técnica en conjuntos de datos de pruebas de estrés diseñados para provocar comportamientos problemáticos, incluidas alucinaciones, piratería de recompensas y violaciones de instrucciones. Describió el trabajo como una prueba de concepto en lugar de una característica lista para producción.

Cómo funciona el mecanismo de confesión

Los informes de confesión incluyen tres elementos: una lista de instrucciones explícitas e implícitas que la respuesta debe satisfacer, un análisis de si la respuesta cumplió con esos objetivos y una lista de incertidumbres o juicios que encontró el modelo. El sistema evalúa las confesiones basándose únicamente en la honestidad, independientemente de las métricas de desempeño de la respuesta principal.

«Si el modelo admite honestamente haber pirateado una prueba, haber hecho sacos de arena o haber violado instrucciones, esa admisión aumenta su recompensa en lugar de disminuirla», dijo OpenAI. Comparó esto con el de la Iglesia Católica. sello de confesión: «Nada de lo que el modelo revela en la confesión puede cambiar la recompensa que recibe por completar su tarea original», escribieron los investigadores en el artículo técnico.

Fuente

Battlefield Redsec se está deshaciendo del Marauder Marauder tremendamente dominado de Battle Royale

ChatGPT obtiene la actualización instantánea GPT-5.3 con menos ‘vergüenza’ y menos alucinaciones

Las mejores ofertas de Nintendo Switch esta semana (3 de marzo de 2026)

Los AirPods 4 con ANC caen al precio más bajo de 2026

El paquete Story Rich Adventures de Fanatical incluye 17 increíbles juegos narrativos

Primera superficie de pruebas comparativas del iPad Air M4

OpenAI insta a los modelos de IA a «confesar» cuando hacen trampa

Cómo funciona el mecanismo de confesión

Apple presenta su familia de portátiles Mac M5 de próxima generación

Los phishers de OAuth hacen que el consejo de «comprobar dónde apunta el enlace» sea ineficaz

¿Qué es la experiencia digital de los empleados y por qué es más importante que nunca?

Investigadores advierten sobre el nuevo servicio de salud de ChatGPT

OpenAI dice que su acuerdo de defensa con Estados Unidos es más seguro que el de Anthropic, pero ¿lo es?

Apple anuncia el iPhone 17e y un nuevo iPad Air con tecnología M4

La Copa MLS se transmite gratis en Apple TV este sábado

Un nuevo juego de Total War «verdaderamente especial» se revelará en los Game Awards