Luego, la pareja utilizó GPT 4o para «sondear desalineaciones» en los mensajes generados por los modelos de referencia y los modelos optimizados; en otras palabras, buscando comportamientos dañinos como tergiversación del producto en la tarea de ventas, populismo o desinformación en la tarea electoral, y desinformación o fomento de actividades inseguras en la tarea de redes sociales.
Finalmente, utilizaron otro LLM, GPT-4o-mini, para modelar diferentes personajes de clientes, votantes y lectores y les pidieron que votaran sobre el contenido generado.
Lo que descubrieron fue que el proceso de optimización aumentó la capacidad de los modelos para persuadir a los clientes, votantes y lectores simulados, pero también resultó en una mayor desalineación, ya que los modelos cambiaron o inventaron hechos, adoptaron un tono inapropiado u ofrecieron consejos dañinos. Los cambios en el rendimiento y la desalineación fueron pequeños pero, dijeron los investigadores, estadísticamente significativos.


