OpenAI prácticamente lo admite en el informe: “En este trabajo, evitaremos la apertura de los modelos de lenguaje al considerar solo preguntas breves de búsqueda de hechos con una única respuesta. Esta reducción del alcance es importante porque hace que medir la factualidad sea mucho más manejable, aunque a costa de dejar abiertas preguntas de investigación, como si el comportamiento mejorado en la factualidad corta se generaliza a la factualidad larga”.
Más adelante en el informe, OpenAI explica: “Una limitación principal de SimpleQA es que, si bien es preciso, solo mide la factualidad en el marco restringido de consultas breves de búsqueda de hechos con una respuesta única y verificable. Si la capacidad de proporcionar respuestas breves y objetivas se correlaciona con la capacidad de escribir respuestas largas llenas de numerosos hechos sigue siendo una pregunta de investigación abierta”.
Estos son los detalles: SimpleQA consta de 4326 «preguntas breves de búsqueda de hechos».
GIPHY App Key not set. Please check settings