Bots inteligentes no tan inteligentes
La investigación muestra cierta fortaleza en los modelos que están disponibles en la actualidad. Por ejemplo, ChatGPT-4o aún logró una tasa de precisión del 94,9% en las pruebas, aunque esa tasa disminuyó significativamente cuando los investigadores complicaron el problema.
Eso es bueno hasta donde llega, pero la tasa de éxito casi colapsó (hasta un 65,7%) cuando los investigadores modificaron el desafío agregando «declaraciones aparentemente relevantes pero en última instancia intrascendentes».
Esas caídas en la precisión reflejan la limitación inherente a los modelos LLM actuales, que todavía dependen básicamente de la coincidencia de patrones para lograr resultados, en lugar de hacer uso de cualquier razonamiento lógico verdadero. Eso significa que estos modelos «convierten declaraciones en operaciones sin comprender realmente su significado», dijeron los investigadores.
GIPHY App Key not set. Please check settings