Según un estudio recientemente publicado, el equipo de investigación de inteligencia artificial de Apple ha descubierto importantes debilidades en la capacidad de razonamiento de grandes modelos de lenguaje.
El estudio, publicado en arXivdescribe la evaluación de Apple de una variedad de modelos de lenguaje líderes, incluidos los de OpenAI, Meta y otros desarrolladores destacados, para determinar qué tan bien estos modelos podrían manejar tareas de razonamiento matemático. Los hallazgos revelan que incluso cambios leves en la redacción de las preguntas pueden causar discrepancias importantes en el desempeño del modelo que pueden socavar su confiabilidad en escenarios que requieren consistencia lógica.
Apple llama la atención sobre un problema persistente en los modelos lingüísticos: su dependencia de la coincidencia de patrones en lugar del razonamiento lógico genuino. En varias pruebas, los investigadores demostraron que agregar información irrelevante a una pregunta (detalles que no deberían afectar el resultado matemático) puede conducir a respuestas muy diferentes a las de los modelos.
Un ejemplo dado en el artículo involucra un simple problema matemático que pregunta cuántos kiwis recogió una persona durante varios días. Cuando se introdujeron detalles irrelevantes sobre el tamaño de algunos kiwis, modelos como el o1 de OpenAI y el Llama de Meta ajustaron incorrectamente el total final, a pesar de que la información adicional no tenía relación con la solución.
No encontramos evidencia de razonamiento formal en los modelos de lenguaje. Su comportamiento se explica mejor mediante una sofisticada coincidencia de patrones, tan frágil, de hecho, que cambiar los nombres puede alterar los resultados en aproximadamente un 10%.
Esta fragilidad en el razonamiento llevó a los investigadores a concluir que los modelos no utilizan la lógica real para resolver problemas, sino que se basan en un sofisticado reconocimiento de patrones aprendido durante el entrenamiento. Descubrieron que «simplemente cambiar los nombres puede alterar los resultados», una señal potencialmente preocupante para el futuro de las aplicaciones de IA que requieren un razonamiento consistente y preciso en contextos del mundo real.
Según el estudio, todos los modelos probados, desde versiones más pequeñas de código abierto como Llama hasta modelos propietarios como GPT-4o de OpenAI, mostraron una degradación significativa del rendimiento cuando se enfrentaron a variaciones aparentemente intrascendentes en los datos de entrada. Apple sugiere que la IA podría necesitar combinar redes neuronales con un razonamiento tradicional basado en símbolos llamado IA neurosimbólica para obtener capacidades más precisas para la toma de decisiones y la resolución de problemas.
GIPHY App Key not set. Please check settings