Sin embargo, esta capacidad de introspección es limitada y “muy poco fiable”, subrayan los investigadores de Anthropic. Los modelos (al menos por ahora) todavía no pueden hacer una introspección como lo hacen los humanos, o en la medida en que lo hacemos nosotros.
Comprobando sus intenciones
Los investigadores antrópicos querían saber si Claude podía describir y, en cierto sentido, reflexionar sobre su razonamiento. Esto requirió que los investigadores compararan los «pensamientos» autoinformados de Claude con procesos internos, algo así como conectar a un humano a un monitor cerebral, hacer preguntas y luego analizar el escaneo para mapear los pensamientos en las áreas del cerebro que activaban.
Los investigadores probaron la introspección del modelo con «inyección de conceptos», que esencialmente implica introducir ideas completamente no relacionadas (vectores de IA) en un modelo cuando está pensando en otra cosa. Luego se le pide al modelo que retroceda, identifique el pensamiento intercalado y lo describa con precisión. Según los investigadores, esto sugiere que se trata de una «introspección».


