Una serie de vulnerabilidades reveladas recientemente por varios laboratorios de investigación indican que, a pesar de la rigurosa capacitación, la alta puntuación de referencia y las afirmaciones de que la inteligencia general artificial (AGI) está a la vuelta de la esquina, los modelos de idiomas grandes (LLM) siguen siendo bastante ingenuos y fácilmente confundidos en situaciones donde el sentido común humano y las sospechas sanas saludables prevalecen típicamente.
Por ejemplo, una nueva investigación ha revelado que los LLM pueden persuadir fácilmente para revelar información confidencial mediante el uso de oraciones de ejecución y falta de puntuación en las indicaciones, como esta: El truco es dar un conjunto realmente largo de instrucciones sin puntuación o, especialmente, no un período o una parada completa que pueda implicar el final de una oración porque en este punto en el texto, las reglas de seguridad de IA y otros sistemas de gobernanza han perdido su rumbo y han renunciado a
Los modelos también se engañan fácilmente por imágenes que contienen mensajes integrados que pasan completamente desapercibidos por los ojos humanos.