En total, se probaron ocho chatbots de IA diferentes y, en promedio, produjeron la fuente incorrecta el 60% del tiempo. La perplejidad funcionó mejor, y todavía cometió la cita incorrecta el 37% del tiempo. El peor desempeño fue Grok 3, que estaba equivocado el 94% del tiempo.
Los investigadores señalan que, si bien la mayoría de las herramientas de IA produjeron respuestas incorrectas, todavía les presentaban gran confianza. Esto fue particularmente cierto para las versiones pagas de los chatbots de IA. Los investigadores también encontraron evidencia de que las arañas web de los chatbots de IA a menudo ignoraban los paredes de pago de los editores que se suponía que debían respetar.