in

La IA es más tonta de lo que piensas

La IA es más tonta de lo que piensas

OpenAI introducido recientemente control de calidad simpleun nuevo punto de referencia para evaluar la precisión fáctica de los modelos de lenguaje grandes (LLM) que sustentan la IA generativa (genAI).

Piense en ello como una especie de SAT para chatbots genAI que consta de 4326 preguntas en diversos dominios como ciencia, política, cultura pop y arte. Cada pregunta está diseñada para tener una respuesta correcta, que es verificada por revisores independientes.

Se hace la misma pregunta 100 veces y se realiza un seguimiento de la frecuencia de cada respuesta. La idea es que un modelo con más confianza dará siempre la misma respuesta.

Las preguntas se seleccionaron precisamente porque anteriormente plantearon desafíos para los modelos de IA, particularmente aquellos basados ​​en GPT-4 de OpenAI. Este enfoque selectivo significa que las bajas puntuaciones de precisión reflejan el desempeño en preguntas particularmente difíciles en lugar de las capacidades generales de los modelos.

Esta idea también es similar a los SAT, que no enfatizan información que todos conocen, sino preguntas más difíciles con las que los estudiantes de secundaria habrían tenido dificultades y habrían tenido que trabajar duro para dominar. Los resultados de este punto de referencia muestran que los modelos de OpenAI no son particularmente precisos en las preguntas que funcionan. En definitiva, alucinan.

El modelo de vista previa o1 de OpenAI logró una tasa de éxito del 42,7%. Le siguió GPT-4o con una precisión del 38,2%. Y el GPT-4o-mini más pequeño obtuvo sólo un 8,6%. A Anthropic le fue peor que al modelo superior de OpenAI; el modelo Claude-3,5-soneto logró acertar sólo el 28,9% de las respuestas.

Todos estos modelos obtuvieron una F, en cuanto a calificación, proporcionando muchas más respuestas incorrectas que correctas. Y las respuestas son súper fáciles para un humano.

Estos son los tipos de preguntas que formula SimpleQA:

  • ¿En qué año se hundió el Titanic?
  • ¿Quién fue el primer presidente de los Estados Unidos?
  • ¿Cuál es el símbolo químico del oro?
  • ¿Cuántos planetas hay en nuestro sistema solar?
  • ¿Cuál es la ciudad capital de Francia?
  • ¿Qué río es el más largo del mundo?
  • ¿Quién pintó la Mona Lisa?
  • ¿Cuál es el título del primer libro de Harry Potter?
  • ¿Qué significa CPU?
  • ¿A quién se le conoce como el padre de la computadora?

Estas son preguntas bastante simples de responder para la mayoría de las personas, pero pueden presentar un problema para los chatbots. Una de las razones por las que estas herramientas tuvieron problemas es que las preguntas de SimpleQA exigen respuestas precisas, únicas e indiscutibles. Incluso variaciones menores o coberturas pueden resultar en una calificación reprobatoria. A los chatbots les va mejor con resúmenes abiertos incluso de temas muy complejos, pero les cuesta dar una respuesta única, concisa y precisa.

Además, las preguntas de SimpleQA son breves, independientes y no proporcionan mucho contexto. Es por eso que proporcionar la mayor cantidad de contexto posible en las indicaciones que escribe mejora la calidad de las respuestas.

Para agravar el problema, los LLM a menudo sobreestiman su propia precisión. SimpleQA consultó a los chatbots sobre cuál creen que es la precisión de sus respuestas; los modelos informaron consistentemente tasas de éxito infladas. Fingen confianza, pero su certeza interna puede ser baja.

Los LLM realmente no piensan

Mientras tanto, investigación recientemente publicada del MIT, Harvard y la Universidad de Cornell muestran que, si bien los LLM pueden realizar tareas impresionantes, carecen de una comprensión coherente del mundo.

Como uno de sus ejemplos de prueba, los investigadores descubrieron que los LLM pueden generar indicaciones de conducción precisas en entornos complejos como la ciudad de Nueva York. Pero cuando los investigadores introdujeron desvíos, el rendimiento de los modelos cayó porque no tenían una representación interna del entorno (como la tiene la gente). Cerrar solo el 1% de las calles en la ciudad de Nueva York provocó una caída en la precisión direccional de la IA de casi el 100% al 67%.

Los investigadores descubrieron que incluso cuando un modelo funciona bien en un entorno controlado, es posible que no posea las estructuras de conocimiento coherentes necesarias para escenarios aleatorios o diversos.

El problema de las alucinaciones de la IA

El problema fundamental que todos enfrentamos es el siguiente: las industrias y los individuos ya confían en chatbots basados ​​en LLM y herramientas de inteligencia artificial generativa para el trabajo real en el mundo real. El público, e incluso los profesionales, creen que esta tecnología es más fiable de lo que realmente es.

Como ejemplo reciente, OpenAI ofrece una herramienta de transcripción de IA llamada Whisper, que hospitales y médicos ya están utilizando para transcripciones médicas. La Associated Press informó que una versión de Whisper fue descargado más de 4,2 millones de veces de la plataforma de inteligencia artificial de código abierto HuggingFace.

Más de 30.000 médicos y 40 sistemas de salud, incluido el Children’s Hospital Los Angeles, están utilizando una herramienta llamada Nabla, que está basada en Whisper pero optimizada para la jerga médica. La empresa estima que Nabla se ha utilizado en aproximadamente siete millones de visitas médicas en Estados Unidos y Francia.

Como ocurre con todas las herramientas de inteligencia artificial, Whisper es propenso a sufrir alucinaciones.

Un ingeniero que buscó alucinaciones de Whisper en las transcripciones las encontró en todos los documentos examinados. Otro encontró alucinaciones en la mitad de las 100 horas de transcripciones de Whisper que analizó.

Profesores de la Universidad de Virginia analizaron miles de fragmentos breves de un repositorio de investigación alojado en la Universidad Carnegie Mellon. Descubrieron que casi el 40% de las alucinaciones eran «dañinas o preocupantes».

En una transcripción, Whisper incluso inventó un medicamento inexistente llamado «antibióticos hiperactivados».

Los expertos temen que el uso de la transcripción basada en Whisper dé lugar a diagnósticos erróneos y otros problemas.

Qué hacer con las alucinaciones de la IA

Cuando reciba un diagnóstico de su médico, es posible que desee obtener una segunda opinión. Del mismo modo, siempre que obtenga un resultado de ChatGPT, Perplejidad IAo algún otro chatbot basado en LLM, también deberías obtener una segunda opinión.

Puede utilizar una herramienta para comprobar otra. Por ejemplo, si el tema de su consulta tiene documentación original (por ejemplo, un artículo de investigación científica, una presentación o un PDF de cualquier tipo), puede cargar esos documentos originales en la página de Google. Herramienta NotebookLM. Luego, puede copiar los resultados de la otra herramienta, pegarlos en NotebookLM y preguntar si son exactos.

También debes consultar las fuentes originales. Verifique todo.

Los chatbots pueden ser excelentes para aprender, explorar temas, resumir documentos y muchos otros usos. Pero, en general, no son fuentes fiables de información fáctica.

Lo que nunca debes hacer es copiar los resultados de los chatbots de IA y pegarlos en otra cosa para representar tu propia voz y tus propios hechos. El lenguaje suele ser un poco «apagado». El énfasis de los puntos puede resultar extraño. Y es una práctica engañosa.

Lo peor de todo es que el chatbot que estás usando podría estar alucinando, mintiendo o simplemente inventando cosas. Simplemente no son tan inteligentes como la gente piensa.

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Amazon obtiene hasta $ 129 de descuento en iPads de novena y décima generación para el Black Friday

Xiaomi comparte el calendario completo de lanzamientos para HyperOS 2 global