Las envolturas fueron retiradas de un nuevo chatbot de IA catalogado como «útil, inofensivo y honesto» el martes por su desarrollador, antrópico.
El chatbot, Claude 2, cuenta con un repertorio familiar. Puede crear resúmenes, escribir código, traducir texto y realizar tareas que se han vuelto de rigor para el género del software.
Se puede acceder a esta última versión de la oferta de IA generativa a través de API y a través de una nueva interfaz web a la que el público puede acceder en los Estados Unidos y el Reino Unido. Anteriormente, solo estaba disponible para las empresas a pedido o a través de Slack como aplicación.
“Piense en Claude como un colega amistoso y entusiasta o un asistente personal que puede recibir instrucciones en lenguaje natural para ayudarlo con muchas tareas”, dijo Anthropic en un comunicado.
“Anthropic está tratando de inclinarse hacia el espacio de los asistentes personales”, observó Will Duffield, analista de políticas de la Instituto Catónun grupo de expertos de Washington, DC
“Si bien Microsoft tiene una ventaja para llevar a Bing a su suite de productividad, Claude quiere ser un asistente personal más útil que el resto”, dijo a TechNewsWorld.
Puntuaciones de razonamiento mejoradas
Claude 2 se mejora con respecto a los modelos anteriores en las áreas de codificación, matemáticas y razonamiento, según Anthropic.
En la sección de opción múltiple de un examen de la barra, por ejemplo, Claude 2 obtuvo un 76,5%. Los modelos anteriores obtuvieron una puntuación del 73,0 %.
En los exámenes GRE de lectura y escritura para estudiantes universitarios que solicitan ingreso a la escuela de posgrado, Claude 2 obtuvo una puntuación superior al percentil 90. En el razonamiento cuantitativo, lo hizo tan bien como la mediana de los solicitantes.
En el área de codificación, Claude 2 obtuvo un 71,2 % en la prueba Codex HumanEval, una prueba de codificación de Python. Esa es una mejora significativa con respecto a los modelos anteriores, que lograron una puntuación del 56,0 %.
Sin embargo, lo hizo solo un poco mejor que su predecesor en el GSM8K, que abarca un gran conjunto de problemas matemáticos de la escuela primaria, acumulando una puntuación del 88,0 %, en comparación con el 85,2 % de Claude 1.3.
Claude 2 ha mejorado con respecto a nuestros modelos anteriores en evaluaciones que incluyen Codex HumanEval, GSM8K y MMLU. Puede ver el conjunto completo de evaluaciones en nuestra tarjeta modelo: https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV
— Antrópico (@AnthropicAI) 11 de julio de 2023
Retraso del conocimiento
Anthropic mejoró a Claude en otra área: entrada.
La ventana de contexto de Claude 2 puede manejar hasta 75.000 palabras. Eso significa que Claude puede digerir cientos de páginas de documentación técnica o incluso un libro. En comparación, la entrada máxima de ChatGPT es de 3000 palabras.
Anthropic agregó que Claude ahora también puede escribir documentos más largos, desde memorandos hasta cartas e historias de hasta unos pocos miles de palabras.
Al igual que ChatGPT, Claude no está conectado a Internet. Está entrenado en datos que terminan abruptamente en diciembre de 2022. Eso le da una ligera ventaja sobre ChatGPT, cuyos datos se cortan actualmente en septiembre de 2021, pero va a la zaga de Bing y Bard.
«Con Bing, obtiene resultados de búsqueda actualizados, que también obtiene con Bard», explicó Greg Sterling, cofundador de Cerca de los mediosun sitio web de noticias, comentarios y análisis.
Sin embargo, eso puede tener un impacto limitado en Claude 2. «La mayoría de las personas no van a ver grandes diferencias a menos que usen todas estas aplicaciones juntas», dijo Sterling a TechNewsWorld. “Las diferencias que la gente puede percibir estarán principalmente en las interfaces de usuario”.
Anthropic también promocionó las mejoras de seguridad realizadas en Claude 2. Explicó que tiene un «equipo rojo» interno que califica sus modelos en función de un gran conjunto de indicaciones dañinas. Las pruebas están automatizadas, pero los resultados se comprueban periódicamente de forma manual. En su última evaluación, Anthropic señaló que Claude 2 era dos veces mejor dando respuestas inofensivas que Claude 1.3.
Además, tiene un conjunto de principios llamado constitución integrado en el sistema que puede moderar sus respuestas sin la necesidad de usar un moderador humano.
Reprimir el daño
Anthropic no es el único que intenta frenar el daño potencial causado por su software de IA generativa. “Todo el mundo está trabajando en IA útiles que se supone que no hacen daño, y el objetivo es casi universal”, observó Rob Enderle, presidente y analista principal de la Grupo Enderleuna firma de servicios de asesoría en Bend, Oregón.
“Es la ejecución lo que probablemente variará entre los proveedores”, dijo a TechNewsWorld.
Señaló que los proveedores industriales como Microsoft, Nvidia e IBM se han tomado en serio la seguridad de la IA desde el momento en que ingresaron al dominio. “Algunas otras startups parecen más enfocadas en lanzar algo que algo seguro y confiable”, dijo.
“Siempre discrepo con el uso del lenguaje como si fuera inofensivo porque las herramientas útiles generalmente se pueden usar de alguna manera para causar daño”, agregó Duffield.
Los intentos de minimizar el daño en un programa de IA generativa podrían afectar potencialmente su valor. Sin embargo, ese no parece ser el caso con Claude 2. “No parece neutralizado hasta el punto de la inutilidad”, dijo Duffield.
Conquistando la barrera del ruido
Tener una IA “honesta” es clave para confiar en ella, sostuvo Enderle. “Tener una IA dañina y deshonesta no nos hace mucho bien”, dijo. “Pero si no confiamos en la tecnología, no deberíamos usarla”.
“Las IA funcionan a velocidades de máquina, y nosotros no”, continuó, “por lo que podrían causar mucho más daño en un período corto de tiempo del que podríamos manejar”.
“La IA puede inventar cosas que son inexactas pero que suenan plausibles”, agregó Sterling. “Esto es muy problemático si las personas confían en información incorrecta”.
“La IA también puede arrojar información sesgada o tóxica en algunos casos”, dijo.
Incluso si Claude 2 puede cumplir su promesa de ser un chatbot de IA «útil, inofensivo y honesto», tendrá que luchar para hacerse notar en lo que se está convirtiendo en un mercado muy ruidoso.
“Estamos abrumados por la cantidad de cosas anunciadas, lo que dificulta superar el ruido”, señaló Enderle.
“ChatGPT, Bing y Bard tienen la mayor parte de la mente compartida, y la mayoría de las personas verán pocas razones para usar otras aplicaciones”, agregó Sterling.
Señaló que tratar de diferenciar a Claude como la IA «amigable» probablemente no sea suficiente para distinguirlo de los otros jugadores en el mercado. “Es una abstracción”, dijo. “Claude necesitará desempeñarse mejor o ser más útil para obtener adopción. La gente no verá ninguna distinción entre él y su rival más conocido, ChatGPT”.
Como si los altos niveles de ruido no fueran suficientes, hay que lidiar con el aburrimiento. “Es más difícil impresionar a la gente con cualquier tipo de chatbot nuevo que hace seis meses”, observó Duffield. “Hay un poco de fatiga del chatbot”.