in

La nueva plataforma ayuda a evaluar la IA para el uso complejo de la computadora

robot usando computadora

Crédito: Dominio público de Pixabay/CC0

Imagine pedirle a AI que planifique su itinerario de viaje, reserve y pague todos sus vuelos, y organice el transporte de su aeropuerto, todo dentro de un solo clic. Afortunadamente, un equipo de investigación internacional está haciendo realidad esta visión.

El equipo, compuesto por investigadores de la Universidad de Waterloo, la Universidad de Hong Kong, la investigación de Salesforce y la Universidad Carnegie Mellon desarrolladas Arena del agente informático—Un plataforma de evaluación que puede mejorar y crear agentes informáticos.

Un agente informático es un tipo de software que puede realizar tareas en nombre de una persona u organización, sin necesidad de intervención humana constante. Puede interpretar el estado de la computadora y actuar de manera autónoma para ayudar a los usuarios a resolver problemas. Ejemplos de agentes informáticos incluyen asistentes de voz como Siri y Alexa, que pueden ayudar a los usuarios a enviar mensajes y programas de reuniones.

Los agentes informáticos basados ​​en IA luchan por realizar tareas informáticas complejas porque requiere controlar múltiples aplicaciones informáticas y varios pasos. Por ejemplo, presentar un informe de gastos puede ser difícil porque requiere actualizar una hoja de cálculo buscando múltiples correos electrónicos y carpetas llenas de extractos bancarios y recibos.

Computer Agent Arena es la primera plataforma de evaluación de uso de computadora interactiva que se centra en realizar diversas tareas en múltiples aplicaciones. Este trabajo es una extensión del trabajo de los investigadores en Osworldel primer entorno informático escalable y real del mundo para agentes multimodales.






https://www.youtube.com/watch?v=vw4nx-cmpgi

Crédito: Universidad de Waterloo

«Computer Agent Arena proporciona una plataforma para que la comunidad de investigación desarrolle agentes efectivos y eficientes que se generalizan al uso de computadoras del mundo real», dice el co-desarrollador Dr. Victor Zhong, profesor asistente de la Escuela de Ciencias de la Computación de Cheriton. Al igual que otros investigadores de Waterloo, está investigando las interacciones de tecnología humana, explorando cómo mitigar los problemas cotidianos creando tecnologías novedosas.

«La arena del agente informático es distinto de investigaciones similares como Mind2Web y Webarena porque proporciona interfaces de programación de aplicaciones unificadas para observaciones y acciones integrales en un entorno ejecutable con múltiples aplicaciones».

A través de la arena de los agentes informáticos, los usuarios pueden evaluar y comparar varios agentes informáticos según los modelos de idiomas grandes (LLM) y los modelos de lenguaje de visión. Primero, los usuarios seleccionan un sistema operativo como Windows y aplicaciones como Google Chrome y Excel. Los usuarios pueden solicitar al agente informático con una tarea, que será realizada simultáneamente por dos modelos de IA en tiempo real. Después de la finalización, los usuarios pueden calificar el rendimiento de cada modelo y proporcionar comentarios.

En última instancia, el equipo busca proporcionar una plataforma diversa y dinámica para construir y evaluar a los agentes que pueden realizar tareas informáticas del mundo real de manera segura, efectiva y eficiente como lo hacen los humanos.

«Nuestros hallazgos actuales muestran que los modelos de cimientos como GPT4 y Claude están lejos de poder actuar de manera segura y efectiva como agentes asistentes de computadoras», dice Zhong. «Computer Agent Arena proporciona una bolsa de prueba oportuna para desarrollar la próxima generación de agentes de IA».

Proporcionado por la Universidad de Waterloo


Citación: La nueva plataforma ayuda a evaluar la IA para uso complejo de la computadora (2025, 20 de febrero) recuperada el 20 de febrero de 2025 de https://techxplore.com/news/2025-02-platform-ai-complex.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

65525

El nuevo paquete de valor OLED de Nintendo Switch viene con Super Mario Bros. Wonder

El nuevo paquete de valor OLED de Nintendo Switch viene con Super Mario Bros. Wonder

Página de preorden de lente de monto electrónico Zeiss Otus en Bhphoto