Samsung no es una empresa completamente centrada en la IA como la perplejidad o la opción. Sin embargo, su estrategia actual y a largo plazo implica integrar la inteligencia artificial en la gran mayoría de sus productos en todos los segmentos posibles. Las características de la suite Galaxy AI en los teléfonos inteligentes y tabletas de la compañía son un claro ejemplo. Dado este escenario, Samsung Research ha desarrollado un nuevo punto de referencia patentado para evaluar la productividad de la IA llamada TrueBench.
TrueBench: Benchmark de AI de Samsung para el rendimiento de IA del mundo real
Conozca el nuevo TrueBench de Samsung (punto de referencia de evaluación de uso de un mundo real confiable). La compañía declaró que creó la herramienta para abordar las limitaciones encontradas en los puntos de referencia de IA existentes. La compañía afirma que las herramientas actuales se centran demasiado en el inglés. También que a menudo confían en estructuras simples de preguntas y respuestas simples. Esto restringió su capacidad para reflejar con precisión cómo se usa AI en un entorno de trabajo del mundo real.
Para superar estas limitaciones, TrueBench tiene como objetivo proporcionar una evaluación más completa y realista de cómo funcionan los modelos de idiomas grandes en entornos profesionales. El punto de referencia evalúa el rendimiento de la IA en diez tareas empresariales de uso común. La lista incluye generación de contenido, análisis de datos, resumen y traducción. Estas tareas son parte de una colección masiva de 2,485 conjuntos de pruebas que abarcan diez categorías y 46 subcategorías e incorporan diversos escenarios de diálogo en doce idiomas.
El los conjuntos de pruebas Van desde tan corto como ocho caracteres hasta más de 20,000 caracteres para reflejar una variedad de tareas. Van desde solicitudes simples hasta resumir documentos largos.
El sistema de evaluación también involucra a humanos
Para garantizar una puntuación confiable y precisa, TrueBench utiliza un sistema de evaluación colaborativo único que involucra la revisión humana y de IA. Primero, los anotadores humanos establecen los criterios de evaluación iniciales. Luego, una IA revisa los criterios para verificar los errores, contradicciones o restricciones innecesarias. Los anotadores humanos luego refinan los criterios basados en la retroalimentación de la IA, repitiendo este proceso para crear un estándar de evaluación cada vez más preciso. Este sistema verificado cruzado tiene como objetivo minimizar el sesgo subjetivo. Para pasar esta prueba, un modelo de IA debe satisfacer todas las condiciones requeridas, lo que permite una puntuación más detallada y precisa en todas las tareas.
Samsung ha puesto a disposición las muestras de datos de TrueBench y las tablas de clasificación en la plataforma de código abierto abrazando la cara. La plataforma permite a los desarrolladores e investigadores comparar el rendimiento y la eficiencia de hasta cinco modelos de IA diferentes simultáneamente. La compañía también publicará los datos sobre la longitud promedio de las respuestas de un modelo. Esto proporcionará una comparación AT-A-Glance de rendimiento y eficiencia.
Según Samsung, el objetivo de TrueBench es establecer nuevos estándares de evaluación para la productividad y reforzar la posición tecnológica de la Compañía. Básicamente, promete métricas de IA más realistas y confiables.