En la prueba CVTG-2K, que mide la precisión al colocar texto en múltiples ubicaciones de imágenes, GLM-Image logró una puntuación de precisión de palabras de 0,9116, ocupando el primer lugar entre los modelos de código abierto. El modelo también lideró la prueba LongText-Bench para representar pasajes de texto extendidos, con una puntuación de 0,952 para inglés y 0,979 para chino en ocho escenarios que incluyen carteles, carteles y cuadros de diálogo.
El modelo admite de forma nativa múltiples resoluciones desde 1024×1024 hasta 2048×2048 píxeles sin necesidad de volver a capacitarse, agrega el informe.
Estrategia de optimización de hardware
La capacitación de GLM-Image en el hardware de Ascend requirió que Zhipu desarrollara técnicas de optimización personalizadas para la arquitectura del chip de Huawei. La empresa creó un conjunto de capacitación que implementa una implementación canalizada de múltiples niveles de gráficos dinámicos, lo que permite que diferentes etapas del proceso de capacitación se ejecuten simultáneamente y reduce los cuellos de botella.


