Los ingenieros de software desarrollan una forma de ejecutar modelos de lenguaje de IA sin multiplicación de matrices

Un equipo de ingenieros de software de la Universidad de California, en colaboración con un colega de la Universidad de Soochow y otro de LuxiTec, ha desarrollado una forma de ejecutar modelos de lenguaje de IA sin utilizar la multiplicación de matrices. El equipo ha publicado un papel sobre el arXiv Servidor de preimpresión que describe su nuevo enfoque y lo bien que ha funcionado durante las pruebas.

A medida que ha crecido la potencia de los LLM como ChatGPT, también lo han hecho los recursos informáticos que requieren. Parte del proceso de ejecución de los LLM implica realizar una multiplicación de matrices (MatMul), donde los datos se combinan con ponderaciones en redes neuronales para proporcionar las mejores respuestas probables a las consultas.

En un principio, los investigadores de IA descubrieron que las unidades de procesamiento gráfico (GPU) eran ideales para las aplicaciones de redes neuronales porque pueden ejecutar varios procesos simultáneamente (en este caso, varios MatMuls). Pero ahora, incluso con grandes grupos de GPU, los MatMuls se han convertido en cuellos de botella a medida que la potencia de las LLM crece junto con la cantidad de personas que las usan.

En este nuevo estudio, el equipo de investigación afirma haber desarrollado una forma de ejecutar modelos de lenguaje de IA sin la necesidad de realizar MatMuls, y hacerlo con la misma eficiencia.

Para lograr esta hazaña, el equipo de investigación adoptó un nuevo enfoque sobre cómo se ponderan los datos: reemplazaron el método actual que se basa en puntos flotantes de 16 bits por uno que utiliza solo tres: {-1, 0, 1} junto con nuevas funciones que realizan los mismos tipos de operaciones que el método anterior.

También desarrollaron nuevas técnicas de cuantificación que ayudaron a mejorar el rendimiento. Con menos pesos, se necesita menos procesamiento, lo que da como resultado la necesidad de menos potencia de procesamiento. Pero también cambiaron radicalmente la forma en que se procesan los LLM al usar lo que describen como una unidad recurrente lineal controlada por compuerta (MLGRU) sin MatMul en lugar de los bloques de transformadores tradicionales.

Al poner a prueba sus nuevas ideas, los investigadores descubrieron que un sistema que utilizaba su nuevo enfoque lograba un rendimiento comparable al de los sistemas de última generación que se utilizan actualmente. Al mismo tiempo, descubrieron que su sistema utilizaba mucho menos potencia de procesamiento y electricidad que los sistemas tradicionales.

Más información:
Rui-Jie Zhu et al, Modelado de lenguaje escalable sin MatMul, arXiv (2024). DOI: 10.48550/arxiv.2406.02528

Información de la revista:
arXiv

Citación:Los ingenieros de software desarrollan una forma de ejecutar modelos de lenguaje de IA sin multiplicación de matrices (26 de junio de 2024) recuperado el 11 de julio de 2024 de https://techxplore.com/news/2024-06-software-ai-language-matrix-multiplication.html

Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.

Fuente

iOS 26: Convierta las fotos en escenas espaciales 3D

Carlinkit Mini Ultra Review: Adaptador inalámbrico de automóvil inalámbrico inconsistente

Teaser oficial de Canon C50: confirma la puerta abierta, mango XLR de estilo FX3

Nuevo Apple TV, HomePod Mini y, más, según los informes, ‘próximamente’ con estas nuevas características

Serie Samsung Galaxy S26 para obtener actualizaciones de la cámara en todos los ámbitos

Roblox envejecerá, verificará a todos los jugadores que usan el chat de voz al final del año

Los ingenieros de software desarrollan una forma de ejecutar modelos de lenguaje de IA sin multiplicación de matrices

El método de impresión 3D híbrido aumenta la resistencia de las piezas ecológicas con menos plástico

El asignador de memoria de peso ultraligero mejora el rendimiento para IoT y sistemas integrados

Herramienta compartida desarrollada para sistemas cuánticos y de supercomputadores

Nuevo conjunto de datos para la impresión 3D más inteligente lanzada

Análisis de gráficos El modelo AI logra el entrenamiento hasta 95 veces más rápido en una sola GPU

Una nueva forma de probar qué tan bien los sistemas de IA clasifican el texto

Deja una respuestaCancelar la respuesta

Igon, de Elden Ring, habla sobre su encuentro con Miyazaki y sus agotadoras sesiones de doblaje

Thinborne lanza elegantes fundas de fibra de aramida para Galaxy Z Flip 6 y Fold 6