También puede ahorrar dinero a los usuarios. Analista de tecnología Carmi Levy Señaló que los modelos de monetización de pago por token existentes «penalizan el uso de soluciones de IA que no son óptimamente eficientes».
Pero DiffusionGemma “podría anunciar una nueva generación de soluciones eficientes y definidas por tareas que pueden permitir una mayor capacidad informática sin agotar el presupuesto de operaciones”, dijo.
Un contraste con el procesamiento de izquierda a derecha
Construido sobre la familia Gemma 4 de Google y su Difusión de Géminis Según la investigación, DiffusionGemma es un modelo de combinación de expertos (MoE) de 26B diseñado para maximizar la generación de resultados de texto.
Básicamente cambia cómo los modelos usan el hardwaredando a los procesadores una mayor cantidad de trabajo en cada ciclo para que puedan redactar párrafos completos de 256 tokens en secuencia. Esto permite que el modelo genere texto hasta 4 veces más rápido en GPU, afirma Google. Activa solo 3,8 mil millones de parámetros durante la inferencia y, cuando se cuantifica, puede caber dentro de 18 GB de VRAM en GPU de consumo de alta gama como Nvidia RTX 5090.


