in

Alibaba dice que su nuevo modelo de IA rivaliza con Deepseeks’s R-1, Openi’s O1

Alibaba dice que su nuevo modelo de IA rivaliza con Deepseeks's R-1, Openi's O1

Alibaba Cloud lanzó el jueves QWQ-32B, un modelo de razonamiento compacto basado en su último modelo de lenguaje grande (LLM), Qwen2.5-32b, uno dice que ofrece un rendimiento comparable a otros modelos de vanguardia grandes, incluidos los rivales chinos Deepseek y Openi’s O1, con solo 32 mil millones de parámetros.

Según un liberar De Alibaba, “El rendimiento de QWQ-32B destaca el poder del aprendizaje de refuerzo (RL), la técnica central detrás del modelo, cuando se aplica a un modelo de base robusto como Qwen2.5-32b, que se captura previamente en un amplio conocimiento mundial. Al aprovechar la escala continua de RL, QWQ-32B demuestra mejoras significativas en el razonamiento matemático y el dominio de la codificación «.

AWS define RL como «una técnica de aprendizaje automático que entrena el software para tomar decisiones para lograr los resultados más óptimos e imita el proceso de aprendizaje de prueba y error que los humanos usan para lograr sus objetivos. Las acciones de software que funcionan hacia su objetivo se refuerzan, mientras que las acciones que rayan de la meta se ignoran «.

Fuente

Deja una respuesta

GIPHY App Key not set. Please check settings

Se rumoreaba que ‘iPhone 17 Air’ cuenta con batería ‘de alta densidad’

El póster oficial de Pokemon Go Fest: París

Pokemon Go Fest Heads a París este verano