Alibaba Cloud lanzó el jueves QWQ-32B, un modelo de razonamiento compacto basado en su último modelo de lenguaje grande (LLM), Qwen2.5-32b, uno dice que ofrece un rendimiento comparable a otros modelos de vanguardia grandes, incluidos los rivales chinos Deepseek y Openi’s O1, con solo 32 mil millones de parámetros.
Según un liberar De Alibaba, “El rendimiento de QWQ-32B destaca el poder del aprendizaje de refuerzo (RL), la técnica central detrás del modelo, cuando se aplica a un modelo de base robusto como Qwen2.5-32b, que se captura previamente en un amplio conocimiento mundial. Al aprovechar la escala continua de RL, QWQ-32B demuestra mejoras significativas en el razonamiento matemático y el dominio de la codificación «.
AWS define RL como «una técnica de aprendizaje automático que entrena el software para tomar decisiones para lograr los resultados más óptimos e imita el proceso de aprendizaje de prueba y error que los humanos usan para lograr sus objetivos. Las acciones de software que funcionan hacia su objetivo se refuerzan, mientras que las acciones que rayan de la meta se ignoran «.
GIPHY App Key not set. Please check settings