La empresa china de inteligencia artificial Deepseek ha presentado un nuevo método de capacitación, Hyper-Connections restringidas por múltiples (mHC), que permitirá entrenar modelos de lenguaje grandes de manera más eficiente y a menor costo, informa el periódico matutino del sur de China.
El método es un desarrollo posterior de las llamadas Hyper-Connections, que fue desarrollado originalmente por Bytedance en 2024. Esta tecnología, a su vez, se basa en la arquitectura clásica ResNet de Microsoft Research Asia.
Deepseek afirma que mHC proporciona una formación más estable y escalable sin aumentar los costes computacionales, gracias a optimizaciones específicas a nivel de infraestructura. Los investigadores probaron la tecnología en modelos con hasta 27 mil millones de parámetros con resultados positivos.


