in

Los investigadores proponen una solución de autodestilación para el ‘olvido catastrófico’ en los LLM

Los investigadores proponen una solución de autodestilación para el 'olvido catastrófico' en los LLM

Durante el entrenamiento, el mismo modelo juega dos roles. La versión para profesores está condicionada tanto a la consulta como a los ejemplos de expertos. Una versión para estudiantes solo ve la consulta, lo que refleja la implementación en el mundo real. El estudiante actualiza sus parámetros para alinearse con las predicciones del maestro en sus propios resultados generados.

«En experimentos de aprendizaje secuencial, SDFT permite que un solo modelo acumule múltiples habilidades a lo largo del tiempo sin regresión del desempeño, estableciendo la destilación de políticas como un camino práctico hacia el aprendizaje continuo a partir de demostraciones», dijeron los investigadores.

Desafíos a superar

SDFT parece bastante realista ya que la técnica elimina la necesidad de mantener «zoológicos modelo» de adaptadores separados o variantes ajustadas, según Lian Jye Suanalista jefe de Omdia.

Fuente

¡Actualiza ahora! iOS 26.3 contiene docenas de correcciones de seguridad críticas

Un veterano de la industria de los juegos deja el estudio y ahora planea crear "Juegos mucho más pequeños"

Un veterano de la industria de los juegos deja el estudio y ahora planea crear "Juegos mucho más pequeños"