Durante el entrenamiento, el mismo modelo juega dos roles. La versión para profesores está condicionada tanto a la consulta como a los ejemplos de expertos. Una versión para estudiantes solo ve la consulta, lo que refleja la implementación en el mundo real. El estudiante actualiza sus parámetros para alinearse con las predicciones del maestro en sus propios resultados generados.
«En experimentos de aprendizaje secuencial, SDFT permite que un solo modelo acumule múltiples habilidades a lo largo del tiempo sin regresión del desempeño, estableciendo la destilación de políticas como un camino práctico hacia el aprendizaje continuo a partir de demostraciones», dijeron los investigadores.
Desafíos a superar
SDFT parece bastante realista ya que la técnica elimina la necesidad de mantener «zoológicos modelo» de adaptadores separados o variantes ajustadas, según Lian Jye Suanalista jefe de Omdia.


