El diferenciador es la apertura.
Para subrayar su compromiso con el código abierto, NVIDIA está revelando algunos de los mecanismos internos de Nemotron 3, lanzando un conjunto de datos con telemetría del mundo real para evaluaciones de seguridad y 3 billones de tokens de conjuntos de datos de preentrenamiento, postentrenamiento y RL de Nemotron 3.
Además, Nvidia está abriendo el código fuente de sus Gimnasio Nemo y NeMo RL bibliotecas, que proporcionan los entornos de capacitación y la base posterior a la capacitación de Nemotron 3, y NeMo Evaluator, para ayudar a los constructores a validar la seguridad y el rendimiento del modelo. Todos ahora están disponibles en GitHub y Hugging Face. De estos, señaló Mayham, NeMo Gym podría ser la pieza más «estratégicamente significativa» de este lanzamiento.
El entrenamiento previo enseña a los modelos a predecir tokens, no a completar tareas de dominios específicos, y la RL tradicional a partir de retroalimentación humana (RLHF) no se adapta a comportamientos agentes complejos, explicó Mayham. NeMo Gym permite RL con recompensas verificables: esencialmente verificación computacional de la finalización de tareas en lugar de calificaciones humanas subjetivas. Es decir, ¿el código pasó las pruebas? ¿Las matemáticas son correctas? ¿Se llamaron correctamente las herramientas?


