La evaluación de modelos ya no puede ser un truco de manos: ¿cómo saber si un puntaje refleja una mejora real o solo un cambio en la configuración? NVIDIA responde publicando Nemotron 3 Nano 30B A3B junto con la receta completa de evaluación, construida con la librería abierta NeMo Evaluator, para que cualquiera pueda repetir, inspeccionar y auditar los resultados.
Qué publica NVIDIA y por qué importa
NVIDIA no solo comparte números; comparte la metodología. La publicación incluye la configuración YAML usada para la evaluación, los artefactos generados, y la forma estándar de ejecutar todo el flujo con NeMo Evaluator. ¿Por qué es relevante? Porque muchas evaluaciones omitían detalles críticos: prompts, versiones de harness, parámetros de ejecución, retries, timeouts y logs.
Sin esa información, comparar modelos se vuelve poco confiable. Con la receta abierta tienes una base reproducible: si cambias algo, lo documentas; si reproduces, verificas. Esto transforma una tabla de puntajes en un experimento auditable.
NeMo Evaluator: arquitectura y ventajas
NeMo Evaluator actúa como una capa de orquestación consistente. No es un nuevo benchmark runner que compite con otros; más bien unifica múltiples harnesses bajo una interfaz común. Mantiene la lógica nativa de cada harness, pero estandariza cómo se configuran, ejecutan y registran.
Principales ideas técnicas (técnico pero claro):
Separación entre pipeline de evaluación e inference backend: puedes apuntar a endpoints hospedados, despliegues locales o proveedores terceros sin reescribir la evaluación.
Integración de múltiples harnesses: NeMo Skills, LM Evaluation Harness y otros, cada uno con su semántica de scoring, pero todos registrados de forma consistente.
Salidas estructuradas y reproducibles: results.json por tarea, logs de ejecución y artefactos organizados por tarea para auditoría y análisis detallado.
Esto facilita dos cosas prácticas: correr suites heterogéneas con una única configuración y conservar resultados comparables aun cuando cambie la infraestructura de inferencia.
Ventajas para equipos y proyectos
Reuso de metodología entre lanzamientos y modelos.
Evita scripts ad-hoc que cambian de un release a otro.
Soporta desde pruebas rápidas hasta evaluaciones a escala con launcher, layout de artefactos y configuración reutilizable.
Benchmarks y resultados del Nemotron 3 Nano 30B A3B
La receta reproduce una batería de benchmarks diversificada. Aquí tienes la tabla con los puntajes publicados:
Benchmark
Accuracy
Categoría
Descripción
BFCL v4
53.8
Function Calling
Berkeley Function Calling Leaderboard v4
LiveCodeBench (v6 2025-08–2025-05)
68.3
Coding
Problemas de programación del mundo real
MMLU-Pro
78.3
Knowledge
Evaluación multi-task de lenguaje (10-choice)
GPQA
73.0
Science
Preguntas de nivel graduado en ciencias
AIME 2025
89.1
Mathematics
American Invitational Mathematics Exam
SciCode
33.3
Scientific Coding
Retos de programación científica
IFBench
71.5
Instruction Following
Benchmarks de seguimiento de instrucciones
HLE
10.6
Humanity's Last Exam
Preguntas expertas a través de dominios
Para los detalles del model card y del informe técnico, NVIDIA publica además el Nemotron 3 Nano 30B A3B Model Card y el Nemotron Technical Report.
Cómo reproducir la evaluación (paso a paso)
Si ya eres desarrollador o investigas modelos, aquí tienes el flujo mínimo para reproducir la evaluación en tu entorno.
Instala la herramienta:
pip install nemo-evaluator-launcher
Prepara credenciales (ejemplo):
export NGC_API_KEY=your-ngc-api-key
export HF_TOKEN=your-huggingface-token
export JUDGE_API_KEY=your-judge-api-key # solo para benchmarks juez-basados
Ejecuta la evaluación usando la configuración publicada (ejemplo apuntando al endpoint de NVIDIA):
nemo-evaluator-launcher run \
--config /path/to/examples/nemotron/local_nvidia_nemotron_3_nano_30b_a3b.yaml
Para usar otro endpoint (por ejemplo local):
nemo-evaluator-launcher run \
--config local_nvidia_nemotron_3_nano_30b_a3b.yaml \
-o target.api_endpoint.url=http://localhost:8000/v1/chat/completions
Para previsualizar sin ejecutar: --dry-run.
Para tests rápidos, limita muestras: -o evaluation.nemo_evaluator_config.config.params.limit_samples=10.
Ejecuta benchmarks específicos con -t, por ejemplo -t ns_mmlu_pro.
Fuentes de variación y buenas prácticas para reproducir
No esperes bit-wise identical outputs. Los LLMs introducen no-determinismos: configuración de decodificación, repeats, scoring por juez humano automatizado, ejecución paralela y diferencias en la infraestructura de serving.
Para alinear tu evaluación con la referencia:
Usa la YAML publicada sin cambios, o documenta explícitamente cualquier modificación.
Ejecuta las versiones de benchmarks y plantillas de prompts indicadas.
Verifica que apuntas al modelo y plantilla de chat correctos del endpoint.
Mantén parámetros de ejecución igual: repeats, paralelismo, timeouts y retries.
Comprueba que los artefactos y logs siguen la estructura esperada.
Si esos elementos coinciden, tu reproducción es válida aunque haya pequeñas fluctuaciones numéricas.
Impacto y siguientes pasos para la comunidad
Esta receta representa un cambio cultural: pasar de resultados cerrados a evaluaciones con trazabilidad completa. ¿Qué significa esto para ti? Más confianza al comparar modelos, mejor capacidad para auditar claims y una base sobre la cual construir evaluaciones automáticas y pipelines de CI.
NeMo Evaluator es open source y busca colaboración. ¿Quieres un benchmark nuevo o mejoras en la infraestructura? Abre un issue o contribuye en GitHub. Además, para organizaciones que necesitan evaluaciones automatizadas a escala, NVIDIA ofrece una opción de microservicio empresarial construida sobre los mismos principios.
Separar metodología de infraestructura, registrar cada artefacto y publicar la receta completa transforma un número en una afirmación verificable. Esa es la meta: evaluaciones audibles, replicables y útiles para la comunidad.