La evaluación de modelos ya no puede ser un truco de manos: ¿cómo saber si un puntaje refleja una mejora real o solo un cambio en la configuración? NVIDIA responde publicando Nemotron 3 Nano 30B A3B junto con la receta completa de evaluación, construida con la librería abierta NeMo Evaluator, para que cualquiera pueda repetir, inspeccionar y auditar los resultados.
Qué publica NVIDIA y por qué importa
NVIDIA no solo comparte números; comparte la metodología. La publicación incluye la configuración YAML usada para la evaluación, los artefactos generados, y la forma estándar de ejecutar todo el flujo con NeMo Evaluator. ¿Por qué es relevante? Porque muchas evaluaciones omitían detalles críticos: prompts, versiones de harness, parámetros de ejecución, retries, timeouts y logs.
Sin esa información, comparar modelos se vuelve poco confiable. Con la receta abierta tienes una base reproducible: si cambias algo, lo documentas; si reproduces, verificas. Esto transforma una tabla de puntajes en un experimento auditable.
NeMo Evaluator: arquitectura y ventajas
NeMo Evaluator actúa como una capa de orquestación consistente. No es un nuevo benchmark runner que compite con otros; más bien unifica múltiples harnesses bajo una interfaz común. Mantiene la lógica nativa de cada harness, pero estandariza cómo se configuran, ejecutan y registran.
Principales ideas técnicas (técnico pero claro):
- Separación entre pipeline de evaluación e inference backend: puedes apuntar a endpoints hospedados, despliegues locales o proveedores terceros sin reescribir la evaluación.
- Integración de múltiples harnesses: NeMo Skills, LM Evaluation Harness y otros, cada uno con su semántica de scoring, pero todos registrados de forma consistente.
- Salidas estructuradas y reproducibles:
results.jsonpor tarea, logs de ejecución y artefactos organizados por tarea para auditoría y análisis detallado.
Esto facilita dos cosas prácticas: correr suites heterogéneas con una única configuración y conservar resultados comparables aun cuando cambie la infraestructura de inferencia.
Ventajas para equipos y proyectos
- Reuso de metodología entre lanzamientos y modelos.
- Evita scripts ad-hoc que cambian de un release a otro.
- Soporta desde pruebas rápidas hasta evaluaciones a escala con launcher, layout de artefactos y configuración reutilizable.
Benchmarks y resultados del Nemotron 3 Nano 30B A3B
La receta reproduce una batería de benchmarks diversificada. Aquí tienes la tabla con los puntajes publicados:
| Benchmark | Accuracy | Categoría | Descripción |
|---|---|---|---|
| BFCL v4 | 53.8 | Function Calling | Berkeley Function Calling Leaderboard v4 |
| LiveCodeBench (v6 2025-08–2025-05) | 68.3 | Coding | Problemas de programación del mundo real |
| MMLU-Pro | 78.3 | Knowledge | Evaluación multi-task de lenguaje (10-choice) |
| GPQA | 73.0 | Science | Preguntas de nivel graduado en ciencias |
| AIME 2025 | 89.1 | Mathematics | American Invitational Mathematics Exam |
| SciCode | 33.3 | Scientific Coding | Retos de programación científica |
| IFBench | 71.5 | Instruction Following | Benchmarks de seguimiento de instrucciones |
| HLE | 10.6 | Humanity's Last Exam | Preguntas expertas a través de dominios |
Para los detalles del model card y del informe técnico, NVIDIA publica además el Nemotron 3 Nano 30B A3B Model Card y el Nemotron Technical Report.
Cómo reproducir la evaluación (paso a paso)
Si ya eres desarrollador o investigas modelos, aquí tienes el flujo mínimo para reproducir la evaluación en tu entorno.
- Instala la herramienta:
pip install nemo-evaluator-launcher
- Prepara credenciales (ejemplo):
export NGC_API_KEY=your-ngc-api-key
export HF_TOKEN=your-huggingface-token
export JUDGE_API_KEY=your-judge-api-key # solo para benchmarks juez-basados
- Ejecuta la evaluación usando la configuración publicada (ejemplo apuntando al endpoint de NVIDIA):
nemo-evaluator-launcher run \
--config /path/to/examples/nemotron/local_nvidia_nemotron_3_nano_30b_a3b.yaml
- Para usar otro endpoint (por ejemplo local):
nemo-evaluator-launcher run \
--config local_nvidia_nemotron_3_nano_30b_a3b.yaml \
-o target.api_endpoint.url=http://localhost:8000/v1/chat/completions
- Para previsualizar sin ejecutar:
--dry-run. - Para tests rápidos, limita muestras:
-o evaluation.nemo_evaluator_config.config.params.limit_samples=10. - Ejecuta benchmarks específicos con
-t, por ejemplo-t ns_mmlu_pro.
Resultados y layout típico:
results_nvidia_nemotron_3_nano_30b_a3b/
├── artifacts/
│ └── <task_name>/
│ └── results.json
└── logs/
└── stdout.log
Fuentes de variación y buenas prácticas para reproducir
No esperes bit-wise identical outputs. Los LLMs introducen no-determinismos: configuración de decodificación, repeats, scoring por juez humano automatizado, ejecución paralela y diferencias en la infraestructura de serving.
Para alinear tu evaluación con la referencia:
- Usa la YAML publicada sin cambios, o documenta explícitamente cualquier modificación.
- Ejecuta las versiones de benchmarks y plantillas de prompts indicadas.
- Verifica que apuntas al modelo y plantilla de chat correctos del endpoint.
- Mantén parámetros de ejecución igual: repeats, paralelismo, timeouts y retries.
- Comprueba que los artefactos y logs siguen la estructura esperada.
Si esos elementos coinciden, tu reproducción es válida aunque haya pequeñas fluctuaciones numéricas.
Impacto y siguientes pasos para la comunidad
Esta receta representa un cambio cultural: pasar de resultados cerrados a evaluaciones con trazabilidad completa. ¿Qué significa esto para ti? Más confianza al comparar modelos, mejor capacidad para auditar claims y una base sobre la cual construir evaluaciones automáticas y pipelines de CI.
NeMo Evaluator es open source y busca colaboración. ¿Quieres un benchmark nuevo o mejoras en la infraestructura? Abre un issue o contribuye en GitHub. Además, para organizaciones que necesitan evaluaciones automatizadas a escala, NVIDIA ofrece una opción de microservicio empresarial construida sobre los mismos principios.
Separar metodología de infraestructura, registrar cada artefacto y publicar la receta completa transforma un número en una afirmación verificable. Esa es la meta: evaluaciones audibles, replicables y útiles para la comunidad.
Fuente original
https://huggingface.co/blog/nvidia/nemotron-3-nano-evaluation-recipe
