NVIDIA publica receta abierta para evaluar Nemotron 3 Nano

17 dic 2025Keryc Díaz4 minutos

La evaluación de modelos ya no puede ser un truco de manos: ¿cómo saber si un puntaje refleja una mejora real o solo un cambio en la configuración? NVIDIA responde publicando Nemotron 3 Nano 30B A3B junto con la receta completa de evaluación, construida con la librería abierta NeMo Evaluator, para que cualquiera pueda repetir, inspeccionar y auditar los resultados.

Qué publica NVIDIA y por qué importa

NVIDIA no solo comparte números; comparte la metodología. La publicación incluye la configuración YAML usada para la evaluación, los artefactos generados, y la forma estándar de ejecutar todo el flujo con NeMo Evaluator. ¿Por qué es relevante? Porque muchas evaluaciones omitían detalles críticos: prompts, versiones de harness, parámetros de ejecución, retries, timeouts y logs.

Sin esa información, comparar modelos se vuelve poco confiable. Con la receta abierta tienes una base reproducible: si cambias algo, lo documentas; si reproduces, verificas. Esto transforma una tabla de puntajes en un experimento auditable.

NeMo Evaluator: arquitectura y ventajas

NeMo Evaluator actúa como una capa de orquestación consistente. No es un nuevo benchmark runner que compite con otros; más bien unifica múltiples harnesses bajo una interfaz común. Mantiene la lógica nativa de cada harness, pero estandariza cómo se configuran, ejecutan y registran.

Principales ideas técnicas (técnico pero claro):

Separación entre pipeline de evaluación e inference backend: puedes apuntar a endpoints hospedados, despliegues locales o proveedores terceros sin reescribir la evaluación.
Integración de múltiples harnesses: NeMo Skills, LM Evaluation Harness y otros, cada uno con su semántica de scoring, pero todos registrados de forma consistente.
Salidas estructuradas y reproducibles: results.json por tarea, logs de ejecución y artefactos organizados por tarea para auditoría y análisis detallado.

Esto facilita dos cosas prácticas: correr suites heterogéneas con una única configuración y conservar resultados comparables aun cuando cambie la infraestructura de inferencia.

Ventajas para equipos y proyectos

Reuso de metodología entre lanzamientos y modelos.
Evita scripts ad-hoc que cambian de un release a otro.
Soporta desde pruebas rápidas hasta evaluaciones a escala con launcher, layout de artefactos y configuración reutilizable.

Benchmarks y resultados del Nemotron 3 Nano 30B A3B

La receta reproduce una batería de benchmarks diversificada. Aquí tienes la tabla con los puntajes publicados:

Benchmark	Accuracy	Categoría	Descripción
BFCL v4	53.8	Function Calling	Berkeley Function Calling Leaderboard v4
LiveCodeBench (v6 2025-08–2025-05)	68.3	Coding	Problemas de programación del mundo real
MMLU-Pro	78.3	Knowledge	Evaluación multi-task de lenguaje (10-choice)
GPQA	73.0	Science	Preguntas de nivel graduado en ciencias
AIME 2025	89.1	Mathematics	American Invitational Mathematics Exam
SciCode	33.3	Scientific Coding	Retos de programación científica
IFBench	71.5	Instruction Following	Benchmarks de seguimiento de instrucciones
HLE	10.6	Humanity's Last Exam	Preguntas expertas a través de dominios

Para los detalles del model card y del informe técnico, NVIDIA publica además el Nemotron 3 Nano 30B A3B Model Card y el Nemotron Technical Report.

Cómo reproducir la evaluación (paso a paso)

Si ya eres desarrollador o investigas modelos, aquí tienes el flujo mínimo para reproducir la evaluación en tu entorno.

Instala la herramienta:

pip install nemo-evaluator-launcher

Prepara credenciales (ejemplo):

export NGC_API_KEY=your-ngc-api-key
export HF_TOKEN=your-huggingface-token
export JUDGE_API_KEY=your-judge-api-key # solo para benchmarks juez-basados

Ejecuta la evaluación usando la configuración publicada (ejemplo apuntando al endpoint de NVIDIA):

nemo-evaluator-launcher run \
  --config /path/to/examples/nemotron/local_nvidia_nemotron_3_nano_30b_a3b.yaml

Para usar otro endpoint (por ejemplo local):

nemo-evaluator-launcher run \
  --config local_nvidia_nemotron_3_nano_30b_a3b.yaml \
  -o target.api_endpoint.url=http://localhost:8000/v1/chat/completions

Para previsualizar sin ejecutar: --dry-run.
Para tests rápidos, limita muestras: -o evaluation.nemo_evaluator_config.config.params.limit_samples=10.
Ejecuta benchmarks específicos con -t, por ejemplo -t ns_mmlu_pro.

Resultados y layout típico:

results_nvidia_nemotron_3_nano_30b_a3b/
├── artifacts/
│   └── <task_name>/
│       └── results.json
└── logs/
    └── stdout.log

Fuentes de variación y buenas prácticas para reproducir

No esperes bit-wise identical outputs. Los LLMs introducen no-determinismos: configuración de decodificación, repeats, scoring por juez humano automatizado, ejecución paralela y diferencias en la infraestructura de serving.

Para alinear tu evaluación con la referencia:

Usa la YAML publicada sin cambios, o documenta explícitamente cualquier modificación.
Ejecuta las versiones de benchmarks y plantillas de prompts indicadas.
Verifica que apuntas al modelo y plantilla de chat correctos del endpoint.
Mantén parámetros de ejecución igual: repeats, paralelismo, timeouts y retries.
Comprueba que los artefactos y logs siguen la estructura esperada.

Si esos elementos coinciden, tu reproducción es válida aunque haya pequeñas fluctuaciones numéricas.

Impacto y siguientes pasos para la comunidad

Esta receta representa un cambio cultural: pasar de resultados cerrados a evaluaciones con trazabilidad completa. ¿Qué significa esto para ti? Más confianza al comparar modelos, mejor capacidad para auditar claims y una base sobre la cual construir evaluaciones automáticas y pipelines de CI.

NeMo Evaluator es open source y busca colaboración. ¿Quieres un benchmark nuevo o mejoras en la infraestructura? Abre un issue o contribuye en GitHub. Además, para organizaciones que necesitan evaluaciones automatizadas a escala, NVIDIA ofrece una opción de microservicio empresarial construida sobre los mismos principios.

Separar metodología de infraestructura, registrar cada artefacto y publicar la receta completa transforma un número en una afirmación verificable. Esa es la meta: evaluaciones audibles, replicables y útiles para la comunidad.

Fuente original

https://huggingface.co/blog/nvidia/nemotron-3-nano-evaluation-recipe

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.