Nemotron 3 Nano: modelo abierto y eficiente para agentes | Keryc
NVIDIA presenta Nemotron 3 Nano, un modelo pensado para la próxima generación de agentes y sistemas multi-agente: rápido, con contexto ultralargo y totalmente abierto. ¿Por qué importa? Porque cuando millones de tokens circulan entre agentes, la velocidad, la memoria y la confiabilidad dejan de ser lujo y pasan a ser requisito.
Qué es Nemotron 3 Nano
Nemotron 3 Nano es un modelo de 31.6B parámetros diseñado para comportarse como uno mucho más grande gracias a una arquitectura híbrida y a capas sparsas. Combina Mamba-2 para contexto largo y baja latencia con capas Transformer de alta precisión, y sustituye las FFN tradicionales por un Mixture-of-Experts (MoE) que activa una fracción de parámetros por token.
31.6B parámetros totales, aproximadamente 3.6B activos por token gracias al ruteo MoE.
Arquitectura híbrida Mamba-Transformer con capas intercaladas y atención GQA.
Router MLP aprendido que activa 6 de 128 expertos por paso hacia adelante.
Ventana de contexto de hasta 1M tokens para flujos de trabajo de largo alcance.
¿El resultado? Alta capacidad de razonamiento y baja latencia, ideal para agentes que deben mantener memoria persistente y ejecutar sub-tareas especializadas a gran escala.
Arquitectura y rendimiento
Nemotron 3 Nano introduce una mezcla: Mamba-2 para mantener latencia baja en ventanas largas, y atención Transformer para razonamiento fino. La clave es el MoE disperso que permite ejecutar menos parámetros por token sin perder calidad.
En benchmarks, Nano alcanza hasta 3.3x mayor throughput que Qwen3-30B en una configuración 8K/16K en una sola GPU H200, y 2.2x sobre GPT-OSS-20B en la misma escala. NVIDIA reporta mejoras de hasta 4x frente a Nemotron Nano 2. Además mantiene controles explícitos de razonamiento: modos Reasoning ON/OFF y un thinking budget configurable para limitar tokens de pensamiento y hacer los costos predecibles.
Datos y pipeline de entrenamiento
El entrenamiento fue masivo y multietapa:
Preentrenamiento en ~25 trillones de tokens (incluye 2.5T de Common Crawl nuevo).
Release abierta de ~3T tokens adicionales para la serie Nemotron-Pretraining.
Post-training: 13 millones de muestras cross-disciplinares para refinar razonamiento.
SFT + dos etapas de RL (RLVR y RLHF) para especializar en agentes, uso de herramientas y chat.
Para extender el contexto se añadió una etapa de continued pre-training (CPT) con secuencias a 512k, y entrenamiento mixto con 512k y 4k para preservar rendimiento en benchmarks cortos mientras se escala al contexto largo.
Se usaron datos sintéticos para soporte de recuperación a largo alcance, razonamiento multi-hop y agregación entre documentos. NVIDIA enfatiza calidad sobre cantidad: mayores filtros, reescritura y recuperación de media trillón de tokens de código y matemáticas que antes se descartaban.
Entrenamiento por refuerzo y NeMo Gym
Nemotron 3 Nano usó una ruta combinada: SFT seguido de RLVR (con GRPO, synchronous Group Relative Policy Optimization) y RLHF. Además, se entrenó un generative reward model (GenRM) —entrenado sobre Qwen3-235B— que compara y puntúa respuestas candidatas para guiar el RLHF.
Para hacer esto reproducible y escalable NVIDIA lanza NeMo Gym, una librería open source que:
Provee entornos listos para matemáticas, código, uso de herramientas y agentes.
Se integra con NeMo RL y permite interoperabilidad con otros marcos.
Orquesta rollouts a alta tasa, facilita la construcción de entornos con lógica de recompensa verificable y soporta despliegues distribuidos.
NeMo Gym fue creado para separar el entorno RL del bucle de entrenamiento, facilitando reuso, auditoría y escalado de rollouts en entrenamientos complejos.
Seguridad y herramientas para despliegue responsable
NVIDIA publica casi 11k trazas etiquetadas de seguridad de agentes, útiles para evaluar riesgos de workflows con herramientas. También libera una buena parte de datasets, recetas de entrenamiento y frameworks para que equipos externos puedan testear, extender o mitigar fallas antes de producción.
La licencia es nvidia-open-model-license y la intención explícita es abrir pesos, recetas y datos para que la comunidad reproduzca y mejore los resultados.
Casos de uso y despliegue práctico
¿Para qué sirve esto hoy? Algunos ejemplos:
Agentes que programan y depuran código con contexto de proyectos enormes.
Asistentes científicos que agregan evidencia entre documentos largos y realizan razonamiento multi-hop.
Sistemas de agentes paralelos en empresas que requieren respuesta rápida y memoria persistente.
Opciones de despliegue ya soportadas: vLLM, TRT-LLM, SGLang, endpoints en OpenRouter y build.nvidia.com, y ejecutables en edge vía llama.cpp, LM Studio y Unsloth.
Balance de tradeoffs y por qué importa
NVIDIA apuesta por un punto medio: mantener latencia baja y costos razonables sin sacrificar la calidad del razonamiento. El uso de MoE y la mezcla Mamba-Transformer buscan que un modelo mediano actúe como uno grande cuando importa, sin multiplicar costos cuando se ejecutan muchos agentes en paralelo.
¿Significa esto que Nemotron 3 Nano es la solución perfecta? No. Toda MoE agrega complejidad de ruteo y monitoreo, y los entornos de RL a gran escala siguen siendo difíciles. Pero al abrir pesos, datos y herramientas, NVIDIA facilita que la comunidad pruebe, mejore y entienda esos tradeoffs.
Si trabajas en agentes, sistemas de diálogo a largo plazo, o productos que necesitan memoria persistente y razonamiento confiable, este lanzamiento es una base práctica para experimentar hoy.