Nemotron 3 Nano 4B: IA compacta optimizada para el edge | Keryc
Nemotron 3 Nano 4B es la nueva apuesta de NVIDIA para llevar modelos potentes al borde: un modelo híbrido Mamba-Transformer de 4.000 millones de parámetros pensado para correr en dispositivos Jetson, GPUs GeForce y clusters como DGX Spark, con baja huella de VRAM y buen seguimiento de instrucciones y uso de herramientas.
Qué es Nemotron 3 Nano 4B
Es un modelo híbrido que combina componentes Mamba (SSM) con capas tipo transformer para lograr razonamiento eficiente. Con 4B de parámetros, está específicamente optimizado para despliegues locales y edge: Jetson Thor, Jetson Orin Nano, RTX y DGX Spark.
¿Por qué importa esto? Porque te permite montar agentes conversacionales y comportamientos "agentic" cerca de los datos, con menor latencia, mejores garantías de privacidad y costes de inferencia reducidos.
Rendimiento y benchmarks clave
NVIDIA reporta resultados al tope de su clase para varias métricas relevantes:
Instruction following: estado del arte en su clase (IFBench, IFEval).
Gaming agency / inteligencia (Orak): también líder en su tamaño, evaluado en juegos tácticos como Super Mario, Darkest Dungeon y Stardew Valley.
Eficiencia de VRAM: huella mínima en su clase bajo configuraciones bajas y altas de ISL/OSL.
Latencia: mejor TTFT (tiempo a primer token) en su clase bajo ISL alto.
Las pruebas de eficiencia se midieron en una RTX 4070 usando Llama.cpp con versiones quantizadas Q4_K_M.
Cómo se comprimió y por qué es distinto
Nemotron 3 Nano 4B no fue entrenado desde cero: nace por poda y destilación desde Nemotron Nano 9B v2 usando la tecnología Nemotron Elastic. En vez de etapas separadas, Nemotron Elastic entrena un router que realiza una búsqueda de arquitectura conjunta con la distilación, optimizando qué se poda y cuánto para cumplir un presupuesto de parámetros.
El router consideró cuatro ejes de poda:
Mamba heads (número de SSM heads)
Hidden dimension (dimensión de embedding)
FFN channels (canales intermedios de MLP)
Depth (capas completas)
Según la convergencia para el objetivo 4B, las decisiones fueron (resumen):
Eje
Parent 9B v2
Nemotron 3 Nano 4B
Depth
56 capas (27 Mamba, 4 Attention, 25 MLP)
42 capas (21 Mamba, 4 Attention, 17 MLP)
Mamba heads
128
96
FFN intermediate dim
15680
12544
Embedding dim
4480
3136
Tras definir la arquitectura pruned, se reentrena el student con distilación desde el 9B originario.
Etapas de recuperación y post-entrenamiento
La recuperación de precisión se hizo en dos etapas principales:
Short-context distillation: ventana 8K, 63B tokens, mezcla ~70% post-training y 30% pretraining del padre. Esta etapa recupera la precisión inicial.
Long-context extension: ventana 49K, 150B tokens, para restaurar habilidades en cadenas de razonamiento largas.
Después hubo dos fases de SFT usando Megatron-LM (datos de razonamiento y no razonamiento) y un pipeline de RL en tres etapas con NeMo-RL para afinar instruction following y uso de herramientas: desde single-turn hasta multi-turn con ambientes NeMo-Gym y una versión preliminar de Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1. El entrenamiento mantuvo un balance 50-50 entre datos de razonamiento y no razonamiento y elevó progresivamente la penalidad KL.
Cuantización y despliegue en dispositivos
Para edge es clave la cuantización. Nemotron 3 Nano 4B se publica en FP8 y en Q4_K_M GGUF para Llama.cpp:
FP8: se aplicó PTQ con ModelOpt usando 1k muestras para calibración. Se usó cuantización selectiva: mantener algunas capas self-attention y las 4 capas Mamba previas en BF16 dio el mejor balance. Pesos, activaciones y KV-cache a FP8; Conv1D en Mamba en BF16. Resultado: 100% median accuracy recovery frente a BF16 y hasta 1.8x mejora en latencia y throughput en DGX Spark y Jetson Thor.
Q4_K_M (GGUF): la versión de 4 bits usada en Llama.cpp también alcanzó 100% median accuracy recovery y es adecuada para Jetson. En Jetson Orin Nano 8GB, la checkpoint Q4_K_M con Llama.cpp entrega 18 tokens/s, hasta 2x throughput comparado con Nemotron Nano 9B v2.
El modelo soporta múltiples motores de inferencia: Transformers, vLLM, TRT-LLM y Llama.cpp, lo que facilita decidir la pila según tu caso.
Dónde encaja y casos de uso prácticos
¿Quieres un agente conversacional que responda rápido sin mandar datos a la nube? ¿Un robot o un NPC de juego local que razone y llame a herramientas? Nemotron 3 Nano 4B está pensado para eso: agentes locales, asistentes embebidos, inferencia en flotas de robots, y escenarios gaming con lógica táctica.
Al ser open source, puedes afinarlo para dominio específico, experimentar con más cuantizaciones, o integrarlo con SDKs como NVIGI para acelerar inference junto a cargas gráficas.
Recomendaciones rápidas si vas a probarlo
Para Jetson: sigue las guías del Jetson AI Lab y prueba primero la versión Q4_K_M en Llama.cpp para evaluar throughput.
Si necesitas máxima precisión en servidor, usa FP8 en hardware compatible y compara con BF16 en tu workload.
Si vas a fine-tuning, aprovecha que el punto de partida fue una distilación desde 9B: la arquitectura ya conserva razonamiento estructurado, así que el ajuste fino SFT/RL puede ser más eficiente.
Nemotron 3 Nano 4B muestra cómo la combinación de poda estructurada guiada y destilación puede entregar modelos prácticos para el edge sin renunciar a capacidades de razonamiento y uso de herramientas. ¿Listo para probar un LLM que cabe en dispositivos embebidos y rinde como uno mucho más grande?