Nemotron 3 Nano 4B: IA compacta optimizada para el edge

Nemotron 3 Nano 4B es la nueva apuesta de NVIDIA para llevar modelos potentes al borde: un modelo híbrido Mamba-Transformer de 4.000 millones de parámetros pensado para correr en dispositivos Jetson, GPUs GeForce y clusters como DGX Spark, con baja huella de VRAM y buen seguimiento de instrucciones y uso de herramientas.

Qué es Nemotron 3 Nano 4B

Es un modelo híbrido que combina componentes Mamba (SSM) con capas tipo transformer para lograr razonamiento eficiente. Con 4B de parámetros, está específicamente optimizado para despliegues locales y edge: Jetson Thor, Jetson Orin Nano, RTX y DGX Spark.

¿Por qué importa esto? Porque te permite montar agentes conversacionales y comportamientos "agentic" cerca de los datos, con menor latencia, mejores garantías de privacidad y costes de inferencia reducidos.

Rendimiento y benchmarks clave

NVIDIA reporta resultados al tope de su clase para varias métricas relevantes:

Instruction following: estado del arte en su clase (IFBench, IFEval).

Eje	Parent 9B v2	Nemotron 3 Nano 4B
Depth	56 capas (27 Mamba, 4 Attention, 25 MLP)	42 capas (21 Mamba, 4 Attention, 17 MLP)
Mamba heads	128	96
FFN intermediate dim	15680	12544
Embedding dim	4480	3136

Qué es Nemotron 3 Nano 4B

Rendimiento y benchmarks clave

Cómo se comprimió y por qué es distinto

Etapas de recuperación y post-entrenamiento

Cuantización y despliegue en dispositivos

Dónde encaja y casos de uso prácticos

Recomendaciones rápidas si vas a probarlo

Fuente original

¡Mantente al día!

Nemotron 3 Nano 4B: IA compacta optimizada para el edge