NVIDIA Nemotron 3 Nano Omni: IA multimodal de largo contexto

28 abr 2026Keryc Díaz5 minutos

NVIDIA presenta Nemotron 3 Nano Omni, un modelo omni-modal pensado para entender documentos largos, imágenes complejas, audio y video junto con razonamiento profundo. ¿Te suena a mezcla de OCR, reconocimiento de voz y comprensión de video todo en uno? Exacto: ese es el objetivo, y con resultados que ya marcan lideratos en varios benchmarks.

Qué es Nemotron 3 Nano Omni

Nemotron 3 Nano Omni es la evolución de la línea Nemotron: pasa de un sistema fuerte visión-texto a un modelo que integra texto, imagen, video y audio en contextos muy largos. Está diseñado para tareas reales y complejas: análisis de contratos y papers de 100+ páginas, transcripción y comprensión de audio largo, razonamiento conjunto en video con narración, y agentes que interactúan con interfaces gráficas.

No es solo percepción. Es percepción más razonamiento: extracción estructurada, lectura de tablas y gráficos, multi-step reasoning y capacidad de abstenerse cuando la evidencia no basta.

Arquitectura clave y cómo maneja contexto largo

En el núcleo combina el backbone Nemotron 3 hybrid Mamba-Transformer Mixture-of-Experts (MoE) con encoders especializados: C-RADIOv4-H para visión y Parakeet-TDT-0.6B-v2 para audio. La conexión entre encoders y LLM usa projectores ligeros de 2 capas MLP que integran las características en un espacio compartido.

Componentes principales:

23 capas Mamba selective state-space para procesar contexto largo de forma eficiente.
23 capas MoE con 128 expertos y ruteo top-6 más un experto compartido para capacidad condicional.
6 capas de grouped-query attention para mantener interacciones globales fuertes.
Intercalado de tokens de texto, visión y audio para razonamiento realmente multimodal.

Visión y video:

Procesamiento de resolución dinámica con parches de 16x16. Cada imagen puede usar entre 1,024 y 13,312 parches visuales (equivalente a ~512x512 hasta ~1840x1840), lo que ayuda a preservar detalles finos y estructura global.
Para video usan un camino de Conv3D que fusiona pares de frames en "tubelets", reduciendo a la mitad los tokens visuales que el LLM debe atender.
EVS (video token pruning) durante inferencia elimina tokens estáticos y conserva dinámicos, bajando latencia sin perder precisión.

Audio:

Parakeet-TDT procesa audio a 16 kHz, entrenando con entradas de hasta 1,200 segundos (20 minutos) y el backbone soporta contextos de 5+ horas.
El audio se proyecta al espacio compartido y se modela junto a imagen y texto, permitiendo razonamiento temporal conjunto (por ejemplo, identificar qué se dice justo cuando aparece cierto frame).

¿Resultado? Un diseño modular que permite verdadera fusión multimodal dentro del backbone y escala a contextos muy largos.

Entrenamiento y receta técnica

La receta de entrenamiento es por etapas: alineamiento multimodal, extensión de contexto, optimización por preferencia y aprendizaje por refuerzo multimodal (omni RL). Las etapas SFT se entrenaron en clusters NVIDIA H100 escalando de 32 a 128 nodos, usando Megatron-LM, Transformer Engine y Megatron Energon con paralelismos de tensor, experto, secuencia y contexto.

El post-SFT utiliza NeMo-RL y NeMo Gym con infraestructura distribuida en Ray, y medidas de deduplicación multimodal para evitar que rollouts repetidos multipliquen memoria de imágenes, video y audio. NVIDIA open sourcea partes clave del código de entrenamiento.

Datos y sintéticos:

Se generaron ~11.4M pares QA sintéticos (~45B tokens) a partir de PDFs reales con NeMo Data Designer para reforzar razonamiento en documentos largos. Esto aportó un 2.19x de mejora en MMLongBench-Doc.
Se usaron pipelines multi-stage para generación sintética y una suite de verificación que incluye casos no respondibles para enseñar al modelo a abstenerse en lugar de inventar respuestas.

Benchmarks y eficiencia

Nemotron 3 Nano Omni entrega mejoras importantes en exactitud y eficiencia frente a alternativas open-weights. Algunos números clave:

Tarea	Benchmark	Nemotron 3 Nano Omni
Document understanding	OCRBenchV2-En	65.8
MMLongBench-Doc	MMLongBench-Doc	57.5
CharXiv reasoning	CharXiv	63.6
GUI (ScreenSpot-Pro)	GUI	57.8
Video understanding	Video-MME	72.2
Video + Audio	WorldSense	55.4
Voice interaction	VoiceBench	89.4
ASR (lower mejor)	HF Open ASR	5.95

Eficiencia:

Hasta 9x mayor throughput y 2.9x más rapidez en razonamiento de stream único en use-cases multimodales respecto a alternativas.
7.4x más eficiencia de sistema en multi-document y 9.2x en video para cargas interactivas por usuario.

En resumen: mejores métricas y también mejor costo-rendimiento para tareas que combinan documentos, audio y video.

Casos de uso prácticos

Documentos largos y "desordenados": contratos, reportes, manuales y PDFs de 100+ páginas con tablas, figuras, fórmulas y referencias cruzadas.
Transcripción y análisis de audio largo: reuniones, entrevistas y clases con varios hablantes y ruido de fondo.
Video + audio conjunto: grabaciones de pantalla con narración, tutoriales, demos y archivos de video archivados donde la voz altera el significado visual.
Agentes GUI: interpretar capturas de pantalla, monitorear estado de la interfaz y ejecutar acciones (incluye ejemplos con pyautogui y funciones tipo computer.wait o computer.terminate).

Ejemplo real mostrado: extracción de métricas financieras a través de un documento de 100+ páginas en una sola pasada, con lectura de tablas y cross-page reasoning.

Limitaciones y consideraciones prácticas

Requerimientos de hardware: aunque el modelo es eficiente respecto a alternativas, entrenar y servir un LLM multimodal de 30B exige recursos (H100, infra distribuida) o usar checkpoints optimizados (BF16, FP8, NVFP4).
Calidad de datos sintéticos: ayudan mucho, pero es clave auditar y validar resultados en dominios sensibles.
Riesgos de hallucination: el entrenamiento incluye verificación y casos no respondibles para reducir inventos, pero siempre debes verificar salidas críticas.
Privacidad y cumplimiento: al integrar documentos empresariales y audio, hay que aplicar controles de privacidad y gobernanza de datos.

Cómo probarlo y recursos técnicos

Checkpoints y recursos oficiales:

BF16 checkpoint: https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
FP8 checkpoint: https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8
NVFP4 checkpoint: https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
Reporte técnico PDF: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Omni-report.pdf
Dataset de entrenamiento de imágenes v3: https://huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3
Megatron-Bridge examples: https://github.com/NVIDIA-NeMo/Megatron-Bridge/tree/main/examples/models/vlm/nemotron_3_omni
Nemo-RL docs: https://github.com/NVIDIA-NeMo/RL/blob/nano-v3-omni/docs/guides/nemotron-3-nano-omni.md
NeMo Data Designer recipes: https://github.com/NVIDIA-NeMo/DataDesigner/tree/main/docs/assets/recipes/vlm_long_doc

Bibliografía y modelos relacionados:

Nemotron Nano V2 VL (reporte): https://arxiv.org/abs/2511.03929
Nemotron 3 general (reporte): https://arxiv.org/abs/2512.20856
C-RADIOv4-H: https://huggingface.co/nvidia/C-RADIOv4-H
Parakeet-TDT: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3
Megatron-LM: https://github.com/NVIDIA/Megatron-LM
Transformer Engine: https://github.com/NVIDIA/TransformerEngine
Megatron Energon: https://github.com/NVIDIA/Megatron-Energon

Reflexión final

Nemotron 3 Nano Omni muestra que la integración nativa de audio, video e imagen con un backbone LLM puede ofrecer tanto mejor precisión como mejor eficiencia en escenarios reales. ¿Qué significa esto para ti? Si trabajas con documentos largos, archivos multimedia o flujos interactivos, ahora hay modelos abiertos que reducen la fricción entre percepción y razonamiento. Aun así, la adopción responsable pide validación, gobernanza y revisión humana en tareas críticas.

Fuente original

https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.