NVIDIA presenta Nemotron 3 Nano Omni, un modelo omni-modal pensado para entender documentos largos, imágenes complejas, audio y video junto con razonamiento profundo. ¿Te suena a mezcla de OCR, reconocimiento de voz y comprensión de video todo en uno? Exacto: ese es el objetivo, y con resultados que ya marcan lideratos en varios benchmarks.
Qué es Nemotron 3 Nano Omni
Nemotron 3 Nano Omni es la evolución de la línea Nemotron: pasa de un sistema fuerte visión-texto a un modelo que integra texto, imagen, video y audio en contextos muy largos. Está diseñado para tareas reales y complejas: análisis de contratos y papers de 100+ páginas, transcripción y comprensión de audio largo, razonamiento conjunto en video con narración, y agentes que interactúan con interfaces gráficas.
No es solo percepción. Es percepción más razonamiento: extracción estructurada, lectura de tablas y gráficos, multi-step reasoning y capacidad de abstenerse cuando la evidencia no basta.
