NVIDIA lanza Nemotron RAG para búsqueda multimodal

¿Tienes pilas de PDFs, reportes con gráficos, contratos escaneados o presentaciones y te preguntas por qué los sistemas de búsqueda siguen fallando? No es magia: muchos sistemas solo buscan en texto y pierden la información visual y el layout. NVIDIA presenta dos modelos Nemotron pequeños y prácticos que mejoran la precisión y reducen la latencia en búsquedas multimodales sobre documentos visuales.

Qué lanzó NVIDIA y por qué importa

NVIDIA publica dos modelos pensados para Retrieval-Augmented Generation (RAG) multimodal que funcionan con bases vectoriales estándar y son lo bastante pequeños para GPU comunes:

llama-nemotron-embed-vl-1b-v2: embedding denso de imagen + texto por página (single-vector), 2048 dimensiones, diseñado para búsqueda a nivel de página con latencia en milisegundos.
llama-nemotron-rerank-vl-1b-v2: reranker cross-encoder que reordena los candidatos top-k para mejorar la relevancia antes de pasar contexto a un VLM.

Model	Text	Image	Image + Text
`llama-nemotron-embed-1b-v2`	69.35%	-	-
`llama-3.2-nemoretriever-1b-vlm-embed-v1`	71.07%	70.46%	71.71%
`llama-nemotron-embed-vl-1b-v2`	71.04%	71.20%	73.24%
`llama-nemotron-embed-vl-1b-v2 + llama-nemotron-rerank-vl-1b-v2`	76.12%	76.12%	77.64%

Model	Text	Image	Image+Text
`llama-nemotron-rerank-vl-1b-v2`	76.12%	76.12%	77.64%
`jina-reranker-m0`	69.31%	78.33%	NA
`MonoQwen2-VL-v0.1`	74.70%	75.80%	75.98%

Qué lanzó NVIDIA y por qué importa

Arquitectura y detalles técnicos

Resultados en benchmarks (Recall@5)

Casos de uso concretos (cómo empresas lo aplican hoy)

Cómo integrar estos modelos en tu stack RAG

Reflexión final

Fuente original

¡Mantente al día!

NVIDIA lanza Nemotron RAG para búsqueda multimodal