NVIDIA lanza Nemotron RAG para búsqueda multimodal | Keryc
¿Tienes pilas de PDFs, reportes con gráficos, contratos escaneados o presentaciones y te preguntas por qué los sistemas de búsqueda siguen fallando? No es magia: muchos sistemas solo buscan en texto y pierden la información visual y el layout. NVIDIA presenta dos modelos Nemotron pequeños y prácticos que mejoran la precisión y reducen la latencia en búsquedas multimodales sobre documentos visuales.
Qué lanzó NVIDIA y por qué importa
NVIDIA publica dos modelos pensados para Retrieval-Augmented Generation (RAG) multimodal que funcionan con bases vectoriales estándar y son lo bastante pequeños para GPU comunes:
llama-nemotron-embed-vl-1b-v2: embedding denso de imagen + texto por página (single-vector), 2048 dimensiones, diseñado para búsqueda a nivel de página con latencia en milisegundos.
llama-nemotron-rerank-vl-1b-v2: reranker cross-encoder que reordena los candidatos top-k para mejorar la relevancia antes de pasar contexto a un VLM.
¿Por qué esto cambia la práctica? Porque las embeddings multimodales deciden qué páginas llegan al modelo de lenguaje, y el reranker decide qué páginas influyen realmente en la respuesta. Si cualquiera de esos pasos falla, el VLM puede inventar con mucha confianza. Usar embeddings de imagen+texto más un reranker multimodal reduce esas alucinaciones sin inflar prompts.
Arquitectura y detalles técnicos
Tamaño y familia: ambos modelos tienen aproximadamente 1.7B parámetros y son fine-tunes de la familia NVIDIA Eagle, usando Llama 3.2 1B como backbone textual y un encoder visual SigLip2 de 400M.
llama-nemotron-embed-vl-1b-v2:
Arquitectura bi-encoder: codifica consulta y documento por separado.
Pooling: mean pooling sobre tokens finales del LM para producir un vector único de 2048 dimensiones.
Entrenamiento: contraste (contrastive learning) para acercar consultas a documentos relevantes y alejar negativos.
Formato: single dense vector por página para compatibilidad con cualquier vector DB.
llama-nemotron-rerank-vl-1b-v2:
Cross-encoder: decodifica query y página juntas para puntuación fina.
Salida: agregación por mean pooling + cabeza de clasificación binaria.
Pérdida: CrossEntropy; entrenado con datasets públicos y ejemplos sintéticos.
Ingestión multimodal: la modalidad Image+Text alimenta al encoder con la imagen de la página más el texto extraído (por ejemplo con NV-Ingest), logrando representaciones más fieles al documento real.
Resultados en benchmarks (Recall@5)
NVIDIA evaluó ambos modelos en cinco conjuntos de visual document retrieval: ViDoRe V1/V2/V3, DigitalCorpora-10k y Earnings V2. Aquí los números promedio (Recall@5) centrados en modelos densos comercialmente viables:
El reranker aporta una mejora clara: sumar la etapa de reordenamiento eleva Recall@5 en varios puntos porcentuales, lo que suele traducirse en respuestas más correctas y menos inventos por parte del VLM.
Comparativa del reranker frente a alternativas públicas:
Model
Text
Image
Image+Text
llama-nemotron-rerank-vl-1b-v2
76.12%
76.12%
77.64%
jina-reranker-m0
69.31%
78.33%
NA
MonoQwen2-VL-v0.1
74.70%
75.80%
75.98%
Nota: jina-reranker-m0 rinde bien en imagen sola pero su licencia pública es no comercial (CC-BY-NC). llama-nemotron-rerank-vl-1b-v2 ofrece mejor cobertura en Text y Image+Text con licencia permisiva para usos empresariales.
Casos de uso concretos (cómo empresas lo aplican hoy)
Cadence: modela documentos de diseño y verificación como documentos multimodales conectados. Un ingeniero puede preguntar por secciones específicas de una especificación y obtener las páginas relevantes con diagramas y requisitos relacionados.
IBM Storage: indexa páginas de manuales y guías, priorizando páginas donde aparecen términos de dominio en el contexto correcto antes de enviarlas a LLMs. Esto mejora la interpretación y el razonamiento sobre infraestructuras complejas.
ServiceNow: en experiencias de "Chat with PDF" usan embeddings multimodales para indexar y el reranker para priorizar páginas por consulta, manteniendo conversaciones coherentes sobre colecciones grandes de PDFs.
Cómo integrar estos modelos en tu stack RAG
Ingesta: extrae texto y guarda la imagen de cada página (NV-Ingest es una opción mencionada).
Indexación: ejecuta llama-nemotron-embed-vl-1b-v2 y guarda un vector denso por página en tu vector DB preferida.
Recuperación: haz un top-k por similitud (milisegundos a escala empresarial).
Reranking: aplica llama-nemotron-rerank-vl-1b-v2 sobre el top-k para reordenar sin cambiar tu índice.
Generación: concatena las páginas top reordenadas como contexto para tu VLM y genera respuestas más fundamentadas.
Pequeño tip práctico: no intentes compensar embeddings pobres con prompts enormes. Mejor invierte en mejorar la recuperación y el reranking: ahí es donde se reduce la generación de información falsa.
Reflexión final
Lo más interesante aquí es la pragmática: modelos relativamente pequeños (1.7B) que caben en GPUs comunes pueden transformar una búsqueda sobre PDFs en una experiencia multimodal real. Menos latencia, compatibilidad con vector DBs estándar y una mejora clara en Recall@5 significan que no necesitas un modelo masivo para dar resultados útiles en aplicaciones empresariales. ¿Listo para que tus agentes entiendan las imágenes y el layout, no solo el texto?