¿Tienes pilas de PDFs, reportes con gráficos, contratos escaneados o presentaciones y te preguntas por qué los sistemas de búsqueda siguen fallando? No es magia: muchos sistemas solo buscan en texto y pierden la información visual y el layout. NVIDIA presenta dos modelos Nemotron pequeños y prácticos que mejoran la precisión y reducen la latencia en búsquedas multimodales sobre documentos visuales.
Qué lanzó NVIDIA y por qué importa
NVIDIA publica dos modelos pensados para Retrieval-Augmented Generation (RAG) multimodal que funcionan con bases vectoriales estándar y son lo bastante pequeños para GPU comunes:
llama-nemotron-embed-vl-1b-v2: embedding denso de imagen + texto por página (single-vector), 2048 dimensiones, diseñado para búsqueda a nivel de página con latencia en milisegundos.llama-nemotron-rerank-vl-1b-v2: reranker cross-encoder que reordena los candidatos top-k para mejorar la relevancia antes de pasar contexto a un VLM.
¿Por qué esto cambia la práctica? Porque las embeddings multimodales deciden qué páginas llegan al modelo de lenguaje, y el reranker decide qué páginas influyen realmente en la respuesta. Si cualquiera de esos pasos falla, el VLM puede inventar con mucha confianza. Usar embeddings de imagen+texto más un reranker multimodal reduce esas alucinaciones sin inflar prompts.
Arquitectura y detalles técnicos
-
Tamaño y familia: ambos modelos tienen aproximadamente 1.7B parámetros y son fine-tunes de la familia NVIDIA Eagle, usando Llama 3.2 1B como backbone textual y un encoder visual SigLip2 de 400M.
-
llama-nemotron-embed-vl-1b-v2:- Arquitectura bi-encoder: codifica consulta y documento por separado.
- Pooling: mean pooling sobre tokens finales del LM para producir un vector único de 2048 dimensiones.
- Entrenamiento: contraste (contrastive learning) para acercar consultas a documentos relevantes y alejar negativos.
- Formato: single dense vector por página para compatibilidad con cualquier vector DB.
-
llama-nemotron-rerank-vl-1b-v2:- Cross-encoder: decodifica query y página juntas para puntuación fina.
- Salida: agregación por mean pooling + cabeza de clasificación binaria.
- Pérdida: CrossEntropy; entrenado con datasets públicos y ejemplos sintéticos.
-
Ingestión multimodal: la modalidad Image+Text alimenta al encoder con la imagen de la página más el texto extraído (por ejemplo con NV-Ingest), logrando representaciones más fieles al documento real.
Resultados en benchmarks (Recall@5)
NVIDIA evaluó ambos modelos en cinco conjuntos de visual document retrieval: ViDoRe V1/V2/V3, DigitalCorpora-10k y Earnings V2. Aquí los números promedio (Recall@5) centrados en modelos densos comercialmente viables:
| Model | Text | Image | Image + Text |
|---|---|---|---|
llama-nemotron-embed-1b-v2 | 69.35% | - | - |
llama-3.2-nemoretriever-1b-vlm-embed-v1 | 71.07% | 70.46% | 71.71% |
llama-nemotron-embed-vl-1b-v2 | 71.04% | 71.20% | 73.24% |
llama-nemotron-embed-vl-1b-v2 + llama-nemotron-rerank-vl-1b-v2 | 76.12% | 76.12% | 77.64% |
El reranker aporta una mejora clara: sumar la etapa de reordenamiento eleva Recall@5 en varios puntos porcentuales, lo que suele traducirse en respuestas más correctas y menos inventos por parte del VLM.
Comparativa del reranker frente a alternativas públicas:
| Model | Text | Image | Image+Text |
|---|---|---|---|
llama-nemotron-rerank-vl-1b-v2 | 76.12% | 76.12% | 77.64% |
jina-reranker-m0 | 69.31% | 78.33% | NA |
MonoQwen2-VL-v0.1 | 74.70% | 75.80% | 75.98% |
Nota: jina-reranker-m0 rinde bien en imagen sola pero su licencia pública es no comercial (CC-BY-NC). llama-nemotron-rerank-vl-1b-v2 ofrece mejor cobertura en Text y Image+Text con licencia permisiva para usos empresariales.
Casos de uso concretos (cómo empresas lo aplican hoy)
-
Cadence: modela documentos de diseño y verificación como documentos multimodales conectados. Un ingeniero puede preguntar por secciones específicas de una especificación y obtener las páginas relevantes con diagramas y requisitos relacionados.
-
IBM Storage: indexa páginas de manuales y guías, priorizando páginas donde aparecen términos de dominio en el contexto correcto antes de enviarlas a LLMs. Esto mejora la interpretación y el razonamiento sobre infraestructuras complejas.
-
ServiceNow: en experiencias de "Chat with PDF" usan embeddings multimodales para indexar y el reranker para priorizar páginas por consulta, manteniendo conversaciones coherentes sobre colecciones grandes de PDFs.
Cómo integrar estos modelos en tu stack RAG
- Ingesta: extrae texto y guarda la imagen de cada página (NV-Ingest es una opción mencionada).
- Indexación: ejecuta
llama-nemotron-embed-vl-1b-v2y guarda un vector denso por página en tu vector DB preferida. - Recuperación: haz un top-k por similitud (milisegundos a escala empresarial).
- Reranking: aplica
llama-nemotron-rerank-vl-1b-v2sobre el top-k para reordenar sin cambiar tu índice. - Generación: concatena las páginas top reordenadas como contexto para tu VLM y genera respuestas más fundamentadas.
Pequeño tip práctico: no intentes compensar embeddings pobres con prompts enormes. Mejor invierte en mejorar la recuperación y el reranking: ahí es donde se reduce la generación de información falsa.
Reflexión final
Lo más interesante aquí es la pragmática: modelos relativamente pequeños (1.7B) que caben en GPUs comunes pueden transformar una búsqueda sobre PDFs en una experiencia multimodal real. Menos latencia, compatibilidad con vector DBs estándar y una mejora clara en Recall@5 significan que no necesitas un modelo masivo para dar resultados útiles en aplicaciones empresariales. ¿Listo para que tus agentes entiendan las imágenes y el layout, no solo el texto?
