Nemotron ColEmbed V2: nuevo estándar en retrieval multimodal

NVIDIA presenta Nemotron ColEmbed V2, una familia de modelos late-interaction diseñada para búsqueda en documentos visuales complejos. Si trabajas con páginas que mezclan texto, tablas, gráficos e imágenes, esto te interesa: mejora la precisión en recuperar información multimodal en escenarios tipo enterprise y RAG.

Qué es Nemotron ColEmbed V2

Son modelos de embeddings multivectoriales (late-interaction) disponibles en 3B, 4B y 8B parámetros. A diferencia de un único vector por documento, aquí cada token del documento produce un embedding. Durante la búsqueda, cada token de la consulta compara su embedding con todos los token-embeddings del documento usando la operación MaxSim, y se suman los máximos para obtener la puntuación final.

¿Por qué esto importa? Porque permite coincidencias finas: una celda de tabla, el texto dentro de una figura o un rótulo pequeño pueden influir en el resultado, algo que se diluye cuando todo el documento se reduce a un solo vector.

Modelo	Emb_dim	Parámetros	ViDoRe V3 NDCG@10
nemotron-colembed-vl-8b-v2	4096	8.8B	63.42
nemotron-colembed-vl-4b-v2	2560	4.8B	61.54
llama-nemotron-colembed-vl-3b-v2	3072	4.4B	59.79
lama-nemoretriever-colembed-3b-v1	3072	4.4B	57.26

Qué es Nemotron ColEmbed V2

Qué es Nemotron ColEmbed V2

Arquitectura y entrenamiento (técnico)

Mecanismo MaxSim y costo de almacenamiento

Rendimiento en ViDoRe V3

Casos de uso y tradeoffs

Cómo empezar

Fuente original

¡Mantente al día!

Nemotron ColEmbed V2: nuevo estándar en retrieval multimodal