NVIDIA presenta Nemotron ColEmbed V2, una familia de modelos late-interaction diseñada para búsqueda en documentos visuales complejos. Si trabajas con páginas que mezclan texto, tablas, gráficos e imágenes, esto te interesa: mejora la precisión en recuperar información multimodal en escenarios tipo enterprise y RAG.
Qué es Nemotron ColEmbed V2
Son modelos de embeddings multivectoriales (late-interaction) disponibles en 3B, 4B y 8B parámetros. A diferencia de un único vector por documento, aquí cada token del documento produce un embedding. Durante la búsqueda, cada token de la consulta compara su embedding con todos los token-embeddings del documento usando la operación MaxSim, y se suman los máximos para obtener la puntuación final.
¿Por qué esto importa? Porque permite coincidencias finas: una celda de tabla, el texto dentro de una figura o un rótulo pequeño pueden influir en el resultado, algo que se diluye cuando todo el documento se reduce a un solo vector.
