Finetuning multimodal con Sentence Transformers para VDR

En este artículo te explico, paso a paso y con ejemplos prácticos, cómo afinar modelos multimodales en Sentence Transformers para Visual Document Retrieval (VDR). ¿Te interesa mejorar la recuperación de capturas de documentos con gráficos, tablas y layouts intactos? Entonces esto es para ti.

Por qué afinar un modelo multimodal

Los modelos multimodales generales, como Qwen/Qwen3-VL-Embedding-2B, están entrenados para servir a muchas tareas: emparejar imagen-texto, VQA, comprensión de documentos, y más. Pero la generalidad tiene un costo: rara vez son óptimos para una tarea específica.

¿Y VDR no es diferente a buscar una foto de zapatillas? Exacto. Para VDR necesitas entender layouts, tablas y gráficos en capturas de pantalla. Afinando con datos del dominio, el modelo aprende patrones especializados y mejora sustancialmente.

En el experimento que revisamos, el modelo finetuneado tomaarsen/Qwen3-VL-Embedding-2B-vdr sube de NDCG@10 0.888 a 0.947 en el conjunto de evaluación. Eso lo pone por encima de modelos mucho más grandes. ¿La lección? Afinar en tu dominio suele ser más eficaz que usar un modelo más grande y genérico.

Por qué afinar un modelo multimodal

Componentes del entrenamiento multimodal

Modelo: finetune de VLM vs Router

Dataset: el ejemplo práctico

Función de pérdida: CachedMultipleNegativesRankingLoss y Matryoshka

Argumentos de entrenamiento: tips prácticos

Evaluador: medir retrieval correctamente

Trainer: juntar todo

Resultados: qué puedes esperar

Rerankers multimodales: otra ruta

Consejos prácticos para tu proyecto

Reflexión final

Fuente original

¡Mantente al día!

Finetuning multimodal con Sentence Transformers para VDR