Sentence Transformers integrates multimodal embeddings and rerankers

Sentence Transformers integrates multimodal embeddings and rerankers | Keryc

# Image
pip install -U sentence-transformers[image]
# Audio
pip install -U sentence-transformers[audio]
# Video
pip install -U sentence-transformers[video]
# Mix as needed
pip install -U sentence-transformers[image,video,train]

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('Qwen/Qwen3-VL-Embedding-2B', revision='refs/pr/23')

# Encode images
img_embeddings = model.encode([
  'https://.../car.jpg',
  'https://.../bee.jpg',
])
# Encode text
text_embeddings = model.encode([
  'A green car parked in front of a yellow building',
  'A red car driving on a highway',
  'A bee on a pink flower',
  'A wasp on a wooden table',
])
# Similarities
similarities = model.similarity(text_embeddings, img_embeddings)
print(similarities)

from sentence_transformers import CrossEncoder
model = CrossEncoder('Qwen/Qwen3-VL-Reranker-2B', revision='refs/pr/11')
query = 'A green car parked in front of a yellow building'
documents = [
  'https://.../car.jpg',
  'https://.../bee.jpg',
  'A vintage Volkswagen Beetle painted in bright green sits in a driveway.',
  {'text': 'A car in a European city', 'image': 'https://.../car.jpg'},
]
rankings = model.rank(query, documents)

# Step 1: fast embedder
embedder = SentenceTransformer('Qwen/Qwen3-VL-Embedding-2B', revision='refs/pr/23')
query_embedding = embedder.encode_query('revenue growth chart')
corpus_embeddings = embedder.encode_document(document_screenshots, show_progress_bar=True)
# obtain top_k via similarity
# Step 2: reranker
reranker = CrossEncoder('nvidia/llama-nemotron-rerank-vl-1b-v2', trust_remote_code=True, revision='refs/pr/9')
rankings = reranker.rank(query, top_k_documents)

model = SentenceTransformer(
  'Qwen/Qwen3-VL-Embedding-2B',
  model_kwargs={'attn_implementation': 'flash_attention_2', 'torch_dtype': 'bfloat16'},
  processor_kwargs={'min_pixels': 28*28, 'max_pixels': 600*600},
  revision='refs/pr/23',
)

What are multimodal models?

Quick installation

Multimodal embedding models: loading and use

encode_query / encode_document

Multimodal rerankers (CrossEncoder)

Retrieve and rerank: recommended pattern

Input formats and preprocessing control

Supported models (v5.4) and lightweight alternatives

Best practices and technical considerations

Original source

Stay up to date!

Sentence Transformers integrates multimodal embeddings and rerankers