Granite R2: embeddings multilingües 32K y alto rendimiento

IBM lanza dos modelos de embeddings multilingües bajo Apache 2.0 que buscan resolver un problema muy real: ¿cómo tener buena cobertura de idiomas sin un modelo gigante? La respuesta de Granite R2 es pragmática: un modelo completo de 311M parámetros con soporte Matryoshka y un compacto de 97M que lidera la categoría sub-100M en recuperación multilingüe. Ambos manejan contexto largo de hasta 32 768 tokens, cubren 200+ idiomas y añaden recuperación de código para 9 lenguajes.

Qué trae Granite Embedding Multilingual R2

Modelos publicados:
- granite-embedding-311m-multilingual-r2: 311M parámetros, embeddings 768-d, Matryoshka (truncable a 512/384/256/128).
- granite-embedding-97m-multilingual-r2: 97M parámetros, embeddings 384-d, optimizado para throughput y edge.
Cobertura: 200+ idiomas; 52 idiomas con entrenamiento explícito para recuperación. Soporte de código: Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++.

Qué trae Granite Embedding Multilingual R2

Por qué importa para producción

Arquitectura y qué cambió desde R1

Cómo se entrenaron (resumen técnico)

Benchmarks y números que importan

Matryoshka Embeddings: flexibilidad práctica

Integración con frameworks y despliegue

¿Cuál deberías elegir?

Consejos prácticos antes de migrar

Fuente original

¡Mantente al día!

Granite R2: embeddings multilingües 32K y alto rendimiento