Ettin Reranker: nueva familia de rerankers eficientes

Hoy Hugging Face publica seis rerankers CrossEncoder basados en los encoders Ettin ModernBERT. Son modelos distillados, optimizados para reranking en pipelines retrieve-then-rerank, y cubren desde 17M hasta 1B parámetros con soporte hasta 8K tokens. Aquí te explico por qué importan, cómo usarlos y qué receta se usó para entrenarlos.

Qué es un reranker y por qué emparejarlo con un embedder

Un reranker (o cross-encoder) toma un par (consulta, documento) y devuelve una puntuación de relevancia. A diferencia de un embedder que codifica por separado y compara vectores, el reranker permite atención cruzada entre la consulta y el documento en cada capa. Eso suele dar más precisión pero es más caro computacionalmente: hay que ejecutar el modelo por cada par.

Por eso la práctica común es retrieve-then-rerank: primero un embedder rápido recupera los K candidatos, luego el reranker reordena solo esos K. Mantienes un coste controlado y te acercas mucho al resultado que obtendrías si aplicaras el cross-encoder a todo el corpus.

Qué es un reranker y por qué emparejarlo con un embedder

Modelos liberados y licencia

Uso (rápido)

Arquitectura y por qué son rápidos

Resultados y benchmarks (resumen técnico)

Latencia y cómo obtenerla

Receta de entrenamiento (técnico)

Implicaciones prácticas y recomendaciones

Conclusión

Fuente original

¡Mantente al día!

Ettin Reranker: nueva familia de rerankers eficientes