QIMMA: leaderboard de calidad para LLMs en árabe | Keryc
QIMMA قمّة llega con una propuesta simple pero potente: validar la calidad de los benchmarks antes de evaluar modelos. ¿Suena obvio? Lo es, pero en la práctica muchos leaderboard ejecutan modelos sobre conjuntos de datos sin chequear si las preguntas tienen sentido en árabe, si las respuestas doradas son correctas o si la traducción cambió la intención original.
Qué es QIMMA y por qué importa
QIMMA es un leaderboard pensado para árabe que prioriza la calidad. No agrupa benchmarks tal cual y ya. Primero valida cada muestra; luego evalúa modelos. El resultado es un suite unificada de 109 subconjuntos, más de 52 000 muestras y cobertura en siete dominios: cultural, STEM, legal, médico, seguridad, poesía y código.
¿Por qué esto cambia las reglas del juego? Porque el árabe es hablado por más de 400 millones de personas en dialectos y contextos culturales muy diversos. Si usamos datos traducidos o sin control de calidad, las puntuaciones pueden reflejar artefactos del benchmark, no la verdadera capacidad del modelo.
Metodología: validación antes de evaluar
La pieza central de QIMMA es su pipeline de validación por etapas. Cada muestra pasa por dos modelos LLM con fuerte capacidad en árabe: Qwen3-235B-A22B-Instruct y DeepSeek-V3-671B. Ambos puntúan cada muestra con una rúbrica de 10 puntos, compuesta por criterios binarios (0 o 1) que suman hasta 10.
Umbral de eliminación: si alguno de los modelos da menos de 7/10, la muestra queda marcada. Si los dos modelos la marcan, se descarta directamente. Si solo uno la marca, la muestra pasa a revisión humana.
Revisión humana y sensibilidad dialectal
Los casos marcados los revisan anotadores nativos con conocimiento dialectal y cultural. Aquí se juzga:
contexto cultural y variación regional
matices dialectales
interpretaciones subjetivas
problemas sutiles que la evaluación automática no detecta
Para contenido sensible se buscan múltiples perspectivas, porque en la práctica la 'correctitud' puede cambiar entre regiones árabes.
Qué problemas encontraron en los benchmarks
Los hallazgos fueron constantes: muchos benchmarks, incluso respetados, muestran errores sistemáticos. Entre los problemas recurrentes están traducciones literales que cambian la intención, respuestas doradas incorrectas, errores de codificación, y consistencia anotacional pobre.
QIMMA consolidó 109 subconjuntos de 14 fuentes y encontró tasas de descarte variables. Por ejemplo, ArabicMMLU descartó 436 de 14 163 muestras (3.1%).
En tareas de código no descartaron prompts; en cambio los refinaron. Las adaptaciones árabes de HumanEval+ y MBPP+ fueron modificadas en 88% y 81% de los casos respectivamente.
Las modificaciones en prompts de código incluyeron:
normalización a un árabe estándar natural
aclaración de instrucciones y restricciones
corrección de errores estructurales en los ejemplos
preservación del intent original del problema
Cómo evalúa QIMMA: métricas y herramientas
QIMMA usa LightEval, EvalPlus y FannOrFlop para mantener reproducibilidad y consistencia. Los principales mapeos métricos son:
MCQ: Normalized Log-Likelihood Accuracy
Multi-select MCQ: probabilidad acumulada sobre las opciones correctas
Generative QA: F1 BERTScore (AraBERT v02)
Code: Pass@1
Además, QIMMA estandariza prompts por formato y mantiene los prompts sistema originales para algunos benchmarks específicos como MizanQA y ArabCulture.
Importante: QIMMA publica las salidas por muestra, no solo agregados. Eso facilita auditoría, reproducibilidad y análisis de fallos.
Resultados: quién lidera y qué significa
Se evaluaron 46 modelos open source, desde ~1B hasta 400B parámetros. Observaciones clave:
Jais-2-70B-Chat lidera el ranking general (65.81) y domina Cultural, STEM, Legal y Safety. Demuestra que el entrenamiento centrado en árabe aporta ganancias claras.
Qwen2.5-72B-Instruct quedó muy cerca (65.75) y muestra que modelos multilingües grandes siguen siendo competitivos en árabe.
Llama-3.3-70B-Instruct domina en Medical, y Qwen3.5-27B destaca en Coding.
Los modelos especializados en árabe suelen vencer a multilingües de tamaño similar en varias dominios, pero el dominio de código favorece a modelos multilingües.
En la práctica esto sugiere dos cosas: el entrenamiento focalizado en árabe paga dividendo en comprensión cultural y respuestas correctas; mientras que las habilidades de generación de código pueden requerir datos de instrucción en múltiples lenguajes o ejemplos más variados.
Recomendaciones técnicas y de investigación
Validar datos antes de evaluar. Esta es la lección central: sin control de calidad, las métricas pueden engañar.
Publicar salidas por muestra y scripts de evaluación para reproducibilidad.
Tratar la evaluación de código como un subtipo especial: arreglar prompts en lugar de eliminar muestras mantiene la comparabilidad con benchmarks internacionales.
Incorporar revisiones dialectales y perspectivas culturales múltiples para tareas sensibles.
Si trabajas con modelos en árabe, QIMMA ofrece un marco reproducible y una base de comparación más honesta. Puedes usar su enfoque para auditar tus propios datasets o para diseñar benchmarks nuevos sin las trampas comunes.
Reflexión final
QIMMA no es solo otro leaderboard; es una llamada de atención metodológica. Validar primero, evaluar después. Publicar salidas por muestra. Respetar la diversidad del árabe. Con medidas así, las comparaciones entre modelos dejan de ser ruido y pasan a ser información útil para investigadores, desarrolladores y usuarios.