Arabic es un idioma tremendamente diverso: Modern Standard Arabic convive con dialectos regionales que varían en vocabulario, sintaxis y carga cultural. ¿Qué pasa cuando un modelo que fue entrenado con mucha MSA se enfrenta a una conversación cotidiana en Emiratí? Para responder eso nace Alyah الياه, un benchmark centrado en el dialecto emiratí que mide no solo corrección léxica, sino comprensión cultural, pragmática y figurativa.
Qué es Alyah
Alyah (que significa North Star ⭐️ en emiratí) es un conjunto de evaluación diseñado para probar la competencia de los LLMs en el dialecto emiratí. No es un banco de frases formales: son expresiones, saludos, proverbios, poesía breve y anécdotas recogidas de hablantes nativos.
El dataset final contiene 1,173 muestras, todas curadas manualmente por hablantes emiratíes para asegurar autenticidad cultural y lingüística. Cada ejemplo es una pregunta de opción múltiple con cuatro alternativas (exactamente una correcta). Los distractores fueron generados sintéticamente por LLMs y luego revisados por humanos para garantizar plausibilidad.
Cómo se construyó el benchmark
- Recolección manual por hablantes nativos para capturar expresiones poco documentadas en texto escrito.
- Formato: pregunta de opción múltiple con 4 candidatos; la posición de la respuesta correcta está aleatorizada para evitar sesgo posicional.
- Evaluación basada en corrección semántica y adecuación pragmática frente al uso emiratí, no en coincidencia literal con una referencia.
Distribución por categoría:
| Category | Number of Samples | Difficulty |
|---|---|---|
| Greetings & Daily Expressions | 61 | Easy |
| Religious & Social Sensitivity | 78 | Medium |
| Imagery & Figurative Meaning | 121 | Medium |
| Etiquette & Values | 173 | Medium |
| Poetry & Creative Expression | 32 | Difficult |
| Historical & Heritage Knowledge | 89 | Difficult |
| Language & Dialect | 619 | Difficult |
Esta composición permite evaluar desde fluidez conversacional superficial hasta comprensión cultural profunda y fenómenos dialectales difíciles de aprender solo con texto formal.
Qué modelos se evaluaron y resultados clave
Los autores evaluaron decenas de modelos contemporáneos: familias árabes nativas como Jais y ALLaM, modelos multilingües con buen soporte árabe como Qwen y LLaMA, y adaptaciones regionales como Fanar y AceGPT.
Nota sobre cifras: el informe menciona en una sección 54 modelos (23 base + 31 instruct) y en otra 53 modelos (22 base + 31 instruct). Esto parece una inconsistencia en el reporte original.
Top modelos (base, según tabla):
google/gemma-3-27b-pt: 74.68tiiuae/Falcon-H1-34B-Base: 73.66FreedomIntelligence/AceGPT-v2-32B: 67.35
Top modelos (instruction-tuned, según tabla):
falcon-h1-arabic-7b-instruct: 82.18humain-ai/ALLaM-7B-Instruct-preview: 77.24google/gemma-3-27b-it: 74.68falcon-h1-arabic-3b-instruct: 74.51Qwen/Qwen2.5-72B-Instruct: 74.6
Métricas: la medida principal fue precisión (accuracy) en preguntas de opción múltiple. Los autores presentan además análisis por categoría y gráficos radar por familia de modelos para comparar fortalezas.
Tendencias y hallazgos técnicos
-
Instruction tuning mejora el desempeño. Los modelos afinados para instrucciones suelen superar a sus contrapartes base, especialmente en preguntas sobre normas conversacionales y respuestas culturalmente apropiadas (por ejemplo, la categoría Etiquette & Values).
-
Las categorías más difíciles fueron Language & Dialect y Greetings & Daily Expressions. ¿Por qué? Porque el dialecto emiratí se usa principalmente en oralidad y aparece poco en corpus escritos; los modelos ven poca señal durante su preentrenamiento.
-
Modelos multilingües fuertes muestran degradación en las preguntas más difíciles de Alyah, lo que sugiere que el entrenamiento multilingüe general no sustituye la exposición específica al dialecto.
-
Rendimiento no uniforme: un modelo puede destacar en lenguaje figurado pero fallar en poesía o conocimiento patrimonial. Esto indica que la competencia dialectal es multidimensional y no se resume bien en una sola métrica.
-
Los mejores resultados aparecen en modelos instruct-tuned árabes grandes (por ejemplo, variantes de
JaisyALLaM), lo que resalta el valor de adaptar y alinear modelos con datos regionales.
Recomendaciones prácticas para desarrolladores e investigadores
-
Recoge datos hablados y transcripciones: el dialecto vive en la oralidad. Si quieres que un LLM entienda saludos y matices, necesitas audio transcrito y diálogo natural.
-
Fine-tuning e instruction-tuning con supervisión dialectal mejora mucho la respuesta en categorías pragmáticas. Incluso pequeños modelos se benefician notablemente.
-
Usa evaluación semántica y pragmática, no solo n-gram overlap. En dialectos, varias formulaciones pueden ser válidas; la métrica debe reflejar eso.
-
Considera pipelines RAG (retrieval-augmented generation) con bases de conocimiento locales para preguntas de patrimonio e historia cultural.
-
Mantén humanos en el loop para generar y revisar distractores, etiquetas y ejemplos de uso; Alyah demuestra que la autenticidad cultural requiere curación humana.
Limitaciones y próximos pasos
-
Cobertura dialectal: Alyah se concentra en Emiratos; el mundo árabe tiene otros dialectos con iguales desafíos. Este benchmark es un paso, no la solución completa.
-
Ambigüedad intrínseca: algunas expresiones idiomáticas admiten interpretaciones múltiples. Eso complica la anotación y la evaluación automática.
-
Tamaño y representación: 1,173 ejemplos es sólido para diagnóstico, pero ampliar muestras y fuentes (más hablantes, más contextos) fortalecerá fiabilidad y diversidad.
Reflexión final
Alyah coloca el foco donde muchas evaluaciones anteriores no miraban: la oralidad, la cultura y la pragmática del dialecto emiratí. Si trabajas con modelos para usuarios en la región, este benchmark no es solo una tabla de puntajes; es una guía para dónde invertir datos, afinamiento y validación humana.
¿El mensaje clave? Comprender un dialecto es tanto lingüístico como cultural. Los LLMs pueden acercarse, pero necesitan datos y evaluación diseñada para ese territorio. Alyah es una brújula útil para ese viaje.
