Arabic es un idioma tremendamente diverso: Modern Standard Arabic convive con dialectos regionales que varían en vocabulario, sintaxis y carga cultural. ¿Qué pasa cuando un modelo que fue entrenado con mucha MSA se enfrenta a una conversación cotidiana en Emiratí? Para responder eso nace Alyah الياه, un benchmark centrado en el dialecto emiratí que mide no solo corrección léxica, sino comprensión cultural, pragmática y figurativa.
Qué es Alyah
Alyah (que significa North Star ⭐️ en emiratí) es un conjunto de evaluación diseñado para probar la competencia de los LLMs en el dialecto emiratí. No es un banco de frases formales: son expresiones, saludos, proverbios, poesía breve y anécdotas recogidas de hablantes nativos.
El dataset final contiene 1,173 muestras, todas curadas manualmente por hablantes emiratíes para asegurar autenticidad cultural y lingüística. Cada ejemplo es una pregunta de opción múltiple con cuatro alternativas (exactamente una correcta). Los distractores fueron generados sintéticamente por LLMs y luego revisados por humanos para garantizar plausibilidad.
Cómo se construyó el benchmark
Recolección manual por hablantes nativos para capturar expresiones poco documentadas en texto escrito.
Formato: pregunta de opción múltiple con 4 candidatos; la posición de la respuesta correcta está aleatorizada para evitar sesgo posicional.
Evaluación basada en corrección semántica y adecuación pragmática frente al uso emiratí, no en coincidencia literal con una referencia.
Distribución por categoría:
Category
Number of Samples
Difficulty
Greetings & Daily Expressions
61
Easy
Religious & Social Sensitivity
78
Medium
Imagery & Figurative Meaning
121
Medium
Etiquette & Values
173
Medium
Poetry & Creative Expression
32
Difficult
Historical & Heritage Knowledge
89
Difficult
Language & Dialect
619
Difficult
Esta composición permite evaluar desde fluidez conversacional superficial hasta comprensión cultural profunda y fenómenos dialectales difíciles de aprender solo con texto formal.
Qué modelos se evaluaron y resultados clave
Los autores evaluaron decenas de modelos contemporáneos: familias árabes nativas como Jais y ALLaM, modelos multilingües con buen soporte árabe como Qwen y LLaMA, y adaptaciones regionales como Fanar y AceGPT.
Nota sobre cifras: el informe menciona en una sección 54 modelos (23 base + 31 instruct) y en otra 53 modelos (22 base + 31 instruct). Esto parece una inconsistencia en el reporte original.
Top modelos (base, según tabla):
google/gemma-3-27b-pt: 74.68
tiiuae/Falcon-H1-34B-Base: 73.66
FreedomIntelligence/AceGPT-v2-32B: 67.35
Top modelos (instruction-tuned, según tabla):
falcon-h1-arabic-7b-instruct: 82.18
humain-ai/ALLaM-7B-Instruct-preview: 77.24
google/gemma-3-27b-it: 74.68
falcon-h1-arabic-3b-instruct: 74.51
Qwen/Qwen2.5-72B-Instruct: 74.6
Métricas: la medida principal fue precisión (accuracy) en preguntas de opción múltiple. Los autores presentan además análisis por categoría y gráficos radar por familia de modelos para comparar fortalezas.
Tendencias y hallazgos técnicos
Instruction tuning mejora el desempeño. Los modelos afinados para instrucciones suelen superar a sus contrapartes base, especialmente en preguntas sobre normas conversacionales y respuestas culturalmente apropiadas (por ejemplo, la categoría Etiquette & Values).
Las categorías más difíciles fueron Language & Dialect y Greetings & Daily Expressions. ¿Por qué? Porque el dialecto emiratí se usa principalmente en oralidad y aparece poco en corpus escritos; los modelos ven poca señal durante su preentrenamiento.
Modelos multilingües fuertes muestran degradación en las preguntas más difíciles de Alyah, lo que sugiere que el entrenamiento multilingüe general no sustituye la exposición específica al dialecto.
Rendimiento no uniforme: un modelo puede destacar en lenguaje figurado pero fallar en poesía o conocimiento patrimonial. Esto indica que la competencia dialectal es multidimensional y no se resume bien en una sola métrica.
Los mejores resultados aparecen en modelos instruct-tuned árabes grandes (por ejemplo, variantes de Jais y ALLaM), lo que resalta el valor de adaptar y alinear modelos con datos regionales.
Recomendaciones prácticas para desarrolladores e investigadores
Recoge datos hablados y transcripciones: el dialecto vive en la oralidad. Si quieres que un LLM entienda saludos y matices, necesitas audio transcrito y diálogo natural.
Fine-tuning e instruction-tuning con supervisión dialectal mejora mucho la respuesta en categorías pragmáticas. Incluso pequeños modelos se benefician notablemente.
Usa evaluación semántica y pragmática, no solo n-gram overlap. En dialectos, varias formulaciones pueden ser válidas; la métrica debe reflejar eso.
Considera pipelines RAG (retrieval-augmented generation) con bases de conocimiento locales para preguntas de patrimonio e historia cultural.
Mantén humanos en el loop para generar y revisar distractores, etiquetas y ejemplos de uso; Alyah demuestra que la autenticidad cultural requiere curación humana.
Limitaciones y próximos pasos
Cobertura dialectal: Alyah se concentra en Emiratos; el mundo árabe tiene otros dialectos con iguales desafíos. Este benchmark es un paso, no la solución completa.
Ambigüedad intrínseca: algunas expresiones idiomáticas admiten interpretaciones múltiples. Eso complica la anotación y la evaluación automática.
Tamaño y representación: 1,173 ejemplos es sólido para diagnóstico, pero ampliar muestras y fuentes (más hablantes, más contextos) fortalecerá fiabilidad y diversidad.
Reflexión final
Alyah coloca el foco donde muchas evaluaciones anteriores no miraban: la oralidad, la cultura y la pragmática del dialecto emiratí. Si trabajas con modelos para usuarios en la región, este benchmark no es solo una tabla de puntajes; es una guía para dónde invertir datos, afinamiento y validación humana.
¿El mensaje clave? Comprender un dialecto es tanto lingüístico como cultural. Los LLMs pueden acercarse, pero necesitan datos y evaluación diseñada para ese territorio. Alyah es una brújula útil para ese viaje.