OpenAI lanza IndQA: benchmark para lenguas y cultura india | Keryc
OpenAI presenta IndQA, un nuevo benchmark pensado para medir cuánto entienden los modelos de IA sobre preguntas que realmente importan en India: cultura, historia, comida y vida cotidiana, escritas en idiomas nativos. ¿Por qué importa esto? Porque la mayoría de la gente en el mundo no tiene al inglés como lengua principal y las pruebas actuales no capturan esos matices.
Qué es IndQA y por qué surge
IndQA es un conjunto de 2,278 preguntas creadas en 12 idiomas indios y organizadas en 10 dominios culturales. El objetivo no es evaluar si un modelo traduce bien una frase, sino si razona y entiende contexto cultural: ¿puede explicar una referencia histórica local, diferenciar variantes culinarias regionales o responder sobre prácticas religiosas con sensibilidad?
India es un punto lógico para empezar: cerca de mil millones de personas no usan el inglés como lengua primaria, hay 22 idiomas oficiales y varios con decenas de millones de hablantes. Además, ChatGPT tiene una base de usuarios muy grande en ese país, así que mejorar aquí tiene impacto real.
Cómo se construyó IndQA
261 expertos nativos de India participaron: periodistas, lingüistas, historiadores, artistas, curadores y más. Cada pregunta fue escrita por especialistas en su área.
Las preguntas cubren dominios como Arquitectura y Diseño, Artes y Cultura, Vida Cotidiana, Comida, Historia, Derecho y Ética, Literatura y Lingüística, Medios y Entretenimiento, Religión y Deportes.
Idiomas incluidos: Bengali, English, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi y Tamil. Se añadió Hinglish expresamente por la frecuencia del code-switching.
Cada ítem tiene: el enunciado en la lengua nativa, una traducción al inglés para auditoría, criterios de calificación y una respuesta ideal esperada por los expertos.
Importante: las preguntas no son simples opciones múltiples. Son tareas con criterio de evaluación, como una rúbrica de ensayo, para capturar matices y razonamiento.
Metodología de evaluación
La calificación usa criterios detallados escritos por los expertos. Cada criterio tiene un valor ponderado y un modelo evaluador verifica si la respuesta cumple el criterio. El resultado final es la suma de puntos obtenidos sobre el total posible.
Pasos clave:
Preguntas creadas por expertos nativos con revisión por pares.
Filtrado adversarial: se probaron las preguntas contra los modelos más fuertes de OpenAI en el momento (por ejemplo GPT-4o, OpenAI o3, GPT-4.5 y parcialmente GPT-5). Solo se mantuvieron las preguntas que la mayoría de esos modelos no respondía satisfactoriamente. Eso preserva espacio para medir progreso futuro.
Rúbricas y respuestas ideales acompañan cada pregunta para mayor transparencia.
Qué muestra IndQA sobre el rendimiento de los modelos
Con IndQA, OpenAI observa mejoras importantes en sus modelos sobre lenguas indias en los últimos años, pero también admite que queda bastante por hacer. Además, hay una advertencia clave: como las preguntas se seleccionaron porque los mejores modelos fallaban en ellas, la selección es adversarial y puede sesgar comparaciones entre modelos de diferentes equipos.
Por eso IndQA no debe tomarse como una tabla de clasificación directa entre idiomas. Su propósito principal es medir la mejora dentro de una familia de modelos o configuraciones a lo largo del tiempo, y revelar dónde persisten las brechas culturales y lingüísticas.
Ejemplos humanos detrás del benchmark
Los 261 autores incluyen perfiles diversos: un actor y guionista telugu galardonado, periodistas marathi, un lexicógrafo de kannada, un gran maestro de ajedrez internacional, escritores y poetas tamil, compositores punjabi, curadores gujarati, poetas malayalam y profesores de historia y arquitectura especializados en patrimonio regional.
Ese abanico garantiza que las preguntas toquen asuntos reales y locales: desde variantes de un plato regional hasta interpretaciones de una inscripción o el significado de una tradición arquitectónica.
¿Y ahora qué? Impacto y futuro
IndQA abre una vía práctica para que la comunidad investigadora y los desarrolladores creen benchmarks similares en otros países y lenguas. Preguntas con contexto cultural profundo ayudan a que los modelos no solo traduzcan, sino que comprendan y respondan con relevancia local.
Si trabajas en IA, lengua o cultura, esto es una invitación: crear evaluaciones con expertos locales puede ser la mejor manera de detectar fallas reales y fijar metas claras de mejora. Si usas modelos en mercados multilingües, IndQA te ofrece una referencia sobre por dónde empezar a medir calidad.
Es una buena noticia que los equipos de IA empiecen a mirar más allá del inglés. Falta camino por recorrer, pero benchmarks como IndQA convierten problemas difusos en objetivos concretos y medibles.