Google publica marco cognitivo para medir progreso hacia AGI | Keryc
Google DeepMind publicó el 17 de marzo de 2026 un nuevo marco para evaluar el avance hacia la Inteligencia Artificial General (AGI). La propuesta conecta la investigación en ciencias cognitivas con pruebas prácticas y convoca a la comunidad a construir evaluaciones reales a través de un hackathon en Kaggle.
Qué propone el marco y por qué importa
La idea es simple y potente: si queremos saber cuán cerca están los sistemas de AI de una inteligencia general, necesitamos medir capacidades cognitivas concretas, igual que haríamos con humanos. Google DeepMind propone una taxonomía de 10 habilidades cognitivas que, en conjunto, describen lo que entendemos por inteligencia general.
Estas 10 habilidades son:
Percepción: extraer y procesar información sensorial del entorno.
Generación: producir texto, voz o acciones coherentes y útiles.
Atención: concentrarse en lo que importa y filtrar lo irrelevante.
Aprendizaje: adquirir nuevo conocimiento por experiencia o instrucción.
Memoria: almacenar y recuperar información con el tiempo.
Razonamiento: inferir conclusiones válidas y estructuradas.
Metacognición: monitorear y conocer tus propios procesos mentales.
Funciones ejecutivas: planificar, inhibir impulsos y cambiar de estrategia.
Resolución de problemas: encontrar soluciones efectivas en dominios concretos.
Cognición social: entender e interactuar apropiadamente en contextos sociales.
¿Por qué esta lista conviene? Porque transforma un concepto abstracto como AGI en piezas medibles y comparables. Así puedes saber no solo si un modelo “se parece” a la inteligencia humana, sino en qué aspectos es fuerte o débil.
Cómo proponen medirlo
El marco va más allá de la teoría y propone un protocolo de evaluación en tres etapas:
Evaluar sistemas en un conjunto amplio de tareas cognitivas, usando conjuntos de prueba retenidos para evitar contaminación de datos.
Recolectar referencias humanas en esas mismas tareas con muestras demográficamente representativas de adultos.
Mapear el desempeño de cada sistema respecto a la distribución de desempeño humano en cada habilidad.
La comparación con humanos no busca antropomorfizar sin sentido, sino situar a los modelos en un referente práctico: ¿se desempeñan mejor que el promedio? ¿se acercan al percentil 90? ¿fallan sistemáticamente en la metacognición?
Este enfoque resuelve dos problemas comunes: evita métricas aisladas que no cuentan la historia completa y crea una base empírica para comparar modelos a lo largo del tiempo.
Del marco a la práctica: el hackathon en Kaggle
Reconocer las capacidades es clave, pero diseñar pruebas robustas es trabajo de mucha gente. Por eso Google lanza un hackathon en Kaggle llamado "Measuring progress toward AGI: Cognitive abilities".
Puntos clave del hackathon:
Se buscan evaluaciones para cinco habilidades con mayor brecha: aprendizaje, metacognición, atención, funciones ejecutivas y cognición social.
La plataforma Community Benchmarks de Kaggle permitirá construir y validar esas evaluaciones contra modelos de punta.
Premios: $10,000 para los dos mejores en cada una de las cinco pistas, y cuatro premios mayores de $25,000 para las mejores propuestas globales. Total: $200,000.
Plazos: envíos abiertos del 17 de marzo al 16 de abril; resultados el 1 de junio.
Si alguna vez has diseñado un test, evaluado usuarios o creado datasets, esto es una invitación directa: aportas casos de uso reales y ayudas a que la comunidad tenga herramientas públicas y comparables.
¿Qué significa esto para investigadores, empresas y usuarios?
Para investigadores: ofrece una hoja de ruta para priorizar evaluaciones donde los modelos aún no rinden bien.
Para empresas: aporta métricas más ricas para evaluar riesgos y capacidades antes de desplegar productos.
Para usuarios y reguladores: facilita entender qué hacen los modelos y dónde pueden fallar, especialmente en áreas sensibles como la cognición social o la metacognición.
Piensa en ejemplos cotidianos: un modelo que genera texto convincente puede fallar en autocorrección (metacognición) o en planificar pasos complejos (funciones ejecutivas). Estas fallas pasan desapercibidas sin pruebas diseñadas para buscarlas.
Preguntas que quedan abiertas
¿Cómo definimos estándares de referencia humanos que sean justos y globales? ¿Qué tan independientes deben ser las tareas para evitar que un modelo las resuelva por correlación de datos? ¿Podrán estas evaluaciones mantenerse relevantes frente a modelos que aprenden continuamente?
Ninguna evaluación termina la discusión, pero esta propuesta marca un rumbo claro: medir para entender y mejorar. Y lo hace invitando a la comunidad a construir las herramientas necesarias.