Evaluación de IA se vuelve nuevo cuello de botella de cómputo | Keryc
La evaluación de modelos ya no es el trámite barato que muchos creíamos. Evaluar agentes complejos, modelos científicos o protocolos de entrenamiento en bucle puede costar tanto o más que entrenar un modelo: eso cambia quién puede auditar, reproducir y validar resultados.
¿Qué está pasando?
¿Te imaginas pagar 40,000 dólares solo para correr una batería de agentes? Eso es exactamente lo que reporta el Holistic Agent Leaderboard (HAL): unos 21,730 rollouts que sumaron alrededor de $40,000, y que siguieron creciendo. Una sola corrida en GAIA puede costar $2,829 antes de caching. En otros estudios un sweep puede costar $22,000 y mostrar diferencias de 33× en costo para tareas aparentemente idénticas.
¿Por qué sube tanto el precio? Porque ahora no solo evaluamos modelo sino modelo × scaffold × presupuesto de tokens, y pequeñas decisiones (cómo se llama al navegador, si cacheas o no, cuántos pasos agenticos) multiplican el gasto. Además, algunos benchmarks ya implican entrenamiento dentro del loop: The Well necesita cientos a miles de horas H100 solo para evaluar arquitecturas y barridos de hiperparámetros.
De los benchmarks estáticos a los agentes y al training-in-the-loop
Antes, las técnicas de compresión funcionaban bien: HELM era caro, pero estudios posteriores mostraron que se podía reducir 100× a 200× para mantener el orden relativo. Métodos como Flash-HELM, Item Response Theory, tinyBenchmarks y Anchor Points demostraron que bastan unos pocos ejemplos ancla para preservar rankings.
Con agentes eso se rompe. Los rollouts son multi-turn, ruidosos y sensibles al scaffold. Mid-difficulty filtering puede ahorrar 2×–3.5× manteniendo fidelidad, pero muy lejos del 100× de los estáticos. Y cuando el benchmark exige entrenar modelos (The Well, PaperBench, MLE-Bench), la compresión general casi no existe: cada evaluación puede necesitar decenas o cientos de entrenamientos completos.
Números que duelen (ejemplos relevantes)
HAL: ~$40,000 por ~21,730 rollouts (9 modelos × 9 benchmarks). Con k = 8 reruns por celda, el costo salta a ~$320,000.
GAIA: una corrida en un modelo frontier puede costar ~$2,829.
The Well: 960 H100-h para una nueva arquitectura ($2,400 con conversiones conservadoras); el sweep completo: 3,840 H100-h ($9,600).
PaperBench: un run completo ronda los $9,500; variantes sin ejecución bajan a ~$4,200.
MLE-Bench: un seed puede costar ~$5,500; barridos multiseed y multmodelo suben a seis cifras.
Y hay disparidades enormes en precios por token entre LLMs comerciales: tarifas de entrada/salida pueden variar dos órdenes de magnitud, así que el mismo experimento puede costar 10× o 100× según el proveedor y configuración.
Fiabilidad: el multiplicador oculto
¿Te fías de un solo run? No deberías. La consistencia importa y cuesta. Experimentos muestran caídas severas cuando pasas de 1 a 8 repeticiones (por ejemplo, 60% a 25% en algunos casos). Añadir semillas, reruns o protocolos de holdout multiplica el presupuesto: lo que parecía alcanzable con $40k se convierte en $320k para una evaluación estadísticamente creíble.
La consecuencia práctica es clara: muchos grupos quedan fuera de poder auditar agentes frontier con rigor estadístico.
Implicaciones para la comunidad y la gobernanza
Acceso y responsabilidad: la barrera económica concentra la capacidad de evaluar en laboratorios con presupuesto, reduciendo validación externa e independientes.
Leaderboards que ignoran costo incentivan malgastar tokens: si solo miras accuracy, ¿por qué no gastar más hasta que suba un punto? Las fronteras de Pareto (accuracy vs costo) arreglan eso pero no son la norma.
Repetición de trabajo: la comunidad paga muchas veces el mismo baseline porque los outputs no se comparten granularmente (trazas, logs, seeds, scaffold).
¿Qué puede hacer la práctica investigadora ahora? (recomendaciones técnicas y operativas)
Publicar trazas y artefactos: exportar logs de rollouts, tool-call traces y grading traces en un esquema compartido para que otros reutilicen resultados.
Usar estrategias coarse-to-fine: correr evaluaciones baratas primero (Flash-HELM style) y reservar cómputo alto para los candidatos top.
Adoptar leaderboards Pareto-efficientes: reportar accuracy junto con costo y token-budget por celda.
Filtrado mid-difficulty y anchor items para reducir ítems sin perder orden relativo cuando sea posible.
Cache y memoización: evitar pagar I/O y tokens repetidos con caching a nivel de prompt/respuesta y de pasos intermedios.
Tabular precomputation donde es posible (ejemplo histórico: NAS-Bench-101), para que la operación repetida sea barata.
Límites de presupuesto y protocolos multi-seed estandarizados: definir k mínimo para fiabilidad y reportar intervalos de confianza.
Formatos estandarizados para resultados: facilitar 2× de reuse puede ahorrar más que muchas técnicas de compresión combinadas.
Técnicamente, ¿qué aún falta? (líneas de investigación útiles)
Métodos de compresión que sobrevivan al ruido secuencial y la sensibilidad al scaffold en agentes.
Protocolos de evaluación que integren costo como primer-class metric (por ejemplo, accuracy@cost o curvas de eficiencia computacional).
Herramientas para compartir y verificar trazas en forma eficiente y privada (p. ej. almacenamiento de artefactos con hashes y firmas).
Estudios de inferencia-scaling: cuándo gastar más tokens realmente mejora la solución y cuándo solo subes la factura.
La investigación técnica puede ayudar, pero muchas soluciones exigirá cambios de prácticas: publicar más, medir costo y construir infra para compartir resultados.
Conclusión
La evaluación dejó de ser el socio barato del desarrollo y se ha convertido en un factor que determina quién puede validar IA poderosa. ¿Queremos que solo quienes construyen modelos también sean los únicos que los evalúan? Si la respuesta es no, la comunidad debe cambiar prácticas: medir y reportar costo, compartir trazas y adoptar protocolos reproducibles y coste-conscientes.