Evaluación de IA se vuelve nuevo cuello de botella de cómputo

La evaluación de modelos ya no es el trámite barato que muchos creíamos. Evaluar agentes complejos, modelos científicos o protocolos de entrenamiento en bucle puede costar tanto o más que entrenar un modelo: eso cambia quién puede auditar, reproducir y validar resultados.

¿Qué está pasando?

¿Te imaginas pagar 40,000 dólares solo para correr una batería de agentes? Eso es exactamente lo que reporta el Holistic Agent Leaderboard (HAL): unos 21,730 rollouts que sumaron alrededor de $40,000, y que siguieron creciendo. Una sola corrida en GAIA puede costar $2,829 antes de caching. En otros estudios un sweep puede costar $22,000 y mostrar diferencias de 33× en costo para tareas aparentemente idénticas.

¿Por qué sube tanto el precio? Porque ahora no solo evaluamos modelo sino modelo × scaffold × presupuesto de tokens, y pequeñas decisiones (cómo se llama al navegador, si cacheas o no, cuántos pasos agenticos) multiplican el gasto. Además, algunos benchmarks ya implican entrenamiento dentro del loop: The Well necesita cientos a miles de horas H100 solo para evaluar arquitecturas y barridos de hiperparámetros.

¿Qué está pasando?

De los benchmarks estáticos a los agentes y al training-in-the-loop

Números que duelen (ejemplos relevantes)

Fiabilidad: el multiplicador oculto

Implicaciones para la comunidad y la gobernanza

¿Qué puede hacer la práctica investigadora ahora? (recomendaciones técnicas y operativas)

Técnicamente, ¿qué aún falta? (líneas de investigación útiles)

Conclusión

Fuente original

¡Mantente al día!

Evaluación de IA se vuelve nuevo cuello de botella de cómputo