OpenAI lanza GDPval: mide IA en tareas laborales reales

OpenAI presenta GDPval, una evaluación pensada para medir qué tan bien los modelos de IA realizan tareas laborales reales y con valor económico, no solo pruebas académicas. ¿Por qué importa esto ahora? Porque ayuda a cambiar la conversación de "qué podrían hacer" a "qué ya hacen" los modelos en el trabajo cotidiano.

Qué mide GDPval

GDPval evalúa tareas representativas de trabajo de conocimiento en 44 ocupaciones elegidas entre las industrias que más aportan al Producto Interno Bruto de Estados Unidos. La versión inicial contiene 1,320 tareas especializadas y una subcolección gold abierta con 220 tareas. Cada tarea está construida a partir de entregables reales, como un informe legal, una presentación o un plano de ingeniería, lo que hace la evaluación más parecida al trabajo de verdad que a un examen académico. (openai.com)

Qué mide GDPval

Cómo eligieron ocupaciones y construyeron el conjunto

Qué mide GDPval

Cómo eligieron ocupaciones y construyeron el conjunto

Un ejemplo concreto

Cómo califican las respuestas

Resultados tempranos que conviene saber

¿Qué significa esto para el trabajo?

Limitaciones y próximos pasos

Reflexión final

¡Mantente al día!

OpenAI lanza GDPval: mide IA en tareas laborales reales