OpenAI presenta GDPval
, una evaluación pensada para medir qué tan bien los modelos de IA realizan tareas laborales reales y con valor económico, no solo pruebas académicas. ¿Por qué importa esto ahora? Porque ayuda a cambiar la conversación de "qué podrían hacer" a "qué ya hacen" los modelos en el trabajo cotidiano.
Qué mide GDPval
GDPval
evalúa tareas representativas de trabajo de conocimiento en 44 ocupaciones elegidas entre las industrias que más aportan al Producto Interno Bruto de Estados Unidos. La versión inicial contiene 1,320 tareas especializadas y una subcolección gold abierta con 220 tareas. Cada tarea está construida a partir de entregables reales, como un informe legal, una presentación o un plano de ingeniería, lo que hace la evaluación más parecida al trabajo de verdad que a un examen académico. (openai.com)
Cómo eligieron ocupaciones y construyeron el conjunto
Seleccionaron 9 industrias que aportan más del 5% al PIB de EE. UU. y, dentro de ellas, las 5 ocupaciones con mayor aporte salarial que son predominantemente trabajo de conocimiento. Para cada ocupación trabajaron con profesionales experimentados (en promedio 14 años de carrera) que escribieron y revisaron las tareas mediante varios ciclos de control de calidad. El objetivo fue reflejar entregables reales y asegurar representatividad. (openai.com)
Un ejemplo concreto
Una de las tareas pide a un ingeniero de manufactura diseñar un jig para simplificar una prueba de enrollado de cable en una línea de montaje, generar una presentación y subir un PDF con los resultados. No es solo una pregunta de texto: incluye archivos de referencia y espera un entregable tipo profesional. Esto ayuda a ver cómo la IA se desempeña frente a trabajo que hoy paga sueldos reales. (openai.com)
Cómo califican las respuestas
Las salidas de los modelos se comparan a ciegas con entregables humanos; expertos del mismo rubro evalúan si la salida de la IA es "mejor", "igual" o "peor" que la humana. Además, OpenAI entrenó un calificador automatizado para predecir juicios humanos, disponible como servicio experimental en evals.openai.com, pero aclaran que no reemplaza a los expertos por ahora. (openai.com)
Resultados tempranos que conviene saber
Los resultados iniciales muestran que los modelos frontera ya se acercan a la calidad de expertos en muchas tareas. En una comparación ciega entre modelos como GPT-4o
, o4-mini
, OpenAI o3
, GPT-5
, Claude Opus 4.1
, Gemini 2.5 Pro
y Grok 4
, algunos modelos empataron o superaron entregables humanos en una fracción importante de tareas. Claude Opus 4.1
destacó en estética y formato, mientras que GPT-5
fue fuerte en precisión y conocimiento específico. Además, reportan mejoras cuantificables de rendimiento entre generaciones: el desempeño aumentó de forma marcada entre GPT-4o
y GPT-5
. También observaron que, en términos de inferencia pura y facturación de API, los modelos pueden ser alrededor de 100 veces más rápidos y 100 veces más económicos que un experto humano, aunque eso no incluye la supervisión humana, iteración y la integración necesarias en la práctica laboral. (openai.com)
¿Qué significa esto para el trabajo?
¿La IA va a reemplazar empleos? No es tan simple. GDPval
muestra dónde los modelos son fuertes: tareas repetitivas y bien definidas. Eso abre la posibilidad de que las personas dediquen más tiempo a trabajos creativos y de juicio. Pero también subraya la necesidad de políticas, formación y diseños laborales que ayuden a que los beneficios se distribuyan. OpenAI plantea que la meta debe ser "mantener a todos en el ascensor hacia arriba" mediante acceso democrático a las herramientas y apoyo a los trabajadores en la transición. (openai.com)
Limitaciones y próximos pasos
GDPval es un primer paso: por ahora es una evaluación de tipo "one-shot" y no captura flujos de trabajo interactivos donde la tarea se afina en varias iteraciones o requiere diálogo con colegas o clientes. OpenAI planea ampliar la cobertura de ocupaciones, añadir interactividad y medir tareas más ambiguas y contextuales. También liberaron una subset gold y el servicio de calificación pública para que otros investigadores puedan reproducir y extender el trabajo. (openai.com)
Si quieres leer la fuente original o el paper técnico, OpenAI publicó la nota de producto y el paper con datos y métricas. Ver el anuncio de OpenAI sobre GDPval y leer el paper. (openai.com)
Reflexión final
GDPval
no es la respuesta final sobre cuánto cambiará la fuerza laboral con la IA, pero sí es una herramienta potente para mover la discusión hacia evidencias concretas. ¿Tú cómo imaginas integrar una IA que hace bien tareas repetitivas en tu trabajo? ¿La usarías para ahorrar tiempo en lo rutinario y enfocarte en lo estratégico? Esta evaluación facilita responder a esas preguntas con datos, no solo con suposiciones.