OpenAI publicó un análisis nuevo el 5 de septiembre de 2025 que intenta responder una pregunta que te habrá molestado: ¿por qué los asistentes como ChatGPT a veces inventan hechos con mucha seguridad? En ese texto el equipo dice que no es solo un bug técnico, sino en buena parte un problema de incentivos en cómo entrenamos y evaluamos estos modelos. (openai.com)
¿Qué es una "alucinación" en IA y por qué debería importarte?
Una alucinación es cuando un modelo de lenguaje genera una afirmación plausible pero falsa. ¿Te suena familiar? Puede ser una fecha, un título de trabajo, un enlace que no existe o un procedimiento médico inventado. Para usuarios normales y para negocios esto no es solo molesto: puede causar errores reales y daño si no se detecta. (openai.com)
"Los modelos generan respuestas confiadamente incluso cuando no tienen la evidencia para sostenerlas."
Esta idea está en el centro del análisis de OpenAI: los modelos suelen preferir dar una respuesta antes que decir "no lo sé". (openai.com)
¿Por qué alucinan? Dos causas fáciles de entender
-
Incentivos de evaluación. Si los benchmarks solo puntúan la respuesta correcta, el modelo aprende que es mejor arriesgarse a adivinar que abstenerse. En un examen real, si no respondes obtienes cero; si respondes igual puedes acertar por suerte. OpenAI explica que ese sesgo hacia "adivinar" fomenta las alucinaciones. (openai.com)
-
El entrenamiento es predicción de la siguiente palabra. En la etapa de preentrenamiento los modelos aprenden a predecir
next-word
sobre montones de texto sin etiquetas de verdad/mentira. Eso funciona muy bien para patrones repetitivos como ortografía, pero para hechos raros o de cola larga no hay suficientes señales para aprender la verdad. Ahí la mejor estrategia estadística es completar con lo que suena plausible, no con lo que está verificado. (openai.com)
¿Y los números? ¿están empeorando o mejorando?
OpenAI y reportes independientes encontraron algo preocupante: algunos modelos de razonamiento nuevos (por ejemplo o3
y o4-mini
) muestran mayores tasas de alucinación en ciertas pruebas internas como PersonQA
. TechCrunch reportó que o3
alucinó en alrededor del 33 por ciento de preguntas en PersonQA
y que o4-mini
llegó a cifras aún más altas en algunas pruebas. Investigadores externos también observaron casos donde el modelo afirmó acciones imposibles, como haber ejecutado código fuera de su entorno. (techcrunch.com, pcworld.com)
Informes adicionales recogen diferencias según la prueba: en algunas evals el balance entre abstenciones y aciertos cambia mucho según cómo se mida. Eso confirma la tesis de OpenAI: la forma en que evaluamos altera el comportamiento del modelo. (forbes.com, openai.com)
¿Qué propone OpenAI y qué pueden hacer quienes usan IA hoy?
OpenAI sugiere un cambio claro: recompensar la humildad y castigar más los errores confiados. En la práctica eso implica actualizar benchmarks para dar crédito por abstenerse cuando sea apropiado y penalizar respuestas seguras pero incorrectas. También recomiendan técnicas ya conocidas en la comunidad: recuperación de evidencia en tiempo real (RAG), calibración de confianza y evaluaciones que midan incertidumbre, no solo exactitud. (openai.com, arxiv.org)
Para ti, que usas IA en el trabajo o en proyectos:
- Pide fuentes y verifica: exige que la respuesta incluya evidencia verificable o documentos.
- Usa RAG: alimenta al modelo con documentos confiables y que el propio modelo cite esos textos.
- Diseña abstenciones: configura prompts y reglas para que el modelo diga "no sé" cuando la evidencia sea insuficiente.
- Comprueba configuraciones: bajar
temperature
, usar controles de veracidad y pruebas automatizadas ayuda, pero no lo elimina. (arxiv.org, openai.com)
¿Qué aprendemos al final?
La lección principal es útil y también tranquilizadora: las alucinaciones no son un misterio místico, son el resultado de decisiones de diseño y de cómo medimos el desempeño. Cambiando incentivos, métricas y prácticas de despliegue podemos reducirlas mucho, aunque no esperes una eliminación total sin rediseñar partes esenciales del entrenamiento y la evaluación. OpenAI ya propone caminos y la comunidad de investigación ofrece técnicas prácticas que puedes aplicar hoy mismo. (openai.com, arxiv.org, techcrunch.com)
Si quieres, puedo convertir esto en una lista corta de acciones concretas para tu equipo, o en un prompt que obligue al modelo a mostrar fuentes y a abstenerse cuando no tenga evidencia suficientes.