OpenAI lanza hoy GPT-5.4 mini y GPT-5.4 nano, dos versiones pequeñas de su familia GPT-5.4 pensadas para cuando la velocidad y el costo importan tanto como la calidad. ¿Para qué sirven realmente? Para que asistentes de código, subagentes y aplicaciones multimodales respondan con fluidez sin necesitar siempre el modelo más grande.
Qué traen de nuevo
GPT-5.4 mini mejora a la generación anterior (GPT-5 mini) en varias áreas: razonamiento, manejo de código, comprensión multimodal y uso fiable de herramientas, y además corre más de 2x más rápido en muchas cargas de trabajo. GPT-5.4 nano es la versión más pequeña y económica, ideal cuando lo que prima es la latencia y el bajo costo.
Ambos modelos están diseñados para escenarios donde la latencia moldea la experiencia: asistentes de código que deben sentirse instantáneos, subagentes que completan tareas de apoyo de forma paralela, sistemas que interpretan capturas de pantalla y apps multimodales que razonan sobre imágenes en tiempo real.
Rendimiento en términos claros
No voy a saturar con tablas, pero sí te doy los números que importan para comparar rápidamente:
SWE-Bench Pro (evaluación pública): GPT-5.4 obtiene 57.7%, GPT-5.4 mini 54.4%, GPT-5.4 nano 52.4% y GPT-5 mini 45.7%.
Terminal-Bench 2.0 (coding interactivo): 75.1% para GPT-5.4, 60.0% para mini, 46.3% para nano y 38.2% para GPT-5 mini.
OSWorld-Verified (tareas de uso de computadora y UI): 75.0% GPT-5.4, 72.1% mini, 39.0% nano, 42.0% GPT-5 mini.
GPQA Diamond (preguntas de alta confianza): 93.0% GPT-5.4, 88.0% mini, 82.8% nano, 81.6% GPT-5 mini.
En resumen: GPT-5.4 mini se acerca al modelo grande en varias pruebas clave mientras corre mucho más rápido; nano ofrece un salto importante frente a la generación mini anterior en escenarios de costo y latencia.
Casos de uso prácticos
Asistentes de programación que necesitan iterar rápido: revisiones, generación de fragmentos, navegación de código y bucles de depuración con baja latencia.
Sistemas con subagentes: un modelo grande planifica y juzga, y los mini o nano ejecutan subtareas en paralelo (buscar en repositorios, procesar documentos, extraer datos). ¿Suena útil? Lo es cuando escalas.
Aplicaciones multimodales en tiempo real: interpretar capturas de pantalla densas, completar tareas de uso de computadora y responder sobre imágenes sin demoras.
Tareas de bajo costo y alta frecuencia: clasificación, extracción de datos, ranking y pequeños subagentes de código son perfectos para GPT-5.4 nano.
Disponibilidad y costos
GPT-5.4 mini: disponible en API, Codex y ChatGPT. Soporta texto e imagen, uso de herramientas, function calling, búsqueda web, búsqueda en archivos, computer use y skills. Tiene ventana de contexto de 400k tokens. Precio: $0.75 por 1M input tokens y $4.50 por 1M output tokens.
GPT-5.4 nano: disponible solo en API. Precio: $0.20 por 1M input tokens y $1.25 por 1M output tokens.
En Codex, GPT-5.4 mini consume solo 30% de la cuota de GPT-5.4, lo que permite manejar muchas tareas de codificación por aproximadamente un tercio del costo usando subagentes delegados.
¿Por qué no usar siempre el modelo más grande?
Porque la mejor experiencia no siempre es la del modelo más grande. A veces se trata de respuesta rápida, costo por llamada y confiabilidad en herramientas. Un flujo donde un modelo grande decide y modelos pequeños ejecutan suele ser más eficiente y económico.
¿Un ejemplo real? En una extensión IDE, puedes usar GPT-5.4 para planificar una refactorización compleja y delegar búsquedas y ediciones puntuales a GPT-5.4 mini o nano para que el desarrollador obtenga resultados en fracciones de segundo.
Seguridad y buenas prácticas
OpenAI remite al addendum del System Card en su Deployment Safety Hub para detalles sobre salvaguardas. Es importante revisar esos materiales antes de desplegar modelos en producción, especialmente cuando hay acceso a herramientas, web o acciones automatizadas.
Qué esperar si eres desarrollador o producto
Si trabajas en productos que dependen de baja latencia y alto volumen, prueba primero GPT-5.4 mini y nano para medir costos y tiempos de respuesta.
Si construyes sistemas compuestos, diseña flujos donde la responsabilidad de decisión y la ejecución estén separadas entre modelos grandes y pequeños.
Si el presupuesto es crítico y las tareas son repetitivas o estructuradas, GPT-5.4 nano puede reducir costos sin sacrificar demasiado rendimiento.
GPT-5.4 mini y nano confirman una tendencia clara: la eficacia en producción no se mide solo por precisión máxima, sino por la combinación de velocidad, costo y fiabilidad en el mundo real. ¿Listo para reconfigurar tus pipelines y aprovechar subagentes más ágiles?