Gemini API: Flex y Priority para costo y fiabilidad

Google presentó dos nuevas opciones en la Gemini API pensadas para que puedas elegir mejor entre costo y fiabilidad: Flex y Priority. ¿Quieres gastar menos en tareas que no requieren respuesta inmediata, o asegurar que lo crítico no se interrumpa en picos de tráfico? Ahora puedes hacer ambas cosas desde la misma interfaz síncrona.

Qué ofrecen Flex y Priority

Flex y Priority son dos niveles de servicio que se configuran por petición y funcionan con los mismos endpoints que ya conoces. La idea es simple: separar la lógica según la criticidad de la tarea sin romper tu arquitectura.

Flex está pensado para cargas tolerantes a latencia, donde puedes aceptar menos prioridad a cambio de ahorro.
Priority está pensado para tráfico crítico que no puede ser preemptado, con garantías adicionales y manejo de desbordes.

¿Te suena a equilibrio perfecto entre precio y disponibilidad? Eso es justo lo que buscan.

Qué ofrecen Flex y Priority

Flex Inference: ahorrar en tareas en segundo plano

Priority Inference: proteger lo crítico

Cómo integrarlo sin romper tu sistema

Reflexión breve

Fuente original

¡Mantente al día!

Gemini API: Flex y Priority para costo y fiabilidad