Interactions API: Google unifica modelos y agentes | Keryc
Hoy Google presenta la Interactions API, una interfaz unificada pensada para trabajar con modelos como Gemini 3 Pro y agentes gestionados como Gemini Deep Research. ¿La idea principal? Darte una forma nativa y robusta de gestionar historiales complejos, pensamientos internos del modelo, llamadas a herramientas y estados, todo desde un solo endpoint.
Qué es la Interactions API
Es un endpoint RESTful único (/interactions) que permite interactuar tanto con modelos como con agentes. Para elegir el destino usas parámetros simples: especificas "model" cuando quieres llamar a un modelo, o "agent" cuando quieres invocar un agente especializado. Actualmente la beta pública soporta deep-research-pro-preview-12-2025.
Esta API extiende lo que hacía generateContent añadiendo capacidades clave para aplicaciones agenticas modernas, como manejo de estado, modelos de datos interpretables y ejecución en background.
Capabilidades técnicas clave
Optional server-side state: puedes offloadear la gestión de historial al servidor. Esto simplifica mucho el código cliente, reduce errores de context management y puede bajar costos porque aumenta la probabilidad de hits en caché.
Interpretable and composable data model: la API expone un esquema limpio para historias complejas. Eso significa que mensajes, pensamientos, llamadas a herramientas y resultados quedan representados de forma que puedes debuggear, manipular, streamear y razonar sobre ellos de forma programática.
Background execution: permite delegar bucles de inferencia de larga duración al servidor sin mantener una conexión activa desde el cliente. Muy útil para tareas que tardan minutos u horas, como búsquedas profundas o síntesis de grandes volúmenes.
Remote MCP tool support: los modelos pueden llamar directamente a servidores que implementan el Model Context Protocol (MCP) como si fueran herramientas, abriendo caminos para integrar datos externos y pipelines especializados.
Por qué una nueva API en lugar de extender generateContent
Cuando diseñaron generateContent, el caso de uso principal era generación estateless request-response. Eso funciona para chats y completions. Pero los modelos evolucionan: ahora piensan, usan herramientas complejas y requieren manejo de estado intercalado. Tratar de meter todas esas capacidades en generateContent habría generado una API frágil y difícil de mantener.
Interactions API nace para soportar patrones de interacción agentica de forma nativa. Aun así, generateContent sigue siendo la ruta recomendada para cargas estándar en producción; Interactions está en beta pública y puede sufrir cambios incompatibles.
Cómo empezar y ecosistema
Puedes probar la beta pública hoy con tu clave Gemini desde Google AI Studio siguiendo la documentación y la especificación OpenAPI. Además, como primer paso de integración con la comunidad, el Agent Development Kit (ADK) y el protocolo Agent2Agent (A2A) ya soportan Interactions API. Google anuncia soporte más amplio en los próximos meses y planea llevar estas capacidades a Vertex AI.
Casos de uso y recomendaciones técnicas
Investigación de largo horizonte: agents como Gemini Deep Research pueden ejecutar pipelines de búsqueda, extraer evidencia y sintetizar reportes extensos. La ejecución en segundo plano es clave aquí.
Orquestación de herramientas: si necesitas que un modelo coordine APIs, bases de datos y servicios MCP, la representación composable facilita auditar y retomar flujos.
Reducción de complejidad cliente: delega la gestión de estado al servidor para minimizar bugs en clientes móviles o microservicios ligeros.
Recomendaciones prácticas: define tu modelo de estado desde el diseño (qué se guarda y por cuánto), aprovecha el esquema interpretable para instrumentar logs y pruebas, y prueba la ejecución background para workflows largos antes de moverlos a producción.
Limitaciones y advertencias
Beta pública significa riesgo de cambios incompatibles. No asumas estabilidad de contrato para integraciones críticas sin un plan de migración.
Para workloads habituales y estables, generateContent sigue siendo la opción madura. Usa Interactions cuando realmente necesites capacidades agenticas: pensamiento interleaved, tool calls complejos, ejecución prolongada o composición de agentes.
Reflexión final
Google está moviendo la conversación de "modelos como cajas negras" a "modelos y agentes como sistemas". Interactions API no solo unifica el acceso: propone un modelo de trabajo más estructurado para llevar agentes a producción con menos fragilidad. ¿El próximo paso? Que estas capacidades se integren de forma nativa en plataformas como Vertex AI y en el ecosistema abierto, facilitando que tú puedas construir agentes robustos sin reinventar la gestión del contexto.