Netomi: cómo escalar agentes IA confiables

8 ene 20264 minutos

Netomi presenta un plan concreto para llevar agentes IA a producción dentro de empresas grandes, usando GPT-4.1 para respuestas rápidas y GPT-5.2 para planificación profunda. Lo interesante no es solo que los modelos razonen, sino que Netomi los pone dentro de una capa de ejecución gobernada que mantiene las acciones predecibles en condiciones reales.

Qué hizo Netomi y por qué importa

La apuesta de Netomi no es exótica: combinar modelos con ingeniería de sistemas para resolver flujos de trabajo reales que cruzan múltiples sistemas. En la práctica, una sola petición empresarial puede tocar motores de reservas, bases de lealtad, CRM, pagos y reglas de política. Los datos están incompletos o cambian rápido; los sistemas frágiles se rompen.

Para eso diseñaron su Agentic OS: un pipeline de orquestación donde GPT-4.1 provee baja latencia y llamadas a herramientas confiables, y GPT-5.2 interviene cuando se necesita planificación multi paso y razonamiento más profundo. Así los modelos no solo responden, sino que ejecutan y coordinan tareas complejas.

'Nuestro objetivo fue orquestar los muchos sistemas que un agente humano normalmente manejaría y hacerlo de forma segura a la velocidad de la máquina', dijo la empresa en sus notas técnicas.

Patrones prácticos que usan para mantener los agentes confiables

Netomi sigue una batería de patrones para que los agentes se comporten de forma consistente en tareas largas y fragmentadas:

Persistencia de contexto: recordatorios que ayudan a GPT-5.2 a mantener razonamiento a lo largo de pasos largos.
Expectativas explícitas de uso de herramientas: dirigir a GPT-4.1 a llamar herramientas autoritativas para evitar respuestas inventadas durante operaciones transaccionales.
Planificación estructurada: dejar que GPT-5.2 bosqueje y ejecute tareas multi paso en secuencia controlada.
Decisiones multimodales guiadas por el agente: usar GPT-5.2 para indicar cuándo devolver imágenes, videos, formularios u otros elementos ricos.

Estos patrones permiten mapear solicitudes no estructuradas a flujos de trabajo multi paso y mantener el estado entre interacciones discontinuas.

Lecciones de latencia y concurrencia: por qué importa la velocidad

Pregunta directa: ¿confías en un sistema que duda justo cuando más lo necesitas? En casos como reembolsos en tormentas o picos de tráfico durante eventos deportivos, la latencia define la confianza.

Netomi rompe el flujo tradicional secuencial (clasificar -> recuperar -> validar -> llamar herramientas -> generar). En su lugar, diseñan para concurrencia, aprovechando el streaming de baja latencia y la estabilidad de llamadas a herramientas de GPT-4.1.

Ejemplos concretos:

DraftKings somete la plataforma a picos que superan 40,000 solicitudes concurrentes por segundo.
Bajo esas condiciones, Netomi reporta respuestas por debajo de tres segundos y 98% de precisión en clasificación de intención.

La idea es que no basta con un buen modelo; la arquitectura completa debe mantenerse dentro de umbrales críticos de latencia.

Gobernanza integrada: seguridad y cumplimiento en tiempo real

Una lección clave: la gobernanza no puede ser un añadido. Debe estar dentro del runtime para que el agente sepa retroceder cuando haya incertidumbre.

Cuando la confianza de intención cae por debajo del umbral, el sistema deja la generación libre y activa rutas controladas.

Técnicamente, la capa de gobernanza maneja:

Schema validation: validar cada llamada a herramienta contra contratos OpenAPI antes de ejecutar.
Policy enforcement: filtros de temas, restricciones de marca y controles de cumplimiento aplicados durante el razonamiento.
PII protection: detectar y enmascarar datos sensibles en preprocesamiento y en las respuestas.
Deterministic fallback: volver a comportamientos seguros cuando la intención o los datos son ambiguos.
Runtime observability: exponer trazas de tokens, pasos de razonamiento y logs de la cadena de herramientas para inspección en tiempo real.

En dominios regulados como seguros dentales, esto no es opcional. Un cliente procesa cerca de dos millones de consultas de proveedores al año y en épocas de apertura de inscripciones necesitó exactamente este tipo de control.

Qué puedes llevarte si construyes agentes hoy

Tres principios prácticos que Netomi deja claros:

Diseña para la complejidad: los flujos empresariales cruzan muchos sistemas, así que planifica para datos incompletos y decisiones en capas.
Paraleliza para la latencia: evita pipelines estrictamente secuenciales y usa modelos de baja latencia para las partes críticas en tiempo real.
Integra la gobernanza en el runtime: que el sistema sepa cuándo retroceder y cómo auditar cada paso.

Los modelos de OpenAI forman la columna vertebral del razonamiento, pero son la ingeniería de sistemas y las reglas de operación las que los hacen seguros y auditable en entornos Fortune 500.

Netomi ofrece un blueprint valioso: no es solo tener IA que razone, sino construir la infraestructura que la haga confiable en el mundo real. Si estás pensando en llevar agentes agentivos a producción, empieza por estas tres prioridades y evita la trampa de confiar solo en buenos prompts.

Fuente original

https://openai.com/index/netomi

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.