SyGra 2.0 presenta Studio, un entorno interactivo que convierte la generación de datos sintéticos en una labor visual y transparente. ¿Cansado de editar YAML y saltar entre terminales? Ahora puedes componer flujos en un lienzo, previsualizar conjuntos antes de ejecutarlos, ajustar prompts con pistas de variables en línea y ver la ejecución en vivo desde una sola ventana.
Qué es SyGra Studio
SyGra Studio es la capa visual sobre la misma plataforma SyGra de siempre: todo lo que haces en la interfaz genera automáticamente la configuración compatible (graph config) y los scripts de ejecución. Eso significa que no pierdes control ni reproducibilidad: lo que dibujas en el canvas se traduce a artefactos concretos que puedes versionar y ejecutar desde la línea de comandos.
Configura y valida modelos con formularios guiados (OpenAI, Azure OpenAI, Ollama, Vertex, Bedrock, vLLM y endpoints personalizados).
Conecta fuentes de datos como Hugging Face, sistema de archivos o ServiceNow y previsualiza filas antes de ejecutar.
Define nodos seleccionando modelos, escribiendo prompts (con autocompletado de variables) y declarando salidas o esquemas estructurados con Pydantic.
Diseña salidas posteriores usando variables de estado compartido y mapeos Pydantic para obtener estructuras limpias y consistentes.
Conectores, variables y flujo de datos
Al elegir un conector (por ejemplo Hugging Face o un archivo local), ingresas parámetros como repo_id, split o file path y haces clic en Preview para obtener filas de muestra. Las columnas se convierten inmediatamente en variables de estado (por ejemplo {prompt}, {genre}), disponibles dentro de cualquier prompt o procesador.
¿El beneficio? No hay cableado manual: Studio sincroniza la configuración y propaga esas variables por todo el flujo, reduciendo errores y acelerando iteraciones.
Diseño visual y artefactos reproducibles
Arrastras bloques desde la paleta y los conectas. Para un pipeline de generación de historias:
Añade un nodo LLM llamado Story Generator, elige un modelo configurado (por ejemplo gpt-4o-mini), escribe el prompt y guarda el resultado en story_body.
Añade otro nodo LLM Story Summarizer, referencia {story_body} en el prompt y output a story_summary.
Activa salidas estructuradas, adjunta herramientas o agrega nodos Lambda/Subgraph para lógica reutilizable o branching.
El panel de detalle mantiene contexto: parámetros del modelo, editor de prompt, configuración de herramientas, código pre/post-proceso y opciones multi-LLM. Si escribes { dentro del editor de prompts, Studio muestra instantáneamente las variables disponibles.
Abre el Code Panel y verás exactamente el YAML/JSON que Studio genera. Ese mismo artefacto se guarda en tasks/examples/, así lo que visualizas es lo que se va a ejecutar.
Ejecución, observabilidad y debugging
Cuando estás listo, haces Run Workflow. El modal de ejecución permite ajustar conteos de registros, batch sizes, comportamiento de retry y más. Al iniciar, el panel de Execution transmite el estado de cada nodo, uso de tokens, latencia y costo en tiempo real.
Para depurar tienes:
Logs inline y breakpoints.
Editores basados en Monaco con autoguardado de borradores.
Historial de ejecuciones escrito en .executions/runs/*.json para trazabilidad.
Además puedes monitorear métricas por ejecución: tokens consumidos, latencia por nodo y resultados de guardrails. Al terminar, descargas salidas, comparas ejecuciones previas y extraes metadata para análisis.
Caso práctico: flujo de revisión iterativa
Un ejemplo concreto es el workflow tasks/examples/glaive_code_assistant/. Ahí SyGra ingiere el dataset glaiveai/glaive-code-assistant-v2, genera respuestas, las critica y repite hasta que la crítica devuelve "NO MORE FEEDBACK". En Studio verás dos nodos principales (generate_answer y critique_answer) conectados por una arista condicional que decide si volver a iterar o salir al END.
En el panel de ejecución observarás ambos nodos activarse en secuencia, inspeccionarás la crítica intermedia y ajustarás parámetros (split, batch size, temperatura) sin tocar el YAML.
Un ejemplo de configuración: tasks/examples/glaive_code_assistant/graph_config.yaml
Por qué importa (y para quién)
Si trabajas en creación de datasets sintéticos, evaluación o pipelines de anotación, Studio reduce la fricción entre idea y resultado. ¿Eres investigador, ingeniero de datos o productor de ML? Vas a agradecer la observabilidad y la trazabilidad. ¿Eres curioso o product manager? Podrás prototipar flujos sin perder control técnico.
Studio no promete eliminar YAML, sino convertirlo en un producto: diseñar una vez, ejecutar con confianza y ver exactamente qué se produjo en cada corrida.