Google anuncia nuevas herramientas en AI Studio para explorar, depurar y compartir logs. Si construyes aplicaciones con modelos Gemini o usas la GenerateContent API, ahora puedes activar un registro centralizado sin tocar tu código y convertir interacciones reales en datasets reutilizables para evaluación.
Qué trae la nueva herramienta
La funcionalidad principal es simple y potente: con un clic en Enable logging desde el panel de AI Studio, todas las llamadas soportadas a la GenerateContent API de ese proyecto con facturación activada quedan visibles en el dashboard. No piden cambios en tu código y registra tanto respuestas exitosas como errores.
Puedes obtener logging sin costo monetario en todas las regiones donde la API Gemini está disponible.
Los logs incluyen atributos clave: códigos de respuesta, entradas (prompts), salidas (responses) y uso de herramientas de la API. Eso te permite filtrar por estado, profundizar en interacciones específicas y trazar una queja de usuario hasta la llamada exacta al modelo.
Observabilidad y debugging (técnico)
La mejora en observabilidad toca puntos críticos para quienes construyen sistemas de IA:
- Respuesta rápida a fallos: filtra por códigos de estado para agrupar errores de red, límites de cuota o fallos de modelo.
- Trazabilidad de inputs/outputs: inspecciona el prompt, metadatos y la respuesta para reproducir el problema localmente.
- Uso de herramientas: identifica cuándo y cómo el modelo recurrió a herramientas externas o a pasos intermedios.
Esto reduce el ciclo de depuración: en vez de adivinar qué fue mal, localizas la interacción problemática y la reproduces en un entorno controlado.
Datasets exportables y evaluación reproducible
Los logs se pueden exportar como datasets en CSV o JSONL. ¿Para qué sirve eso en la práctica?
- Crear baselines reproducibles: selecciona ejemplos donde la calidad bajó y monta un conjunto de pruebas que defina el comportamiento esperado.
- Refinamiento de prompts: usa ejemplos reales que fallaron para ajustar plantillas, instrucciones de sistema o estrategias de few-shot.
- Evaluación por lotes: con la Gemini Batch APIpuedes correr evaluaciones a gran escala contra los datasets acumulados y comparar versiones del modelo o cambios en la lógica de la aplicación.
Ejemplo concreto: si tu asistente de comercio electrónico comienza a confundir devoluciones y reembolsos, exportas interacciones etiquetadas como problemáticas, corriges el prompt y ejecutas una evaluación por lotes para confirmar la mejora antes de desplegar.
Compartir datasets con Google y consideraciones de privacidad
Tienes la opción de compartir datasets concretos con Google para enviar feedback sobre el comportamiento end to end de los modelos. Google usará esos datos para mejorar productos y modelos.
Antes de compartir, considera estas buenas prácticas:
- Anonimiza información sensible y elimina PII.
- Aplica muestreo y revisa el contenido para evitar exponer datos legales o médicos sin permisos.
- Revisa políticas de tu organización y el contrato de servicio: compartir datos es una decisión que debe alinearse con cumplimiento y privacidad.
También recuerda confirmar si hay implicaciones de costo por almacenamiento o transferencia al exportar datasets fuera del dashboard.
Pasos rápidos para comenzar (checklist)
- Entra a Google AI Studio en el proyecto con facturación activa.
- Haz clic en Enable loggingpara comenzar a capturar llamadasGenerateContent API.
- Explora el dashboard: filtra por códigos de respuesta, inputs, outputs y uso de herramientas.
- Exporta logs seleccionados como CSVoJSONLy crea un dataset de evaluación.
- Corre evaluaciones con Gemini Batch APIo usa los datos para refinar prompts y pruebas automatizadas.
- Si decides compartir, anonimiza y valida los datos antes de enviarlos a Google.
Recomendaciones prácticas para equipos técnicos
- Integra un proceso regular de extracción de ejemplos problemáticos: semanalmente exporta los casos más relevantes y añádelos a tu pipeline de pruebas.
- Mantén un registro de versiones: asocia cada dataset exportado a la versión del modelo y del prompt utilizados para facilitar comparaciones.
- Automatiza alertas basadas en patrones de logs (ejemplo: subida de cierto código de error) para detectar regresiones en producción.
Google AI Studio está dando infraestructura para que el ciclo de observabilidad y mejora sea más directo: desde capturar la interacción real hasta validar cambios con evaluaciones por lotes.
¿Listo para aprovechar logs reales y convertirlos en mejoras medibles? Empieza por prototipar en Build mode y sigue monitoreando durante todo el ciclo de vida de tu aplicación.
Fuente original
https://blog.google/technology/developers/google-ai-studio-logs-datasets
