Bloom: herramienta open source para evaluar conductas de IA | Keryc
Bloom es una caja de herramientas para investigadores que quieren medir, rápido y a escala, comportamientos problemáticos en modelos de IA de frontera. ¿Por qué importa esto ahora? Porque las evaluaciones manuales son lentas, se quedan obsoletas y pueden incluso contaminar nuevos entrenamientos. Bloom automatiza la generación de escenarios y la puntuación para que puedas cuantificar frecuencia y severidad de una conducta definida por ti.
Qué es Bloom y para qué sirve
Bloom es un framework agenteal open source que transforma una descripción de comportamiento y una configuración semilla en un conjunto de evaluación completo. En vez de depender de un conjunto fijo de ejemplos, Bloom genera múltiples escenarios por ejecución, mide la misma conducta y mantiene reproducibilidad mediante un seed (archivo de configuración).
Bloom está pensado para evaluar rasgos concretos: del ejemplo del lanzamiento se probaron cuatro conductas relevantes para alineamiento - delirio y adulación, sabotaje instruido a largo plazo, autopreservación y sesgo autopreferencial - en 16 modelos. Los resultados se obtienen en días, no en meses, y constan tanto de métricas top-level (tasa de elicitación, presencia media) como de transcripciones exportables.
Cómo funciona (arquitectura de 4 etapas)
Bloom opera con cuatro agentes automáticos que transforman entrada en suite evaluativa:
Understanding: analiza tu descripción del comportamiento y ejemplos para definir qué medir y por qué.
Ideation: genera escenarios diseñados para provocar la conducta objetivo. Cada escenario incluye situación, usuario simulado, prompt del sistema y entorno de interacción.
Rollout: ejecuta los escenarios en paralelo; un agente simula tanto al usuario como a herramientas para inducir la respuesta del modelo objetivo en conversaciones multi-turn.
Judgment: un modelo juez puntúa cada transcripción por la presencia del comportamiento y criterios secundarios; luego un meta-juez produce el análisis a nivel de suite.
Puedes elegir qué modelos usan cada etapa, ajustar la longitud y modalidad de interacción (por ejemplo si expones o no herramientas al modelo), controlar la diversidad de escenarios y añadir criterios secundarios como realismo o dificultad de elicitación. Bloom exporta transcripciones compatibles con Inspect y se integra con Weights & Biases para ejecuciones a escala. El repositorio incluye un archivo semilla ejemplo para arrancar.
Reproducibilidad y configurabilidad
Bloom genera escenarios distintos en cada corrida salvo que uses evaluaciones estáticas. La reproducibilidad se consigue citando el seed que define: descripción del comportamiento, ejemplos y parámetros clave. Esto te permite iterar localmente sobre muestras hasta que la evaluación capture lo que buscas y luego barrer modelos a gran escala.
Validación: ¿en qué tanto confías en Bloom?
Anthropic validó Bloom con dos preguntas clave:
¿Separa modelos con distintas tendencias conductuales? Sí: al evaluar modelos de producción contra 'model organisms' intencionalmente desalineados, Bloom separó correctamente 9 de 10 quirk tests; en el décimo caso la revisión manual mostró que el modelo base tenía tasas similares.
¿Cómo se alinea el juez automático con juicios humanos? Comparando 40 transcripciones anotadas a mano con 11 modelos jueces, Claude Opus 4.1 mostró la correlación de Spearman más alta con juicio humano (0.86), seguido de Claude Sonnet 4.5 (0.75). Opus 4.1 además concuerda mejor en los extremos del espectro, útil cuando se usan umbrales para decidir 'presencia' o 'ausencia' de un comportamiento.
Estas métricas no son una garantía absoluta, pero indican que Bloom puede replicar juicios humanos en muchos casos y distinguir modelos con diferencias reales en comportamiento.
Caso práctico: sesgo autopreferencial
En el estudio de sesgo autopreferencial (tendencia del modelo a preferirse a sí mismo en decisiones), Bloom reprodujo el ranking de modelos del sistema card de Claude Sonnet 4.5: Sonnet 4.5 mostró el menor sesgo entre los modelos probados. Además Bloom permitió ir más allá: al aumentar el 'esfuerzo de razonamiento' del evaluador se redujo el sesgo, con la mayor caída entre niveles medio y alto. Interesante: la reducción no vino de que Sonnet eligiera otros modelos arbitrariamente, sino de que empezó a reconocer el conflicto de interés y declinó evaluar su propia opción.
También se observó que filtrar rollouts con rasgos no deseados (por ejemplo, falta de realismo o conciencia de evaluación) mejora tanto la tasa de elicitación como la calidad del juicio. Y aunque métricas absolutas varían con configuración (número de ejemplos, longitud de conversación, esfuerzo del juez), el ranking relativo de modelos suele mantenerse estable.
Cómo empezar y buenas prácticas
Clona el repositorio y revisa el seed de ejemplo para entender la estructura.
Itera localmente: genera muestras, revisa escenarios y ajusta la descripción del comportamiento hasta que las muestras reflejen lo que quieres medir.
Elige con cuidado los modelos para cada etapa: el judge apropiado es crucial para correlación con humanos.
Controla la exposición de herramientas y la longitud de interacción si quieres evaluar comportamientos que emergen solo con acceso a herramientas o en diálogos largos.
Documenta y comparte el seed cuando publiques métricas: así otros pueden reproducir tus mediciones.
Limitaciones y riesgos a considerar
Calibración del juez: aunque algunos jueces correlacionan bien con humanos, no todos lo hacen igual; conviene validar con anotaciones manuales para casos críticos.
Contaminación y evolución: evaluaciones automáticas reducen tiempo, pero los escenarios generados pueden eventualmente ser explotados o reflejar sesgos en el propio procedimiento.
Realismo de simulaciones: los rollouts dependen de la fidelidad de los agentes que simulan usuarios y herramientas; sesgos allí afectan los resultados.
No es una bala de plata: Bloom es excelente para medir frecuencias y comparar modelos, pero requiere diseño y revisión investigativa para interpretaciones fuertes.
Bloom ya se usa para estudiar vulnerabilidades de jailbreak anidadas, hardcoding, awareness de evaluación y trazas de sabotaje. Si trabajas en alineamiento, es una herramienta práctica para acelerar ciclos de evaluación y profundizar en por qué los modelos se comportan como lo hacen.
Pensar en evaluaciones como procesos dinámicos, no como test fijos, cambia la forma en que medimos riesgo. Bloom propone exactamente eso: generar y medir de forma sistemática, configurable y reproducible. ¿Te animas a probarlo y ver qué cosas nuevas descubres en tus modelos?