Anthropic acaba de transferir Petri, su caja de herramientas abierta para evaluar alineación en modelos de lenguaje, a Meridian Labs y presenta Petri 3.0. Si trabajas evaluando modelos o simplemente te interesa cómo medimos riesgos como el engaño o la sumisión, esto cambia la forma en que podemos auditar modelos de forma abierta y reproducible.
Qué es Petri y cómo funciona
Petri nació como una suite de tests de alineación que se pueden aplicar a cualquier modelo grande de lenguaje. Su flujo básico separa tres componentes: un auditor que genera escenarios, el modelo objetivo que responde a esos escenarios, y un judge que puntúa las transcripciones en busca de comportamientos problemáticos como engaño, sycophancy o cooperación con solicitudes dañinas.
Ese enfoque permite automatizar evaluaciones a gran escala y comparar versiones de un mismo modelo. Desde Claude Sonnet 4.5, Anthropic ha usado Petri como parte integral de sus evaluaciones internas, y organizaciones externas como el AI Security Institute del Reino Unido ya lo integran en sus procesos.
