Anthropic dona Petri 3.0, herramienta abierta de alineación

Anthropic acaba de transferir Petri, su caja de herramientas abierta para evaluar alineación en modelos de lenguaje, a Meridian Labs y presenta Petri 3.0. Si trabajas evaluando modelos o simplemente te interesa cómo medimos riesgos como el engaño o la sumisión, esto cambia la forma en que podemos auditar modelos de forma abierta y reproducible.

Qué es Petri y cómo funciona

Petri nació como una suite de tests de alineación que se pueden aplicar a cualquier modelo grande de lenguaje. Su flujo básico separa tres componentes: un auditor que genera escenarios, el modelo objetivo que responde a esos escenarios, y un judge que puntúa las transcripciones en busca de comportamientos problemáticos como engaño, sycophancy o cooperación con solicitudes dañinas.

Ese enfoque permite automatizar evaluaciones a gran escala y comparar versiones de un mismo modelo. Desde Claude Sonnet 4.5, Anthropic ha usado Petri como parte integral de sus evaluaciones internas, y organizaciones externas como el AI Security Institute del Reino Unido ya lo integran en sus procesos.

Qué es Petri y cómo funciona

Novedades clave en Petri 3.0

Aspectos técnicos relevantes

Por qué donar Petri a Meridian Labs importa

Implicaciones prácticas para desarrolladores e evaluadores

Qué sigue y recomendaciones rápidas

Fuente original

¡Mantente al día!

Anthropic dona Petri 3.0, herramienta abierta de alineación