Anthropic mide sesgo político en Claude y publica evaluación | Keryc
Anthropic comparte cómo entrena y evalúa a Claude para que sea even-handed en política: que trate visiones opuestas con la misma profundidad, respeto y claridad. Aquí te explico lo esencial, por qué importa y qué resultados arroja su nueva evaluación automatizada.
Qué entiende Anthropic por even-handedness
La idea es sencilla: cuando la conversación toca política, la gente quiere una discusión honesta y útil, no una que empuje a una opinión. Anthropic define even-handedness como la capacidad del modelo para tratar puntos de vista contrarios con igual calidad de análisis, evidencia y tono.
Si un modelo defiende un lado con tres párrafos y al otro le responde con viñetas, eso es sesgo, no neutralidad.
Anthropic espera que Claude:
Evite emitir opiniones políticas no solicitadas.
Mantenga precisión factual y amplitud informativa.
Sea capaz de dar la "mejor versión" de cada postura (pasar una especie de ).
Ideological Turing Test
Use terminología neutra cuando sea posible y represente múltiples perspectivas.
Cómo entrenan a Claude para eso
No es solo un prompt. Usan dos palancas principales:
El system prompt global que guía el comportamiento en cada conversación. Lo actualizan regularmente para reforzar estas prácticas.
Entrenamiento de carácter mediante aprendizaje por refuerzo: recompensan respuestas que muestran rasgos como objetividad, equilibrio y la renuencia a producir retórica que pueda servir de propaganda.
Anthropic comparte fragmentos de esos rasgos (por ejemplo: "no generaré retórica que altere indebidamente las opiniones políticas"), y reconoce que es un proceso experimental y en constante revisión.
Cómo midieron el sesgo: la prueba de Paired Prompts automatizada
Su método central es Paired Prompts: dos solicitudes que tratan el mismo tema político desde perspectivas opuestas. Luego comparan las respuestas según tres criterios:
Even-handedness: profundidad y calidad equivalente entre ambas respuestas.
Opposing perspectives: si el modelo incluye contrargumentos o matices.
Refusals: si el modelo se niega a participar.
Lo nuevo es que ahora evaluaron miles de pares con un grader automatizado (Claude Sonnet 4.5 actuó como calificador), y publicaron la metodología y prompts para que cualquiera lo reproduzca.
Qué modelos compararon y cómo configuraron la prueba
Evaluaron principalmente Claude Opus 4.1 y Claude Sonnet 4.5 (con el system prompt de Claude.ai). También incluyeron comparadores: GPT-5, Gemini 2.5 Pro, Grok 4 y Llama 4 Maverick, intentando configurar condiciones lo más comparables posible.
Probó 1,350 pares de prompts en 150 temas y 9 tipos de tareas (argumentos, ensayos persuasivos, narrativas, análisis, humor, etc.). Es una instantánea amplia pero centrada principalmente en el discurso político de Estados Unidos.
Resultados clave
Even-handedness (porcentaje):
Claude Opus 4.1: 95%
Claude Sonnet 4.5: 94%
Gemini 2.5 Pro: 97%
Grok 4: 96%
GPT-5: 89%
Llama 4: 66%
En términos prácticos, Opus y Sonnet quedan muy altos, con Gemini y Grok en niveles similares; GPT-5 y Llama 4 muestran menor even-handedness según esta métrica.
Oposición de perspectivas (porcentaje de respuestas que reconocen contrargumentos):
Opus 4.1: 46%
Claude Sonnet 4.5: 28%
Grok 4: 34%
Llama 4: 31%
Tasa de rechazos (refusals): Opus 4.1 5%, Sonnet 4.5 3%, Grok casi 0%, Llama 4 9%.
¿Fueron fiables las calificaciones automáticas?
Hicieron controles de validez usando otros modelos como calificadores: Sonnet 4.5 estuvo de acuerdo con GPT-5 el 92% de las veces y con Opus 4.1 el 94% en la evaluación por muestra. En comparación, la concordancia entre evaluadores humanos fue menor (≈ 85%).
También calcularon correlaciones entre las puntuaciones globales: Sonnet vs Opus mostró correlaciones muy altas (r > 0.99 para even-handedness). En general, las valoraciones automatizadas fueron consistentes entre modelos, aunque no perfectas.
Limitaciones importantes (lo que Anthropic reconoce)
El estudio mide tres dimensiones concretas, pero hay muchas otras formas de sesgo que no se evaluaron.
El enfoque se centró en la política de EE. UU.; no mide rendimiento en contextos internacionales.
Es una evaluación de "single-turn": examina una respuesta breve por prompt, no conversaciones largas y contextuales.
Los resultados dependen de cómo se configuren los modelos (pensar activado o no, presence de system prompts, etc.). No todos los factores pudieron controlarse exactamente.
Cada ejecución genera respuestas nuevas; los números pueden fluctuar entre corridas.
Anthropic invita a que otros repliquen la prueba y propongan mejoras. Por algo la liberaron como evaluación open-source.
Por qué esto te afecta (y por qué importa ahora)
¿Te preocupa que una IA te empuje hacia una opinión política? Esta evaluación es un intento concreto de medir y mitigar eso. No es la solución definitiva, pero sí un paso hacia estándares compartidos que permitan comparar modelos con criterios reproducibles.
Si eres desarrollador, investigador o usuario crítico, la evaluación open-source te da una herramienta: puedes reproducir las pruebas en tu contexto, probar configuraciones distintas y aportar mejoras.
Si solo usas IA para informarte o debatir, la lección práctica es revisar cómo un modelo maneja perspectivas opuestas y recordar que la neutralidad perfecta no existe; lo útil es que haya métricas claras y verificables.
Anthropic deja claro que no hay definición única de sesgo político ni una sola forma correcta de medirlo. Pero abrir la metodología a la comunidad es una invitación a mejorar colectivamente esos estándares.