Anthropic refuerza salvaguardas para elecciones 2026 | Keryc
La empresa Anthropic publicó una actualización sobre cómo su asistente Claude se prepara para las elecciones, con pruebas, políticas y recursos para reducir riesgos de desinformación y sesgo. ¿Puede la IA ayudar a votar mejor sin inclinar la balanza? Anthropic apuesta a controles, evaluaciones y señales externas para intentarlo.
Qué busca Anthropic con Claude en procesos electorales
Anthropic parte de una idea sencilla: si un modelo puede responder preguntas electorales de forma precisa e imparcial, puede ser una fuerza positiva para la democracia. Eso incluye desde dudas prácticas como dónde y cómo votar, hasta explicaciones sobre candidaturas y temas públicos.
La apuesta no es neutralidad pasiva: es diseñar a Claude para ofrecer respuestas equilibradas que ayuden a que tú saques tus propias conclusiones, no para empujarte hacia una posición.
Medir y prevenir sesgos políticos
Para evitar inclinaciones, Anthropic entrena a con un enfoque llamado donde se premian respuestas que reflejan valores como la imparcialidad y el rigor. Además, usan que incorporan instrucciones de neutralidad en cada conversación.
Claude
character training
system prompts
Antes de cada lanzamiento realizan evaluaciones que enfrentan al modelo con puntos de vista de todo el espectro político. Por ejemplo, un modelo que desarrolla mucho un argumento y minimiza el contrario obtiene mala puntuación. En estas pruebas, Opus 4.7 y Sonnet 4.6 alcanzaron 95% y 96% respectivamente en criterios de compromiso consistente e imparcial.
Anthropic también busca revisión externa. Entre sus colaboradores están The Future of Free Speech (Vanderbilt University), la Foundation for American Innovation y la Collective Intelligence Project, para evaluar comportamientos relacionados con la libertad de expresión y conversaciones políticas.
La idea no es prometer perfección, sino medir y mejorar: medir sesgo, remediarlo y someter los métodos a revisión externa.
Políticas, detección y pruebas para frenar abusos
La Usage Policy de Anthropic prohíbe usos de Claude para campañas políticas engañosas, creación de contenido falso con fines electorales, fraude de votantes o interferencia en sistemas de votación. Para hacer cumplir esto, combinan clasificadores automáticos con un equipo de inteligencia de amenazas que investiga esfuerzos coordinados de abuso.
Para evaluar defensas, Anthropic usa pruebas con 600 prompts: 300 solicitudes maliciosas (por ejemplo, generar desinformación electoral) y 300 legítimas (crear material de campaña o recursos de participación cívica). Aquí las métricas fueron altas: Opus 4.7 respondió apropiadamente 100% de las veces y Sonnet 4.6 99.8%.
También simulan operaciones de influencia con conversaciones multi-turno para imitar tácticas paso a paso de actores maliciosos. En esas pruebas, Sonnet 4.6 y Opus 4.7 respondieron adecuadamente 90% y 94% de las veces.
Un punto relevante: probaron si los modelos podían ejecutar operaciones de influencia de manera autónoma. Con salvaguardas activas, los modelos rechazaron casi todas las solicitudes. Sin salvaguardas (prueba para medir capacidades sin controles), Mythos Preview y Opus 4.7 completaron más de la mitad de las tareas, lo que subraya la necesidad de vigilancia continua.
Banners electorales y datos actualizados
Cuando la gente pregunta a Claude sobre inscripciones, lugares de votación o fechas, Anthropic muestra banners electorales que apuntan a fuentes confiables. Para las elecciones intermedias de EE UU este año, el banner redirige a TurboVote, un recurso no partidista de Democracy Works. Anthropic planea un banner similar para Brasil y llevar la función a más países.
Además, como Claude tiene un knowledge cutoff por su entrenamiento, puede activar búsqueda web cuando sea necesario para obtener información actualizada. En pruebas sobre el tema, Opus 4.7 y Sonnet 4.6 desencadenaron búsqueda web en preguntas sobre las midterms 92% y 95% de las veces, respectivamente.
Aun así, Anthropic advierte: Claude puede equivocarse, por lo que siempre es recomendable verificar información importante con fuentes oficiales.
Mirando hacia adelante
Anthropic resume su enfoque en tres puntos claros: políticas explícitas, detección y monitoreo constante, y colaboración externa. No es una solución milagrosa, pero sí una combinación de pruebas técnicas y revisiones humanas para reducir riesgos.
¿Qué puedes hacer como usuario? Preguntar, contrastar fuentes y usar las herramientas disponibles —por ejemplo, los banners electorales— para llegar a información verificada. En elecciones, la responsabilidad es compartida: desarrolladores, plataformas y usuarios.