BrowseSafe: nueva defensa para navegadores con IA | Keryc
Perplexity presenta BrowseSafe, un detector y benchmark abierto para evitar que asistentes en el navegador sigan instrucciones maliciosas escondidas en páginas web. ¿Qué significa esto para ti como usuario o desarrollador? Básicamente, menos sorpresas cuando un agente lee todo lo que hay en una página y alguien intenta manipularlo desde el contenido mismo.
Qué es BrowseSafe y por qué importa
BrowseSafe es un modelo de detección afinado para una pregunta concreta: dado el HTML de una página, ¿contiene instrucciones maliciosas dirigidas al agente? En la práctica esto quiere decir que antes de que el asistente lea o ejecute algo, BrowseSafe revisa la página y marca lo potencialmente peligroso.
¿Por qué no usar un modelo grande genérico? Porque esos modelos suelen ser lentos y costosos para revisar cada página en tiempo real. BrowseSafe está pensado para escanear páginas completas sin ralentizar el navegador, y además viene con BrowseSafe-Bench, un conjunto de pruebas públicas con más de 14,700 ejemplos reales para evaluar y mejorar defensas.
Cómo funcionan las inyecciones de prompt en el navegador
La idea es simple y peligrosa: los atacantes esconden instrucciones en lugares que los humanos no miramos, pero que los agentes sí leen. Comentarios HTML, atributos de datos, campos de formularios invisibles o incluso secciones visibles como pies de página pueden contener comandos diseñados para desviar al asistente.
Esas instrucciones maliciosas pueden ser directas o muy camufladas: indirectas, hipotéticas o en otros idiomas. El riesgo crece porque los agentes tienden a procesar todo el HTML, no solo lo que se ve en pantalla.
Los atacantes aprovechan que los agentes «leen» más de lo que nosotros vemos. Por eso hay que escanear el HTML con sentido de contexto.
BrowseSafe-Bench: pruebas con páginas del mundo real
BrowseSafe-Bench es el banco de pruebas público: 14,719 ejemplos que simulan páginas de producción con contenido ruidoso y casos maliciosos variados. El benchmark cubre 11 tipos de ataque, 9 estrategias de inyección y 3 estilos lingüísticos. Es decir, no es un laboratorio limpio: es el caos que encuentras en la web.
Los resultados muestran patrones claros: los ataques directos (pedir exfiltrar datos o revelar el prompt del sistema) son más fáciles de detectar. Las versiones en otros idiomas y las instrucciones indirectas son mucho más difíciles porque evitan palabras clave obvias. También importa dónde está la instrucción: las reescritas en párrafos visibles son más complicadas que las escondidas en comentarios.
Defensa en profundidad: no hay una sola bala de plata
En el modelo de amenaza de Perplexity, el asistente vive en un entorno de confianza, pero todo lo que viene de la web es no confiable. BrowseSafe es una capa de esa defensa: se escanean los outputs crudos antes de que el agente los lea, se limitan permisos por defecto y se requiere confirmación explícita para acciones sensibles.
La idea es clara: combinar varias barreras para que el poder del asistente no venga a costa de la seguridad del usuario. Herramientas como la que ofrece Perplexity permiten mantener navegadores asistentes útiles y a la vez más seguros.
¿Qué puede hacer un desarrollador hoy?
BrowseSafe y BrowseSafe-Bench son open source. Eso significa que cualquier desarrollador que esté construyendo agentes autónomos puede empezar a reforzar su sistema sin partir desde cero. El modelo de detección se puede ejecutar localmente y está optimizado para marcar instrucciones maliciosas antes de que lleguen a la lógica central del agente.
Además, BrowseSafe-Bench funciona como banco de estrés: usa sus 14,000+ escenarios para probar cómo reacciona tu sistema frente a HTML desordenado y trampas comunes. Perplexity también comparte técnicas de chunking y escaneo en paralelo para procesar páginas grandes de forma eficiente.
Mirando hacia adelante
La transición de buscadores a navegadores con agentes cambia las reglas del juego: ahora no solo importa lo que hay en una página, sino quién lo utiliza y cómo lo interpreta un asistente. BrowseSafe es un paso práctico para reducir el riesgo de prompt injection y para que la web agente no sea un terreno de caza para atacantes.
No es una solución absoluta, pero sí una herramienta real y utilizable: modelos que corren en el cliente, benchmarks abiertos y prácticas de defensa en profundidad. Si trabajas con agentes en navegadores, este es un buen momento para integrar escaneos HTML y probar tu sistema contra escenarios reales.