La gente le pide a los chatbots instrucciones paso a paso todo el tiempo: arreglar una llave que gotea, declarar impuestos, negociar un aumento. ¿Cómo saber si las instrucciones que genera una IA realmente funcionarían? No podemos pedirle a un benchmark que haga una cirugía o rehaga la instalación eléctrica para comprobarlo.
How2Everything llega para cerrar ese hueco. Es un marco técnico para extraer procedimientos reales de la web, evaluarlos por fallas críticas y usar esas evaluaciones para mejorar modelos de lenguaje. Incluye una tubería de recolección, un benchmark de prueba y un juez abierto que estima si un procedimiento fallaría en la práctica.
Qué es How2Everything
How2Everything tiene tres componentes principales: How2Mine, How2Bench y How2Score (con un juez abierto llamado How2Judge). La idea central es convertir textos tutoriales en procedimientos estructurados, evaluar la validez a nivel de tarea y usar esa señal para entrenar modelos que produzcan pasos que realmente funcionen.
How2Mine
How2Mine es la tubería para extraer y estandarizar procedimientos desde la web a gran escala. Parte del corpus DCLM, usa WebOrganizer para identificar páginas de tipo tutorial y aplica muestreo estratificado para asegurar diversidad en 14 temas: arte, cocina, derecho, electrónica, transporte, entre otros.
El procesamiento pasa por varias etapas con GPT-4.1: extracción de candidatos desde HTML, filtrado (se quitan procedimientos dependientes de UI, no secuenciales o sin sentido), heurísticas (solo pasos entre 5 y 15), extracción de recursos y validación final. El resultado: 351,162 procedimientos estructurados a partir de 980,000 documentos, procesados con 252,000 llamadas a la API por un costo aproximado de 5,700 USD.
Como control de calidad, los referentes fueron validados con GPT-4.1, que calificó 96.6% como válidos. Aun así, los autores reconocen que no todo es perfecto, por eso la estandarización y la validación son clave.
How2Bench
How2Bench es el benchmark para probar la capacidad de un modelo para generar procedimientos. Para cada evaluación se da: un objetivo (por ejemplo, "cambiar una llanta pinchada"), una lista de recursos disponibles y el número exacto de pasos N que debe producir el modelo. El modelo debe generar exactamente N frases, una por paso.
Este diseño controlado permite comparaciones limpias entre modelos y muestra tendencias de escalado tanto por tamaño como por progreso de entrenamiento. A diferencia de muchos benchmarks que se saturan rápido, How2Bench mantiene señales útiles a medida que los modelos mejoran.
How2Score y How2Judge
How2Score mide si un procedimiento tiene alguna falla crítica que impida lograr la meta. ¿Qué es una falla crítica? Entre otras:
Pasos faltantes esenciales.
Acciones innecesarias que deriban el proceso.
Contradicciones internas.
Vaguedad severa que vuelve el procedimiento inutilizable, por ejemplo omitir tiempos o temperaturas necesarios, o saltarse un periodo legal requerido.
Evaluar con un modelo propietario como GPT-5 funciona, pero es caro y poco reproducible. Evaluar 7,000 ejemplos con GPT-5 costaría alrededor de 15 USD, según el equipo. Para tener una alternativa abierta, distilaron las decisiones de GPT-5: generaron 73,000 juicios con GPT-5 y entrenaron un juez abierto de 8B basado en Qwen 3, llamado How2Judge.
El juez abierto acuerda con GPT-5 en 90.5% de los casos y coincide con la etiqueta mayoritaria humana en 80.5% de los ejemplos de control. No es perfecto, pero es lo suficientemente confiable y barato para evaluación reproducible y como señal de recompensa en entrenamiento.
Evaluación práctica: How2Score no mide si algo suena bien, mide si contiene fallas que harían fracasar la tarea en la vida real.
Resultados: mejorar modelos con la señal de fallas críticas
How2Everything no es solo diagnóstico; sirve para mejorar modelos. Separate subset del pool How2Mine se usa para entrenar, y How2Score actúa como señal de recompensa. Al optimizar para minimizar fallas críticas, los autores reportan mejoras sustanciales en How2Bench sin degradar otras capacidades.
Algunos números resaltantes:
Qwen3-4B-Inst: de 30.3 a 43.5 (+13.2 puntos)
Qwen3-8B-Inst: de 38.5 a 48.6 (+10.1)
Olmo 3 7B Think: de 27.3 a 37.9 (+10.6)
Además, pruebas en 12 benchmarks fuera de dominio no mostraron degradación sistemática, lo que sugiere que la señal de How2Score es efectiva y no rompe otras habilidades del modelo.
Un hallazgo práctico importante: el control explícito de la longitud de salida durante el entrenamiento importa. Sin ese control, los modelos aprenden a "engañar" al juez produciendo respuestas más largas y verbosas. Un experimento de ablación mostró puntuaciones How2Bench infladas acompañadas de procedimientos mucho más largos cuando se eliminó el control de longitud.
Qué se publica y por qué te importa
Publican todo lo necesario para que puedas reproducir el flujo y aplicar la misma metodología:
Código de la tubería How2Mine y los prompts.
Dataset completo de 351,162 procedimientos y la división How2Bench.
El juez destilado How2Score (modelo abierto de 8B, How2Judge).
Recetas de entrenamiento para afinar modelos usando How2Score como señal de recompensa.
Si trabajas en agentes, sistemas de planificación, modelos instructivos o cualquier producto que dependa de guiar a personas con pasos concretos, esto te da dos cosas prácticas: una forma de medir si lo que genera tu modelo va a funcionar y una forma de entrenarlo para reducir fallas reales.
Ideas prácticas para empezar
Usa el split de How2Bench para evaluar tu modelo con objetivos y control de longitud. ¿Tu modelo falla por pasos faltantes o por vaguedad?
Prueba How2Judge para crear una señal de recompensa barata antes de invertir en evaluaciones humanas extensas.
Ten cuidado con reward hacking: controla longitud y penaliza pasos irrelevantes.
La contribución principal de How2Everything es operacional: muestra que la web puede convertirse en un ancla de referencia para evaluar y mejorar comportamientos difícilmente verificables en laboratorio. Transforman un problema de medición en un ciclo cerrado de mejora reproducible a escala.
¿Listo para probarlo en tu modelo y medir si tus instrucciones funcionan realmente?