How2Everything: mejora LLMs evaluando procedimientos reales

La gente le pide a los chatbots instrucciones paso a paso todo el tiempo: arreglar una llave que gotea, declarar impuestos, negociar un aumento. ¿Cómo saber si las instrucciones que genera una IA realmente funcionarían? No podemos pedirle a un benchmark que haga una cirugía o rehaga la instalación eléctrica para comprobarlo.

How2Everything llega para cerrar ese hueco. Es un marco técnico para extraer procedimientos reales de la web, evaluarlos por fallas críticas y usar esas evaluaciones para mejorar modelos de lenguaje. Incluye una tubería de recolección, un benchmark de prueba y un juez abierto que estima si un procedimiento fallaría en la práctica.

Qué es How2Everything

How2Everything tiene tres componentes principales: How2Mine, How2Bench y How2Score (con un juez abierto llamado How2Judge). La idea central es convertir textos tutoriales en procedimientos estructurados, evaluar la validez a nivel de tarea y usar esa señal para entrenar modelos que produzcan pasos que realmente funcionen.

Qué es How2Everything

How2Mine

How2Bench

How2Score y How2Judge

Resultados: mejorar modelos con la señal de fallas críticas

Qué se publica y por qué te importa

Ideas prácticas para empezar

Fuente original

¡Mantente al día!

How2Everything: mejora LLMs evaluando procedimientos reales