DR Tulu lanza receta abierta para investigación profunda | Keryc
DR Tulu es una apuesta abierta para que los modelos hagan investigación profunda: planificar, buscar y sintetizar información de muchas fuentes para producir respuestas largas, justificadas y con citas claras. ¿Suena complejo? Sí. ¿Es útil hoy? También.
Qué es DR Tulu y por qué importa
DR Tulu es el primer modelo abierto entrenado específicamente para tareas de investigación larga mediante una receta end-to-end que combina SFT (supervised fine-tuning) y una nueva variante de RL que llaman RLER (Reinforcement Learning with Evolving Rubrics). La idea principal es entrenar agentes que no solo contesten, sino que investiguen: planeen, llamen herramientas de búsqueda, junten evidencias y documenten cada afirmación con citas verificables.
¿Por qué es relevante ahora? Porque muchos agentes de investigación potentes son propietarios. DR Tulu propone una alternativa reproducible: modelo, código, librería de agente y la receta completa bajo licencia permisiva.
En términos prácticos: DR Tulu-8B empata o supera a varios agentes propietarios en benchmarks de investigación larga, con un costo por consulta miles de veces menor.
Cómo trabaja: agente, herramientas y MCP
En inferencia, DR Tulu ejecuta un bucle de auto-búsqueda y decide entre tres acciones: think para planear, call_tool para invocar buscadores o navegadores, y answer para producir la respuesta final.
Las respuestas finales incluyen etiquetas de cita que enlazan a las fuentes usadas. Eso facilita auditar los pasos del agente y verificar que las afirmaciones están realmente fundadas.
Para manejar diferentes dominios, DR Tulu usa el Model Context Protocol o MCP, que trata las herramientas como componentes intercambiables. En la configuración por defecto ofrece:
google_search para snippets web
web_browse para extraer texto completo de páginas
paper_search para párrafos relevantes de papers de acceso abierto
Gracias a dr-agent-lib puedes cambiar o añadir buscadores, bases de datos privadas o lectores específicos sin volver a entrenar el modelo.
La receta de entrenamiento: SFT + RLER
Entrenar para investigación larga tiene dos retos clave: no existe una "respuesta correcta" única, y las rubricas estáticas se rompen cuando el modelo aprende a explotar sus defectos. DR Tulu lo soluciona en dos fases.
SFT para arranque en frío
Antes de meter RL, aplican SFT con trayectorias generadas por GPT-5. Esas trayectorias incluyen pasos de pensamiento simulados, llamadas a herramientas y respuestas finales con formato y citas.
El objetivo es que el modelo aprenda el protocolo: cuándo llamar herramientas, cómo estructurar una respuesta y cómo citar. Esto evita que RLER, si se aplica desde cero, derive en exploración pobre o llamadas ineficaces a herramientas.
RLER: recompensas que evolucionan
RLER adapta la función de recompensa durante el entrenamiento en tres ejes:
Rubricas específicas por instancia y ancladas en la búsqueda. Para cada pregunta se genera una rúbrica basada en el contexto recuperado.
Rubricas positivas y negativas que evolucionan. Se promueven nuevas buenas estrategias y se penalizan modos de fallo o hacking (por ejemplo pegar texto recuperado sin sintetizar).
Buffer dinámico de rubricas y recompensas auxiliares por formato y por cita fiel.
Además emplean una variante de GRPO que soporta múltiples rollouts y entrenamiento asíncrono. La ejecución permite solapar generación y búsqueda: si una trayectoria hace una llamada, queda en pausa mientras otras continúan, optimizando el uso de APIs.
Resultados en benchmarks y eficiencia
Evaluaron DR Tulu-8B (RL) en siete benchmarks (cuatro de síntesis larga y tres de respuesta corta) y los resultados son sólidos:
ScholarQA-CSv2: 86.7 (DR Tulu-8B) frente a 42.5 de WebExplorer-8B y 32.9 de WebThinker-32B-DPO.
ResearchQA y DeepResearch Bench: 71.1 y 41.8 respectivamente, con mejoras claras sobre baselines abiertos.
En ScholarQA-CSv2 DR Tulu alcanza una precisión de cita de 90.6 y recall de 76.1, lo que indica no solo respuestas completas sino mejor anclaje en la literatura.
¿Y el costo? Un query típico evaluado reporta alrededor de $0.00008 en llamadas externas. Incluso con el máximo de 10 búsquedas, el tope aproximado fue $0.0075 por consulta. Para comparar, agentes propietarios llegan a $1 o más por consulta en estas tareas.
Caso clínico: genética y límites actuales
Probado en un set realista sobre variantes genéticas (GeneticDiseasesQA), DR Tulu supera varias alternativas abiertas y a algunos servicios propietarios en síntesis de evidencia y calidad de la respuesta. En evidencia de síntesis, incluso compite bien con GPT-5 + Search.
Sin embargo HealthBench —consultas médicas exigentes— sigue siendo un reto. DR Tulu mejora sobre otras opciones abiertas, pero aún hay margen en asesoramiento clínico experto.
Diseño práctico: reproducibilidad y uso
Todo lo liberan: DR Tulu-8B checkpoint, código de entrenamiento, RLER y dr-agent-lib. Esto permite:
Reproducir los experimentos y estudiar cómo cambian las recompensas y herramientas el comportamiento.
Desplegar el agente con tus propias herramientas MCP y políticas de privacidad.
Extender la librería para dominios específicos sin retrain, describiendo nuevas herramientas al agente.
Si quieres probarlo en tu dominio, una ruta típica es: ajustar la pila de herramientas MCP, curar preguntas representativas, y evaluar con rubricas específicas antes de correr RL.
Reflexión final
DR Tulu muestra que es posible entrenar agentes abiertos para investigación larga con buen balance entre calidad, costo y trazabilidad. La clave está en combinar un arranque guiado por SFT con recompensas que evolucionan según lo que el agente realmente descubre.
¿Significa esto que la investigación asistida por IA ya lo soluciona todo? No. Aún hay desafíos en dominios clínicos y en garantizar ética y robustez. Pero ahora tienes una receta abierta para experimentar y mejorar, no solo una caja negra propietaria.