NVIDIA AI-Q lidera DeepResearch Bench I y II | Keryc
NVIDIA AI-Q alcanzó el primer puesto en DeepResearch Bench I (55.95) y DeepResearch Bench II (54.50). ¿Por qué importa esto? Porque demuestra que una pila abierta, configurable y reproducible puede competir en tareas complejas de investigación automática: recuperar evidencia, sintetizar análisis y producir informes citados de alta calidad.
Qué logró NVIDIA AI-Q
AI-Q no es solo un modelo: es un blueprint abierto para construir agentes de investigación que trabajan sobre datos empresariales y web y entregan respuestas con citas verificables. Con una única pila configurable, NVIDIA consiguió el mejor desempeño en dos benchmarks complementarios que miden tanto la calidad narrativa como la corrección factual granular.
DeepResearch Bench I premia la calidad del informe final: comprensividad, profundidad de insight, obediencia a la instrucción y legibilidad. DeepResearch Bench II usa más de 70 rúbricas binarias por tarea para evaluar recuperación de información, análisis y presentación. Liderar en ambos significa que AI-Q no solo escribe bien: también encuentra y analiza la evidencia correcta.
Arquitectura central: multi-agente y modular
La arquitectura del deep researcher de AI-Q se compone de tres roles principales: Orchestrator, Planner y Researcher. Cada uno puede usar un LLM distinto y trabajar en su propia ventana de contexto, lo que evita que respuestas largas y ruidosas degraden la planificación.
Orchestrator: coordina el bucle de investigación, llama al Planner, despacha tareas al Researcher, gestiona rellenos de huecos y produce el informe largo.
Planner: en dos fases (Scout y Architect) mapea el paisaje informativo y diseña un plan de investigación con consultas y restricciones de calidad.
Researcher: lanza subagentes especialistas en paralelo (Evidence Gatherer, Mechanism Explorer, Comparator, Critic y Horizon Scanner) y sintetiza hallazgos en un brief citado.
Opcionalmente, una capa de ensemble ejecuta múltiples pipelines en paralelo y un refiner post-hoc pule el informe final.
Pila abierta y reproducible
La implementación de la competencia se apoya en componentes disponibles y configurables:
NeMo Agent Toolkit para el wiring de workflows, registro de funciones y evaluación. Permite composición mediante YAML.
LangChain DeepAgents para el flujo planner–researcher–orchestrator con middleware para subagentes.
Modelos NVIDIA Nemotron 3 finamente ajustados para la síntesis y llamadas a herramientas.
Herramientas de búsqueda: Tavily para web y Serper para papers académicos.
Esa flexibilidad significa que puedes intercambiar LLMs, herramientas y grafos de agentes según tu caso de uso.
Datos, generación de trayectorias y fine-tuning
NVIDIA generó la base de entrenamiento con estas etapas:
Recolección de preguntas: ~17k de OpenScholar, 21k de ResearchQA y 2,457 de Fathom-DeepResearch-SFT.
Generación de trayectorias: ~80k trayectorias del workflow completo usando GPT-OSS-120B como generador. Estas trayectorias incluyen resultados reales de búsqueda vía Tavily y Serper.
Filtrado por principios: se evaluaron las trayectorias completadas con el judge nvidia/Qwen3-Nemotron-32B-GenRM-Principle y se retuvieron ~67k de alta calidad.
Ese dataset de trayectorias enseña al modelo a planificar, hacer búsquedas multi-paso y sintetizar con citas reales.
Middleware para fiabilidad en horizontes largos
Las ejecuciones largas (32+ llamadas a herramientas) exponen fallos que no aparecen en interacciones cortas. NVIDIA añadió middleware específico:
Sanitización de nombres de herramientas: limpieza, resolución de alias y matching difuso cuando el LLM inventa nombres.
Retry consciente del razonamiento: detecta 'pensamientos' sin respuesta final y preserva contexto para reintentar.
Enforcement de presupuesto: límites por agente que fuerzan síntesis cuando se agotan las llamadas a herramientas.
Validación de reportes: cheques mínimos de longitud y estructura; si falla, se reintenta con prompts de continuación.
Cada componente aborda patrones de fallo reales observados en trazas del agente.
Ensemble y refiner: elevar cobertura y pulido
El ensemble ejecuta N pipelines independientes; un LLM luego fusiona salidas, eligiendo estructura y agregando contenido único para ampliar cobertura de evidencia. La pasada de refiner reescribe para cuantificar afirmaciones vagas, mejorar cobertura de entidades, cortar andamiaje y fortalecer razonamiento causal.
Resultado práctico: más recall de información y mejor coherencia en el informe final sin perder claridad de lectura.
Por qué esta aproximación importa para empresas y desarrolladores
Transparencia y control: la pila es abierta y configurable, así que las empresas pueden inspeccionar, auditar y adaptar cada componente.
Modularidad: puedes poner tu propio LLM en Planner o Researcher, o conectar buscadores internos en lugar de Tavily/Serper.
Fiabilidad para tareas reales: el middleware y la estrategia multi-agente están pensados para runs largos y complejos, típicos en investigación profunda.
Si trabajas en IA aplicada o producto, esto no es una promesa futura: es un patrón reproducible que ya rinde bien en benchmarks exigentes.
NVIDIA AI-Q muestra que el camino hacia agentes de investigación robustos pasa por combinar arquitectura multi-agente, fine-tuning en trayectorias reales, middleware práctico y pasos opcionales de ensemble y refiner. ¿La lección para ti? No siempre se trata de un único LLM más grande: la orquestación, la calidad de las trayectorias y la ingeniería de robustez marcan la diferencia cuando las tareas son largas y exigentes.