NVIDIA AI-Q lidera DeepResearch Bench I y II

NVIDIA AI-Q alcanzó el primer puesto en DeepResearch Bench I (55.95) y DeepResearch Bench II (54.50). ¿Por qué importa esto? Porque demuestra que una pila abierta, configurable y reproducible puede competir en tareas complejas de investigación automática: recuperar evidencia, sintetizar análisis y producir informes citados de alta calidad.

Qué logró NVIDIA AI-Q

AI-Q no es solo un modelo: es un blueprint abierto para construir agentes de investigación que trabajan sobre datos empresariales y web y entregan respuestas con citas verificables. Con una única pila configurable, NVIDIA consiguió el mejor desempeño en dos benchmarks complementarios que miden tanto la calidad narrativa como la corrección factual granular.

DeepResearch Bench I premia la calidad del informe final: comprensividad, profundidad de insight, obediencia a la instrucción y legibilidad. DeepResearch Bench II usa más de 70 rúbricas binarias por tarea para evaluar recuperación de información, análisis y presentación. Liderar en ambos significa que AI-Q no solo escribe bien: también encuentra y analiza la evidencia correcta.

Qué logró NVIDIA AI-Q

Arquitectura central: multi-agente y modular

Pila abierta y reproducible

Datos, generación de trayectorias y fine-tuning

Middleware para fiabilidad en horizontes largos

Ensemble y refiner: elevar cobertura y pulido

Por qué esta aproximación importa para empresas y desarrolladores

Detalles numéricos clave

Reflexión final

Fuente original

¡Mantente al día!

NVIDIA AI-Q lidera DeepResearch Bench I y II