SPEED-Bench: benchmark unificado para speculative decoding

SPEED-Bench llega para poner orden en cómo medimos la especulación en modelos de lenguaje. ¿Qué tan bien funciona la idea de usar un modelo ligero que propone varios tokens adelantados y luego dejar que el modelo objetivo verifique en paralelo? Eso depende mucho de los datos, del régimen de servicio y del sistema. SPEED-Bench propone un estándar para medirlo de forma realista.

Qué es SPEED-Bench

Speculative decoding (SD) usa un draft model ligero para especular múltiples tokens futuros, que luego el target model verifica en paralelo. La gracia: mejorar el rendimiento (throughput) sin cambiar la distribución exacta de salida del modelo final.

SPEED-Bench es un benchmark unificado pensado para evaluar SD en condiciones cercanas a producción. Combina datasets con amplia variedad semántica, buckets de longitud de contexto realistas y un framework de medición que integra motores de inferencia de grado productivo como TensorRT-LLM, vLLM y SGLang.

Domain	Llama 3.3 70B (N-Gram)	GPT OSS 120B (EAGLE3)	Qwen3-Next (MTP)
Coding	1.54	2.46	3.34
Math	1.43	2.46	3.13
Roleplay	1.15	1.87	2.09
Writing	1.33	1.98	2.46
Mean AL	1.41	2.25	2.81
Mean Speedup	0.88x	1.34x	1.20x

Qué es SPEED-Bench

Por qué los benchmarks anteriores fallan

Cómo está diseñado SPEED-Bench

Qualitative split

Throughput split

Framework de medición

Ejemplo práctico y salida de la herramienta

Hallazgos técnicos importantes

Recomendaciones prácticas si trabajas con SD

Fuente original

¡Mantente al día!

SPEED-Bench: benchmark unificado para speculative decoding