Apriel-1.6-15B: IA multimodal eficiente que compite con gigantes

9 dic 2025Keryc Díaz4 minutos

Apriel-1.6-15B-Thinker llega como la nueva iteración de la serie Apriel SLM: un modelo multimodal de 15 mil millones de parámetros pensado para razonar con texto e imágenes, pero con un enfoque muy claro en eficiencia de tokens y costo. ¿El resultado? Rendimiento comparable a modelos diez veces más grandes y una reducción de uso de tokens de razonamiento de más del 30% respecto a su versión previa.

Qué es Apriel-1.6-15B-Thinker

Apriel-1.6-15B-Thinker es un modelo multimodal de 15B parámetros orientado a razonamiento profundo en texto y visión. Fue entrenado en NVIDIA DGX Cloud usando GB200 Grace Blackwell Superchips, y su objetivo explícito es maximizar la relación entre capacidad de razonamiento y eficiencia de inferencia.

En la métrica Artificial Analysis Index (AA) alcanza 57, superando a modelos como Gemini 2.5 Flash, Claude Haiku 4.5 y GPT OSS 20b, y quedando en la paridad con Qwen3 235B A22B en ciertas evaluaciones, pero con mucha menos huella computacional.

Novedades técnicas y por qué importan

Arquitectura y escala: mantiene 15B parámetros, pero introduce mejoras en tokenización y en la mezcla de datos para mejorar la capacidad de razonamiento multimodal.
Datos y estrategia de preentrenamiento: la fase de depth-upscaling usa una mezcla formada por 35% contenido diverso de alta calidad (web, literatura científica, problemas matemáticos, código), 15% datasets de alta calidad de NVIDIA Nemotron y 50% datos de estilo preentrenamiento como replay. Esto ayuda a estabilizar representaciones de razonamiento antes de las etapas finas.
CPT y secuencias largas: se repite la estrategia de Apriel-1.5 con dos etapas de Continual Pretraining (CPT). En particular, se agrega un CPT text-only con longitud de secuencia extendida a 49K, pensado para mejorar memoria y manejo de contexto largo.
Entrenamiento multimodal: la mezcla de Stage-1 se amplió con muestras text-only sintéticas (razonamiento, conocimiento, código, escritura creativa) y pares imagen-texto que cubren OCR, comprensión de gráficos, razonamiento visual y síntesis de SVG/web-code.
Computo eficiente: el mid-training consumió aproximadamente 10,000 GPU horas en GB200, lo que la publicación presenta como un footprint pequeño gracias al alto throughput del hardware y a una cuidadosa estrategia de datos.

Post-training: SFT y RL

Supervised Fine-Tuning (SFT): 2.4 millones de ejemplos de alta señal con trazas de razonamiento paso a paso (step-by-step). Esa elección busca que el modelo internalice procesos de razonamiento transparentes, no solo respuestas finales.
Fases SFT: primera fase text-only de 4 epochs a 32K context; segunda fase multimodal de 3 epochs con muestreo por rechazo para preservar rendimiento en imágenes tras introducir nuevos tokens especiales.
Tokens especiales añadidos al tokenizer: <tool_calls>, </tool_calls>, [BEGIN FINAL RESPONSE], <|end|> para facilitar parseo y manejo de llamadas a herramientas.
Reinforcement Learning: se usa una configuración multi-stage con Group Sequence Policy Optimization (GSPO) y el framework VeRL. Las recompensas fomentan respuestas correctas y penalizan verbosidad o formatos incorrectos, buscando reducir el uso innecesario de tokens de razonamiento.

Métricas y benchmarks (qué dicen los números)

Artificial Analysis Index: Apriel-1.6 obtiene 57 en AA, posicionándose por encima de varios modelos mucho más grandes.
Eficiencia de tokens: reducción del uso de tokens de razonamiento en más del 30% frente a Apriel-1.5-15B-Thinker, un punto crítico para despliegues en producción donde cada token cuenta.
Evaluaciones internas y públicas: la evaluación incluyó dominios de VQA, OCR, matemáticas, código, instruction following y contextos largos. En un conjunto de 13 benchmarks de visión matemática mejora 4 puntos respecto al predecesor.
Tabla resumen (resaltado): Apriel-1.6 muestra mejoras promedio frente a Apriel-1.5 en muchas categorías (function calling, instruction following, algunas tareas de coding y razonamiento visual), aunque en algunos benches muy especializados los modelos más grandes aún superan en puntaje bruto.

Implicaciones prácticas: por qué esto importa para empresas y desarrolladores

Costo vs rendimiento: Apriel-1.6 está en el "frente de eficiencia costo". Eso significa que obtienes capacidades de razonamiento comparables a modelos mucho más grandes pero con una huella de hardware y tokens menor. Para equipos con presupuesto de cómputo limitado, esto es crucial.
Despliegue en entornos empresariales: su diseño favorece memoria prolongada (49K context en etapas internas) y eficiencia de inferencia, características útiles para asistentes con historial largo, análisis de documentos o agentes que combinan herramientas.
Integración de herramientas: los tokens especiales y el énfasis en function-calling facilitan el uso como backend de agentes que llaman APIs o herramientas externas.

Limitaciones conocidas

No es perfecto. El equipo reconoce limitaciones en visión: OCR puede sufrir en imágenes de baja calidad; escenas densas o con muchos objetos complican el conteo y el grounding fino; gráficos muy complejos o formatos inusuales pueden producir interpretaciones imperfectas. En resumen, excelente para muchas tareas empresariales multimodales, pero no una solución infalible para todos los problemas de visión.

Reflexión final

Apriel-1.6-15B-Thinker es un recordatorio de que el progreso en IA no siempre viene con multiplicar parámetros. Con diseño de datos, fases de entrenamiento bien pensadas y objetivos claros de eficiencia es posible acercarse al rendimiento "frontier" manteniendo costos manejables. Si trabajas en producto o en infraestructura, esta versión demuestra que priorizar eficiencia de tokens y calidad de datos puede entregar modelos prácticos y potentes sin depender de cientos de miles de GPU horas.

Fuente original

https://huggingface.co/blog/ServiceNow-AI/apriel-1p6-15b-thinker

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.

Qué es Apriel-1.6-15B-Thinker

Novedades técnicas y por qué importan

Arquitectura y escala: mantiene 15B parámetros, pero introduce mejoras en tokenización y en la mezcla de datos para mejorar la capacidad de razonamiento multimodal.

Datos y estrategia de preentrenamiento: la fase de depth-upscaling usa una mezcla formada por 35% contenido diverso de alta calidad (web, literatura científica, problemas matemáticos, código), 15% datasets de alta calidad de NVIDIA Nemotron y 50% datos de estilo preentrenamiento como replay. Esto ayuda a estabilizar representaciones de razonamiento antes de las etapas finas.

CPT y secuencias largas: se repite la estrategia de Apriel-1.5 con dos etapas de Continual Pretraining (CPT). En particular, se agrega un CPT text-only con longitud de secuencia extendida a 49K, pensado para mejorar memoria y manejo de contexto largo.

Entrenamiento multimodal: la mezcla de Stage-1 se amplió con muestras text-only sintéticas (razonamiento, conocimiento, código, escritura creativa) y pares imagen-texto que cubren OCR, comprensión de gráficos, razonamiento visual y síntesis de SVG/web-code.

Computo eficiente: el mid-training consumió aproximadamente 10,000 GPU horas en GB200, lo que la publicación presenta como un footprint pequeño gracias al alto throughput del hardware y a una cuidadosa estrategia de datos.

Post-training: SFT y RL

Supervised Fine-Tuning (SFT): 2.4 millones de ejemplos de alta señal con trazas de razonamiento paso a paso (step-by-step). Esa elección busca que el modelo internalice procesos de razonamiento transparentes, no solo respuestas finales.

Fases SFT: primera fase text-only de 4 epochs a 32K context; segunda fase multimodal de 3 epochs con muestreo por rechazo para preservar rendimiento en imágenes tras introducir nuevos tokens especiales.

Tokens especiales añadidos al tokenizer: <tool_calls>, </tool_calls>, [BEGIN FINAL RESPONSE], <|end|> para facilitar parseo y manejo de llamadas a herramientas.

Reinforcement Learning: se usa una configuración multi-stage con Group Sequence Policy Optimization (GSPO) y el framework VeRL. Las recompensas fomentan respuestas correctas y penalizan verbosidad o formatos incorrectos, buscando reducir el uso innecesario de tokens de razonamiento.

Métricas y benchmarks (qué dicen los números)

Artificial Analysis Index: Apriel-1.6 obtiene 57 en AA, posicionándose por encima de varios modelos mucho más grandes.

Eficiencia de tokens: reducción del uso de tokens de razonamiento en más del 30% frente a Apriel-1.5-15B-Thinker, un punto crítico para despliegues en producción donde cada token cuenta.

Evaluaciones internas y públicas: la evaluación incluyó dominios de VQA, OCR, matemáticas, código, instruction following y contextos largos. En un conjunto de 13 benchmarks de visión matemática mejora 4 puntos respecto al predecesor.

Tabla resumen (resaltado): Apriel-1.6 muestra mejoras promedio frente a Apriel-1.5 en muchas categorías (function calling, instruction following, algunas tareas de coding y razonamiento visual), aunque en algunos benches muy especializados los modelos más grandes aún superan en puntaje bruto.

Implicaciones prácticas: por qué esto importa para empresas y desarrolladores

Costo vs rendimiento: Apriel-1.6 está en el "frente de eficiencia costo". Eso significa que obtienes capacidades de razonamiento comparables a modelos mucho más grandes pero con una huella de hardware y tokens menor. Para equipos con presupuesto de cómputo limitado, esto es crucial.

Despliegue en entornos empresariales: su diseño favorece memoria prolongada (49K context en etapas internas) y eficiencia de inferencia, características útiles para asistentes con historial largo, análisis de documentos o agentes que combinan herramientas.

Integración de herramientas: los tokens especiales y el énfasis en function-calling facilitan el uso como backend de agentes que llaman APIs o herramientas externas.

Limitaciones conocidas

Reflexión final