NVIDIA publica una receta práctica: no basta con ver mucha data, hace falta que la data tenga señales de aprendizaje estructuradas. ¿Qué hicieron? Tomaron splits de entrenamiento públicos como semillas, generaron preguntas y respuestas sintéticas alineadas a tareas, enriquecieron las respuestas con razonamiento y conocimiento relevante, y filtraron todo en un corpus curado para seguir preentrenando Nemotron. El resultado: aumentos medibles en razonamiento, código y QA científica en un experimento de 100B tokens sobre Nemotron-3 Nano.
Qué es el "task-seeded" SDG
Task-seeded SDG es un flujo de generación sintética diseñado para añadir ejemplos compactos y estructurados a la mezcla de preentrenamiento. En lugar de generar texto plano aleatorio, la idea es usar splits de entrenamiento públicos (lm-eval-harness) como semillas de capacidad y producir ejemplos que:
- preserven el frame de la tarea (selección, generación, clasificación, explicación),
- respeten la estructura de respuesta (multiple-choice, short answer, formato restringido),
- incluyan dominio y contexto relevantes (ciencia, código, matemáticas, multilingüe),
- y, crucialmente, añadan trazas de razonamiento o conocimiento que conecten la evidencia con la respuesta.
La pipeline es compacta y repetible: coleccionar semillas, normalizar registros en un esquema unificado (JSONL), generar preguntas similares, resolver y enriquecer las respuestas, y filtrar/paquetizar el dato resultante.
Etapas clave (resumen)
- Colección de semillas: enumerar tareas de
lm-eval-harnessy quedarse solo con splits de entrenamiento adecuados. - Normalización: convertir formatos YAML heterogéneos a un esquema común para generación.
- Generación: crear nuevos enunciados que preserven la capacidad pedagógica de la semilla.
- Enriquecimiento: adjuntar la respuesta final más razonamiento y conocimiento contextual.
- Filtrado: aplicar checks de esquema, formato, deduplicación y validación específica (por ejemplo, verificación por mayoría en multiple-choice).
Por qué mejora modelos como Nemotron
¿No es redundante con la enorme cantidad de texto crudo que ya ven los LLM? No exactamente. La data bruta da cobertura, pero suele carecer de señales explícitas sobre cómo resolver tareas concretas. Al añadir ejemplos sintéticos que muestran cómo llegar a una respuesta (tanto la ruta como el porqué de las opciones descartadas), el modelo aprende comportamientos reutilizables: identificar la necesidad de información, aplicar conocimiento relevante, comparar alternativas plausibles y producir respuestas dentro de restricciones de formato.
Esto es aprendizaje por transferencia entre familias de tareas: una semilla de ciencia puede ayudar a razonamiento físico de sentido común; una semilla lógica puede mejorar comparación de alternativas; semillas de código o matemáticas fortalecen planificación paso a paso.
Datos, cobertura y verificación
- Escala del experimento: ~70 tareas y ~700 subtasks extraídos de
lm-eval-harness. - Grupos de semillas:
- Knowledge-intensive: 39 tareas, ~300 subtareas, ~3M samples de semilla.
- Reasoning-intensive: 34 tareas, ~400 subtareas, ~1.5M samples de semilla.
- Tipos de salida generada: preguntas similares, muestras con respuesta enriquecida y trazas de razonamiento/contexto.
- Validación: checks de esquema, formato, deduplicación y, cuando es posible, chequeo de respuesta por mayoría. Multiple-choice es más fácil de verificar; tareas generativas piden extracción y filtros específicos.
Un detalle práctico: almacenar la respuesta semántica (por ejemplo "dirt trapped under the fingernails") es preferible a guardar solo una etiqueta como "B". Pequeñas elecciones de formato cambian la señal de entrenamiento.
Resultados en el experimento de 100B tokens (Nemotron-3 Nano)
En una continuación de 100B tokens, mezclar task-seeded SDG en etapas tardías produjo mejoras en varios grupos de capacidades:
| Grupo | Antes | Después | Cambio |
|---|---|---|---|
| MMLU-Pro | 64.8 | 66.6 | +1.8 |
| Average code | 73.2 | 75.1 | +1.9 |
| Average math | 87.6 | 87.9 | +0.3 |
| Commonsense understanding | 72.9 | 74.5 | +1.6 |
| GPQA | 30.8 | 41.9 | +11.1 |
Además, en un ablation con y sin contexto en las respuestas enriquecidas, la variante con contexto mostró mejoras en varias métricas (ejemplos seleccionados):
| Evaluación | No context | With context | Cambio |
|---|---|---|---|
| PIQA | 82.86 | 84.44 | +1.58 |
| AGIEval-en CoT | 63.16 | 69.32 | +6.16 |
| GPQA-Diamond CoT n-shot | 34.85 | 45.96 | +11.11 |
Interpretación rápida: los mayores saltos (por ejemplo GPQA) sugieren que ejemplos enriquecidos con conocimiento y pasos de razonamiento ayudan a manejar preguntas científicas más difíciles. Las mejoras no se limitan a la tarea semilla sino que aparecen en múltiples grupos, lo que respalda la idea de transferencia entre familias de tareas.
Hallazgos prácticos y recomendaciones
- Cobertura amplia de semillas reduce sobreajuste a un estilo de evaluación.
- El contexto y las trazas de razonamiento ayudan más que la respuesta sola, sobre todo en tareas de razonamiento y ciencia.
- Guardar texto semántico en la respuesta es mejor que etiquetas crípticas.
- Multiple-choice es fácil de chequear; los generativos requieren pipelines de extracción y validación tarea-específica.
- El diseño de la mezcla importa: sin controles, tareas grandes dominan la mezcla. Es necesario ajustar sampling para preservar familias importantes.
- Verificar mejoras con métricas amplias: un aumento puntual en MMLU-Pro o GPQA tiene más peso si otras capacidades (math, código, conocimiento general) se mantienen estables.
Límites y consideraciones
- No usar splits de test/holdout para generar ejemplos: el pipeline toma solo entrenamiento público como semillas.
- Riesgo de que la generación reproduzca sesgos de las semillas; la verificación y diversidad de fuentes ayudan.
- Para entrenamientos comerciales (Nemotron Ultra/Super) se filtró y seleccionó un subconjunto compatible con licencias.
La lección principal es clara: generar más datos no es suficiente. Generar datos con la estructura correcta, con señales de explicación y con suficiente metadato para decisiones de mezcla, ofrece una palanca práctica y escalable para mejorar habilidades de razonamiento y QA en fases tardías de preentrenamiento.
