Codex y HF-skills: automatiza entrenamiento de modelos open source | Keryc
Codex ahora puede ejecutar experimentos de entrenamiento de modelos de punta usando el repositorio HF-skills de Hugging Face. ¿Te imaginas delegar la validación de datos, la selección de hardware, el monitoreo y la publicación en el Hub a un agente? Eso es lo que propone esta integración: flujo de trabajo end-to-end reproducible y compatible con agentes como Codex, Claude Code o Gemini CLI.
Qué ofrece la integración HF-skills + Codex
Con HF-skills, un agente de código puede realizar tareas complejas del ciclo de vida ML sin que tengas que teclear cada paso. Entre las posibilidades prácticas están:
Fine-tuning y alignment por RL en modelos de lenguaje.
Revisión y acción sobre métricas de entrenamiento en vivo con Trackio.
Evaluación automática de checkpoints y decisiones basadas en los resultados.
Generación y mantenimiento de reportes de experimentos.
Exportar y cuantizar modelos a GGUF para despliegue local.
Publicar automáticamente modelos al Hub de Hugging Face.
¿Resultado? Menos trabajo manual, menos errores humanos y pipelines reproducibles que puedes auditar.
Cómo funciona: AGENTS.md, MCP y autenticación
HF-skills incluye instrucciones y AGENTS.md que Codex detecta automáticamente. La compatibilidad entre el formato de "skills" y los agentes clave permite usar la misma base con Claude Code o Codex.
Pasos básicos de setup:
Clona el repositorio de skills:
git clone https://github.com/huggingface/skills.git && cd skills
Verifica que Codex cargue las instrucciones:
codex --ask-for-approval never 'Summarize the current instructions.'
Autentica con Hugging Face (necesitas un token con permisos de escritura):
hf auth login
Configura un servidor MCP (Model Context Protocol) para mejorar la integración con el Hub. En ~/.codex/config.toml añade:
Esto permite a Codex orquestar Jobs, accesos a modelos y otras funciones del Hub.
Ejemplo práctico: fine-tune automático para resolver código
Imagina que quieres mejorar las habilidades de un modelo para resolver problemas de programación. Le pides a Codex:
Start a new fine-tuning experiment to improve code solving abilities on using SFT.
Y le indicas el dataset open-r1/codeforces-cots y el benchmark openai_humaneval.
Codex hará lo siguiente de forma automática:
Validar el formato del dataset (evitar fallos por columnas mal nombradas).
Seleccionar hardware apropiado (por ejemplo t4-small para 0.6B).
Generar o actualizar un script de entrenamiento con Trackio para monitoreo.
Enviar el job a Hugging Face Jobs y reportar ID y costo estimado.
Mantener y actualizar un reporte en training_reports/<model>-<dataset>-<method>.md.
Antes de enviar te pedirá confirmación con un resumen del costo, tiempo y salida. ¿Quieres cambiar algo? Puedes.
Reportes y monitoreo (ejemplo de plantilla)
Codex crea un reporte que se va llenando conforme avanza el experimento. Un resumen típico incluye parámetros, estado del run, links a logs y evaluaciones. Por ejemplo, el reporte contendrá:
Base model y Dataset (con enlaces).
Configuración de entrenamiento: método (SFT/TRL), batch, lr, precisión (bf16), checkpointing, etc.
Estado y enlaces a jobs y Trackio.
Tabla comparativa de evaluaciones (HumanEval pass@1, enlaces a logs y modelos).
Esto facilita decisiones automáticas como: si la métrica mejora, desencadena evaluación adicional; si no, reintenta con distinto lr o hardware.
Validación y preprocesamiento de datasets
El fallo más común viene de datasets mal formateados. Codex puede:
Ejecutar una inspección rápida en CPU y marcar compatibilidades (SFT, DPO, etc.).
Preprocesar columnas (por ejemplo transformar messages o generar chosen/rejected).
Sugerir una configuración TRL o un script de preprocesamiento antes de enviar el job.
Esto reduce el tiempo perdido en errores triviales y acelera iteraciones.
Evaluación, conversión y despliegue local
Flujo típico tras el entrenamiento:
Ejecutar lighteval contra benchmarks como HumanEval para comparar con la base.
Trigger de evaluación con comandos HF Jobs, por ejemplo:
hf jobs uv run --flavor a10g-large --timeout 1h --secrets HF_TOKEN -e MODEL_ID=username/model -d /tmp/lighteval_humaneval.py
Convertir y cuantizar a GGUF (por ejemplo Q4_K_M) usando las herramientas incluidas en las skills.
Publicar el artefacto GGUF en el Hub y ejecutar localmente con:
llama-server -hf username/model:Q4_K_M
Si usaste LoRA, Codex puede mergear el adaptador en la base antes de la conversión.
Metodologías soportadas y límites técnicos
La integración no es un demo: soporta métodos usados en producción.
SFT (Supervised Fine-Tuning)
DPO (Direct Preference Optimization)
GRPO (Reinforcement Learning con recompensas verificables)
Rangos prácticos de hardware y costos estimados:
< 1B parámetros: t4-small, experimentos rápidos, $1-2 para runs cortos.
1-3B: t4-medium o a10g-small, $5-15 según duración.
3-7B: a10g-large o a100-large con LoRA, $15-40 para pipelines serios.
7B: actualmente no es el objetivo principal de estas skills.
Codex hace la recomendación automática, pero entender los tradeoffs te ayuda a optimizar presupuesto y latencia.
Recomendaciones prácticas para empezar hoy
Requisitos: cuenta Hugging Face con plan Pro/Team/Enterprise para Jobs, token de escritura y Codex configurado.
Clona https://github.com/huggingface/skills y autentica con hf auth login.
Prueba primero con un run corto (100 ejemplos) para validar pipeline y métricas.
Usa Trackio para visualizar curvas y dejar que Codex actualice el reporte automáticamente.
Si tu objetivo es despliegue local, añade la conversión a GGUF al pipeline.
Reflexión final
Esta integración hace palpable algo que muchos describen como "automatizar ML": no es solo scripting, es orquestar decisiones. ¿Qué gana un equipo? Iteraciones más rápidas, menos fricción en reproducibilidad y la posibilidad de delegar experimentos rutinarios a un agente que documenta todo. ¿Qué pierdes? Control absoluto si no revisas los reportes y parámetros que el agente propone. La buena noticia: Codex te pide aprobación antes de gastar presupuesto.