Entrena un modelo text-to-image en 24h con PRX

Volviste justo a tiempo para la parte práctica. ¿Qué pasa si juntas todas las ideas que sí funcionan y las entrenas en 24 horas con un presupuesto ajustado? Eso es exactamente lo que hace este experimento PRX: apilar trucos de arquitectura, pérdidas perceptuales y optimizaciones para obtener un modelo text-to-image útil en un día de cómputo.

El reto: una speedrun de 24 horas

Objetivo claro y realista: entrenar un modelo competible en 24 horas usando 32 H200 con un presupuesto aproximado de 1500 dólares (2 $/hora por GPU). No es investigación puramente teórica: es ingeniería para maximizar rendimiento bajo restricciones fuertes. ¿Qué tan lejos puedes llegar combinando lo que ya funciona? Mucho más de lo que pensarías.

Arquitectura y formulación: pixel-space con `x-prediction`

En lugar de entrenar en latentes y depender de un VAE, usan la formulación x-prediction (Back to Basics: Let Denoising Generative Models Denoise). Eso permite entrenar directamente en píxeles y reaprovechar todo el toolbox clásico de visión computacional.

Grupo	Aplicación	Parámetros clave
Muon	Parámetros 2D (matrices)	lr=1e-4, momentum=0.95, nesterov=true, ns_steps=5
Adam	Parámetros no 2D	lr=1e-4, betas=(0.9, 0.95), eps=1e-8

El reto: una speedrun de 24 horas

Arquitectura y formulación: pixel-space con `x-prediction`

Pérdidas perceptuales: LPIPS y DINOv2

Eficiencia: routing con TREAD y guía para tokens ruteados

Alineamiento de representaciones con REPA y maestro DINOv3

Optimización: Muon + Adam (FSDP)

Datos y agenda de entrenamiento

Resultados y lecciones prácticas

Qué sigue y cómo reproducirlo

Fuente original

¡Mantente al día!

Entrena un modelo text-to-image en 24h con PRX

El reto: una speedrun de 24 horas

Arquitectura y formulación: pixel-space con x-prediction

Pérdidas perceptuales: LPIPS y DINOv2

Eficiencia: routing con TREAD y guía para tokens ruteados

Alineamiento de representaciones con REPA y maestro DINOv3

Optimización: Muon + Adam (FSDP)

Datos y agenda de entrenamiento

Resultados y lecciones prácticas

Qué sigue y cómo reproducirlo

Fuente original

¡Mantente al día!

Arquitectura y formulación: pixel-space con `x-prediction`