Ajuste de Cosmos Predict 2.5 con LoRA/DoRA para video-robots

NVIDIA publica una guía técnica para adaptar Cosmos Predict 2.5 a tareas concretas de robótica, mostrando cómo usar LoRA y DoRA para generar trayectorias sintéticas de robots sin tener que reentrenar todo el modelo. ¿El objetivo? Crear videos físicamente plausibles condicionados por texto e imágenes y usarlos como datos escalables para entrenar políticas de robots.

Qué anuncia NVIDIA

Cosmos Predict 2.5 es un world model a gran escala que genera videos físicamente consistentes condicionados por texto, imágenes o clips. NVIDIA muestra un pipeline de fine-tuning parametricamente eficiente usando LoRA y DoRA para adaptar el modelo a dominios específicos (por ejemplo, manipulación robótica o vistas de cámara concretas).

La novedad práctica: en lugar de reentrenar los 2B parámetros del modelo (caro y propenso a olvidar conocimiento general), se inyectan adaptadores pequeños y portables que permiten entrenar en una sola GPU potente y luego cambiar adapters según la tarea.

Qué anuncia NVIDIA

Por qué esto es útil para robótica

Cómo implementan LoRA y DoRA en Cosmos Predict 2.5

Datos y pipeline de entrenamiento

Algoritmo de entrenamiento y pérdida

Comandos, hardware y checkpoints

Evaluación: métricas y juez LLM

Resultados y lecciones prácticas

Conclusión

Fuente original

¡Mantente al día!

Ajuste de Cosmos Predict 2.5 con LoRA/DoRA para video-robots