NVIDIA lanza Cosmos 3, un omni-model abierto pensado para que máquinas entiendan y actúen en el mundo físico. ¿Te imaginas un solo modelo capaz de generar video, razonar sobre física y producir secuencias de acción para robots o autos autónomos? Eso es exactamente lo que intenta resolver Cosmos 3.
Qué trae Cosmos 3
Cosmos 3 llega con varios componentes prácticos para desarrolladores e investigadores: modelos en Hugging Face con sus model cards y licencias, integración con Diffusers para pipelines de generación, scripts de post-training en GitHub y conjuntos de datos sintéticos (SDG) enfocados en IA física. Si trabajas en robótica, conducción autónoma o simulación de espacios inteligentes, esto ya es material de producción.
Capacidades clave
Cosmos 3 es un omni-model: en vez de tener un modelo para generar mundos, otro para entender escenas y otro para políticas, aquí todo está unificado. ¿Qué puedes hacer con un único modelo?
Generar mundos de video realistas y físicamente plausibles a partir de texto, imagen, video o entradas de acción.
Razonar sobre propiedades físicas: movimiento, causalidad y relaciones espaciales.
Predecir secuencias futuras de video y acciones según el estado actual.
Producir políticas y acciones (forward/inverse dynamics) sin cambiar la arquitectura.
Esto abre camino a usar el mismo fundamento para tareas tan distintas como entrenar un robot que pliega ropa, simular escenarios de prueba para un auto autónomo o generar datos sintéticos para seguridad en almacenes.
Arquitectura: Mixture-of-Transformers (MoT)
La gran novedad técnica es la arquitectura Mixture-of-Transformers (MoT). Cosmos 3 procesa texto, imagen, video, audio y acciones dentro de una sola red. Primero cada modalidad pasa por su encoder dedicado: un ViT para visión, VAE para generación visual/audio y vectores específicos para acciones. Luego todo se proyecta a un espacio de representación compartido.
La entrada se divide en dos subsecuencias:
Autoregresiva (AR): maneja razonamiento y comprensión con predicción de siguiente token.
Difusiva (DM): maneja generación mediante denoising iterativo.
AR y DM usan parámetros separados dentro de cada capa transformer pero pueden interactuar vía atención conjunta. Esa interacción permite que el modelo actúe como VLM, generador de video, modelo de dinámica o política sin cambiar la arquitectura.
Detalle técnico útil
Los encoders modales preservan inductivas por dominio antes de proyectar al espacio compartido.
La separación AR/DM mantiene la estabilidad para tareas de reasoning y la flexibilidad para generación estocástica.
El diseño facilita post-training en dominios concretos (por ejemplo, un robot o un entorno de almacén) porque la estructura general no cambia.
Versiones de modelo y despliegue
Este lanzamiento incluye dos tamaños optimizados para distintos usos:
Cosmos 3 Nano: arquitectura 8B (8B reasoner + 8B generator) diseñada para inferencia eficiente. Pensada para ejecutarse en GPUs tipo workstation como RTX PRO 6000. Disponible en Hugging Face como nvidia/Cosmos3-Nano.
Cosmos 3 Super: arquitectura 32B (32B reasoner + 32B generator) orientada a generación de datos sintéticos a gran escala y a investigación. Requiere GPUs de clase datacenter (Hopper y Blackwell). Disponible en Hugging Face como nvidia/Cosmos3-Super.
La recomendación práctica: usa Nano para prototipos y despliegues locales; Super para producción masiva de SDG o experimentos que escalen en rendimiento.
Integración con Diffusers y ejemplo práctico
Cosmos 3 se integra con la biblioteca Diffusers vía Cosmos3OmniPipeline, lo que facilita incorporar los pipelines en proyectos existentes. Aquí tienes un ejemplo de Text-to-Image con Cosmos 3 Nano:
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = (
"A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
"A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
"above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
"A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
"overhead fluorescent lights."
)
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)
Este ejemplo ilustra lo sencillo que puede ser generar un frame o un video y luego integrarlo en un pipeline de simulación o etiquetado sintético.
Datasets para IA física (SDG)
NVIDIA publica varios datasets sintéticos orientados a problemas físicos y de interacción, útiles para post-training o evaluación:
Embodied-Robot-Scenes: datos de simulación robótica.
Physical-Interaction-Scenes: datos de simulación física (Isaac Sim).
Spatial-Reasoning: tareas de razonamiento espacial.
Autonomous-Driving-Scenarios: escenarios de conducción.
Warehouse-Operations-Scenes: operaciones y seguridad en almacenes.
Estos SDG permiten reducir la dependencia de datos reales costosos y acelerar la validación de modelos en colas de edge o centros de datos.
Post-training, Cosmos Framework y agent skills
Aunque Cosmos 3 viene listo para muchas tareas, NVIDIA recomienda post-training para adaptar el modelo a robots concretos, sensores y entornos. En el repositorio encontrarás scripts de post-training y microservicios NIM para producción.
El Cosmos Framework ofrece una pila completa: scripts de inferencia, utilidades de post-training y skills (pequeños agentes) que automatizan pruebas, setups y ejemplos de prompts. Es una buena forma de empezar rápido y evitar tropezones comunes al integrar un WFM (world foundation model).
¿Por qué importa esto ahora?
Porque Cosmos 3 no es solo otro modelo de generación: es un intento de unificar razonamiento físico, generación multimodal y control en un solo backbone. Para desarrolladores significa menos fricción entre módulos, para investigadores más facilidad para experimentar con dinámica y razonamiento físico, y para empresas una ruta más directa a crear simulaciones y datos sintéticos de calidad.
Si estás trabajando en robótica o simulación, plantea esto como una base: prototipa con Nano, escala con Super, y adapta con post-training. No es magia; es ingeniería para hacer que los modelos entiendan movimiento, causa y efecto.
Referencias y recursos
En el blog técnico y el repo encontrarás la documentación completa, la guía de prompts, ejemplos de Text-to-Video e Image-to-Video, y las instrucciones de post-training y despliegue con NIM.