NVIDIA presenta Cosmos 3, omni-model abierto para IA física

31 may 2026Keryc Díaz4 minutos

NVIDIA lanza Cosmos 3, un omni-model abierto pensado para que máquinas entiendan y actúen en el mundo físico. ¿Te imaginas un solo modelo capaz de generar video, razonar sobre física y producir secuencias de acción para robots o autos autónomos? Eso es exactamente lo que intenta resolver Cosmos 3.

Qué trae Cosmos 3

Cosmos 3 llega con varios componentes prácticos para desarrolladores e investigadores: modelos en Hugging Face con sus model cards y licencias, integración con Diffusers para pipelines de generación, scripts de post-training en GitHub y conjuntos de datos sintéticos (SDG) enfocados en IA física. Si trabajas en robótica, conducción autónoma o simulación de espacios inteligentes, esto ya es material de producción.

Capacidades clave

Cosmos 3 es un omni-model: en vez de tener un modelo para generar mundos, otro para entender escenas y otro para políticas, aquí todo está unificado. ¿Qué puedes hacer con un único modelo?

Generar mundos de video realistas y físicamente plausibles a partir de texto, imagen, video o entradas de acción.
Razonar sobre propiedades físicas: movimiento, causalidad y relaciones espaciales.
Predecir secuencias futuras de video y acciones según el estado actual.
Producir políticas y acciones (forward/inverse dynamics) sin cambiar la arquitectura.

Esto abre camino a usar el mismo fundamento para tareas tan distintas como entrenar un robot que pliega ropa, simular escenarios de prueba para un auto autónomo o generar datos sintéticos para seguridad en almacenes.

Arquitectura: Mixture-of-Transformers (MoT)

La gran novedad técnica es la arquitectura Mixture-of-Transformers (MoT). Cosmos 3 procesa texto, imagen, video, audio y acciones dentro de una sola red. Primero cada modalidad pasa por su encoder dedicado: un ViT para visión, VAE para generación visual/audio y vectores específicos para acciones. Luego todo se proyecta a un espacio de representación compartido.

La entrada se divide en dos subsecuencias:

Autoregresiva (AR): maneja razonamiento y comprensión con predicción de siguiente token.
Difusiva (DM): maneja generación mediante denoising iterativo.

AR y DM usan parámetros separados dentro de cada capa transformer pero pueden interactuar vía atención conjunta. Esa interacción permite que el modelo actúe como VLM, generador de video, modelo de dinámica o política sin cambiar la arquitectura.

Detalle técnico útil

Los encoders modales preservan inductivas por dominio antes de proyectar al espacio compartido.
La separación AR/DM mantiene la estabilidad para tareas de reasoning y la flexibilidad para generación estocástica.
El diseño facilita post-training en dominios concretos (por ejemplo, un robot o un entorno de almacén) porque la estructura general no cambia.

Versiones de modelo y despliegue

Este lanzamiento incluye dos tamaños optimizados para distintos usos:

Cosmos 3 Nano: arquitectura 8B (8B reasoner + 8B generator) diseñada para inferencia eficiente. Pensada para ejecutarse en GPUs tipo workstation como RTX PRO 6000. Disponible en Hugging Face como nvidia/Cosmos3-Nano.
Cosmos 3 Super: arquitectura 32B (32B reasoner + 32B generator) orientada a generación de datos sintéticos a gran escala y a investigación. Requiere GPUs de clase datacenter (Hopper y Blackwell). Disponible en Hugging Face como nvidia/Cosmos3-Super.

La recomendación práctica: usa Nano para prototipos y despliegues locales; Super para producción masiva de SDG o experimentos que escalen en rendimiento.

Integración con Diffusers y ejemplo práctico

Cosmos 3 se integra con la biblioteca Diffusers vía Cosmos3OmniPipeline, lo que facilita incorporar los pipelines en proyectos existentes. Aquí tienes un ejemplo de Text-to-Image con Cosmos 3 Nano:

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)

prompt = (
    "A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
    "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
    "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
    "A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
    "overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

Este ejemplo ilustra lo sencillo que puede ser generar un frame o un video y luego integrarlo en un pipeline de simulación o etiquetado sintético.

Datasets para IA física (SDG)

NVIDIA publica varios datasets sintéticos orientados a problemas físicos y de interacción, útiles para post-training o evaluación:

Embodied-Robot-Scenes: datos de simulación robótica.
Physical-Interaction-Scenes: datos de simulación física (Isaac Sim).
Spatial-Reasoning: tareas de razonamiento espacial.
Digital-Human-Scenes: movimiento humano sintético.
Autonomous-Driving-Scenarios: escenarios de conducción.
Warehouse-Operations-Scenes: operaciones y seguridad en almacenes.

Estos SDG permiten reducir la dependencia de datos reales costosos y acelerar la validación de modelos en colas de edge o centros de datos.

Post-training, Cosmos Framework y agent skills

Aunque Cosmos 3 viene listo para muchas tareas, NVIDIA recomienda post-training para adaptar el modelo a robots concretos, sensores y entornos. En el repositorio encontrarás scripts de post-training y microservicios NIM para producción.

El Cosmos Framework ofrece una pila completa: scripts de inferencia, utilidades de post-training y skills (pequeños agentes) que automatizan pruebas, setups y ejemplos de prompts. Es una buena forma de empezar rápido y evitar tropezones comunes al integrar un WFM (world foundation model).

¿Por qué importa esto ahora?

Porque Cosmos 3 no es solo otro modelo de generación: es un intento de unificar razonamiento físico, generación multimodal y control en un solo backbone. Para desarrolladores significa menos fricción entre módulos, para investigadores más facilidad para experimentar con dinámica y razonamiento físico, y para empresas una ruta más directa a crear simulaciones y datos sintéticos de calidad.

Si estás trabajando en robótica o simulación, plantea esto como una base: prototipa con Nano, escala con Super, y adapta con post-training. No es magia; es ingeniería para hacer que los modelos entiendan movimiento, causa y efecto.

Referencias y recursos

En el blog técnico y el repo encontrarás la documentación completa, la guía de prompts, ejemplos de Text-to-Video e Image-to-Video, y las instrucciones de post-training y despliegue con NIM.

Fuente original

https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.