Cosmos Reason 2 llega como el siguiente paso para que modelos vision-language (VLM) no solo reconozcan imágenes, sino que realmente piensen sobre el mundo físico: planificar, predecir trayectorias y dar pasos concretos en tareas robóticas y de video analytics. ¿Suena a ciencia ficción? No tanto: NVIDIA lo publica como un modelo abierto pensado para aplicaciones reales, desde analítica de video hasta control robótico.
Qué es Cosmos Reason 2
Cosmos Reason 2 es un modelo abierto de razonamiento vision-language orientado a Physical AI: ver, entender, planear y actuar en el mundo físico. La idea central es cerrar la brecha entre reconocer objetos y razonar sobre ellos en el tiempo: movimientos, fuerzas, incertidumbre y planificación paso a paso.
Piensa en un robot que no solo detecta una caja, sino que estima su trayectoria, decide la mejor forma de tomarla y ajusta el plan si algo cambia. Eso es lo que persigue Cosmos Reason 2.
