GR00T N1.7: modelo VLA de IA para robots humanoides | Keryc
GR00T N1.7 es la nueva base abierta y con licencia comercial de NVIDIA para robots humanoides. Es un modelo Vision-Language-Action (VLA) de 3 mil millones de parámetros diseñado para traducir imágenes y lenguaje natural en acciones continuas de robots, con foco en tareas multi paso y manipulación dextrous a nivel de dedos. ¿Qué significa eso en la práctica? Que puedes llevarlo a la planta de producción, al banco de ensamblaje o a un laboratorio y esperar un comportamiento más confiable en flujos de trabajo complejos.
Qué es GR00T N1.7 y por qué importa
Modelo open source con licencia comercial, disponible en Hugging Face y GitHub.
Fue preentrenado con la colección EgoScale: 20,854 horas de video egocéntrico humano, lo que amplía enormemente los datos de manipulación respecto a versiones anteriores.
Resultado: mejor dexteridad fuera de la caja y menor necesidad de teleoperación masiva para enseñar comportamientos al robot.
¿La idea intuitiva? Humanos y robots comparten una geometría de interacción: dos manos, vista en primera persona y objetos a manipular. Entrenar en video humano sensorizado ofrece priors de manipulación que escalan sin necesidad de demostrar todo en cada robot físico.
Arquitectura: Action Cascade - dos sistemas que se complementan
GR00T usa una arquitectura llamada Action Cascade, que separa razonamiento de alto nivel y control motor fino en dos sistemas:
System 2 - Vision-Language Model (VLM): un backbone Cosmos-Reason2-2B que procesa tokens de imagen y la instrucción en lenguaje natural. Aquí se hace la descomposición de tareas y el razonamiento multi paso. Piensa en este sistema como el planificador.
System 1 - Diffusion Transformer: un DiT de 32 capas que toma la salida del VLM más el estado proprioceptivo del robot y aplica un proceso de denoising para generar comandos motores continuos en tiempo real. Este es el ejecutor fino, responsable de la precisión en movimientos de múltiples grados de libertad.
Entradas: frames RGB (cualquier resolución) + instrucción en lenguaje + estado proprioceptivo (posiciones articulares, velocidades, poses del efector final).
Salidas: vectores de acción de valor continuo mapeados a los grados de libertad del robot.
Datos y la primera ley de escalado de destreza
El trabajo central detrás de N1.7 es EgoScale: entrenamiento en 20k+ horas de video humano egocéntrico en 20+ categorías de tareas. La contribución clave es la primera ley de escalado de destreza para robots: más datos humanos egocéntricos mejora de forma predecible la capacidad de manipulación fina.
Pasar de 1k a 20k horas más que duplica la tasa promedio de completado de tareas en los benchmarks que evaluaron.
Esto permite que manos con 22 DoF realicen tareas de contacto rico, como ensamblaje de piezas pequeñas o manipulación de objetos frágiles.
En pocas palabras: alimentar al modelo con mucho video humano sensorizado aporta priors motores que antes solo se lograban con teleoperación masiva en robots.
Capacidades y validación en hardware real
GR00T N1.7 fue validado en escenarios de loco-manipulación, manipulación sobre mesa y tareas bimanuales dextras en plataformas como Unitree G1, Bimanual Manipulator YAM y AGIBot Genie 1.
Mejora en razonamiento sobre subtareas y ejecución multi paso.
Manipulación a nivel de dedo para tareas de contacto rico.
Soporta inferencia con pocas etapas de denoising para latencia razonable en bucles de control.
Cómo probarlo y adaptarlo a tu robot
Puedes instalar y lanzar un servidor de políticas desde el repositorio oficial. Un flujo mínimo:
git clone --recurse-submodules https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T
bash scripts/deployment/dgpu/install_deps.sh
source .venv/bin/activate
uv run python gr00t/eval/run_gr00t_server.py \
--embodiment-tag GR1 \
--model-path nvidia/GR00T-N1.7
Ejemplo de consulta desde tu loop de entorno en Python:
from gr00t.policy.server_client import PolicyClient
policy = PolicyClient(host="localhost", port=5555)
obs, info = env.reset()
action, info = policy.get_action(obs)
obs, reward, done, truncated, info = env.step(action)
Para fine-tuning en tu propia plataforma usa el formato LeRobot y el script provisto. Ejemplo de lanzamiento:
Actualizaciones desde N1.6: es un swap directo. Cambia --model-path a nvidia/GR00T-N1.7 y tus configuraciones de embodiment deberían funcionar igual, con mejoras gracias al nuevo backbone VLM y a EgoScale.
Licencia, soporte y hardware
GR00T N1.7 tiene licencia comercial, lo que permite despliegues en producción.
Soportado en plataformas NVIDIA Ampere, Hopper, Lovelace, Blackwell y Jetson.
Si construyes algo con GR00T N1.7, NVIDIA invita a compartirlo con la comunidad.
Este lanzamiento no es solo una mejora de modelo. Es un cambio de escala en cómo transferimos habilidades humanas a robots: más datos humanos egocéntricos, una separación clara entre planificación y ejecución, y herramientas listas para producir en entornos reales. ¿Listo para llevar manipulación dextrous a tu robot?