GR00T N1.7: modelo VLA de IA para robots humanoides

GR00T N1.7 es la nueva base abierta y con licencia comercial de NVIDIA para robots humanoides. Es un modelo Vision-Language-Action (VLA) de 3 mil millones de parámetros diseñado para traducir imágenes y lenguaje natural en acciones continuas de robots, con foco en tareas multi paso y manipulación dextrous a nivel de dedos. ¿Qué significa eso en la práctica? Que puedes llevarlo a la planta de producción, al banco de ensamblaje o a un laboratorio y esperar un comportamiento más confiable en flujos de trabajo complejos.

Qué es GR00T N1.7 y por qué importa

Modelo open source con licencia comercial, disponible en Hugging Face y GitHub.
Fue preentrenado con la colección EgoScale: 20,854 horas de video egocéntrico humano, lo que amplía enormemente los datos de manipulación respecto a versiones anteriores.
Resultado: mejor dexteridad fuera de la caja y menor necesidad de teleoperación masiva para enseñar comportamientos al robot.

¿La idea intuitiva? Humanos y robots comparten una geometría de interacción: dos manos, vista en primera persona y objetos a manipular. Entrenar en video humano sensorizado ofrece priors de manipulación que escalan sin necesidad de demostrar todo en cada robot físico.

Qué es GR00T N1.7 y por qué importa

Arquitectura: Action Cascade - dos sistemas que se complementan

Datos y la primera ley de escalado de destreza

Capacidades y validación en hardware real

Cómo probarlo y adaptarlo a tu robot

Licencia, soporte y hardware

Fuente original

¡Mantente al día!

GR00T N1.7: modelo VLA de IA para robots humanoides