Open-H-Embodiment crea la base para robótica médica física | Keryc
La robótica en salud ya no puede ser solo visión y etiquetas. Open-H-Embodiment presenta el primer gran conjunto de datos abierto pensado para que los robots hagan, no solo miren: incluye cuerpos robóticos, datos sincronizados de visión-fuerza-kinemática, pares sim-to-real y benchmarks cruzados de embodiment. ¿Por qué esto importa? Porque operar en tejido blando, suturar o manejar un ultrasonido exige control cerrado, dinámica de contacto y razonamiento a largo plazo, no solo segmentación de imágenes.
Qué es Open-H-Embodiment y qué contiene
Open-H-Embodiment es una iniciativa comunitaria con 35 organizaciones (entre ellas Johns Hopkins, Technical University of Munich, NVIDIA, Stanford y varios hospitales y empresas quirúrgicas) que reunió datos para entrenar y evaluar modelos de autonomía física en cirugía y ultrasonido.
Volumen: 778 horas de datos bajo licencia CC-BY-4.0.
Cobertura: simulación, ejercicios de banco (por ejemplo sutura), y procedimientos clínicos reales.
Robots: combina plataformas comerciales (CMR Surgical, Rob Surgical, Tuodao) y de investigación (dVRK, Franka, Kuka).
Objetivo: crear datos que contengan embodiments múltiples, dinámica de contacto y trazas cerradas para facilitar sim-to-real y benchmarks compartidos.
Datos útiles para control cerrado y aprendizaje de políticas: ya no hablamos solo de ver una escena; hablamos de aprender a interactuar con tejido y herramientas en bucles reales.
Modelos y avances técnicos
La publicación viene acompañada de dos modelos open-source post-entrenados sobre el dataset: GR00T-H y Cosmos-H-Surgical-Simulator. Ambos son proyectos técnicos que buscan cerrar la brecha entre simulación y realidad.
GR00T-H: política para tareas quirúrgicas
GR00T-H deriva de la familia Isaac GR00T N de modelos Vision-Language-Action (VLA). Se entrenó con aproximadamente 600 horas del dataset y usa Cosmos Reason 2 2B como backbone VLM.
Diseños clave para lidiar con diversidad de embodiments y hardware especializado:
Unique Embodiment Projectors: cada robot tiene un MLP entrenable que mapea su cinemática a un espacio de acción normalizado compartido.
State Dropout (100%): durante inferencia se cae la entrada propioceptiva para forzar que el modelo aprenda un sesgo por sistema, mejorando robustez real.
Relative EEF Actions: acciones relativas del efector final para sortear inconsistencias cinemáticas entre plataformas.
Metadata en prompts: nombres de instrumentos y mapeos de índices de control se inyectan en el prompt del VLM para contextualizar la tarea.
Un prototipo logró ejecutar una sutura completa en el benchmark SutureBot, un ejemplo explícito de destreza de largo horizonte.
Cosmos-H-Surgical-Simulator: WFM como simulador físico
Cosmos-H-Surgical-Simulator es un World Foundation Model (WFM) afinado desde Cosmos Predict 2.5 2B. Su objetivo: generar video quirúrgico físicamente plausible condicionado en acciones cinemáticas.
Sim-to-real: aprende deformación de tejidos, interacción de herramientas y fenómenos complejos (reflejos, sangre, humo) directamente desde datos.
Eficiencia: 600 rollouts en 40 minutos en el modelo versus aproximadamente 2 días con experimentos de banco reales.
Uso: generación de pares video-acción sintéticos para balancear y aumentar datos poco representados.
Técnica de entrenamiento: fine-tune en 9 embodiments y 32 datasets del Open-H usando 64 GPUs A100 por cerca de 10,000 GPU-horas. El espacio de acción unificado tiene 44 dimensiones.
Por qué esto cambia la conversación técnica
Si trabajas en investigación o producto, estas son las oportunidades concretas:
Benchmarks cross-embodiment facilitan comparar políticas entre robots sin reconstruir todo el pipeline.
Los projectores de embodiment permiten reutilizar una sola política en múltiples plataformas con finas adaptaciones.
Los WFM ofrecen una vía práctica para generar datos sintéticos físicos que aceleran iteraciones en entrenamiento y validación.
Y los desafíos siguen siendo reales: necesitas datos de intención, trazas de tareas anotadas con fallos y resultados para pasar de control perceptual a autonomía basada en razonamiento. Esa es la hoja de ruta para la versión 2: procedimientos largos, explicaciones y planes adaptativos.
Cómo empezar y participar
El esfuerzo es comunitario y abierto. Si quieres reproducir experimentos, probar GR00T-H, generar rollouts con Cosmos-H o contribuir datos anotados, hay repositorios y recursos públicos asociados al proyecto.
Visita el repositorio del proyecto para clonar, descargar el dataset y revisar scripts de entrenamiento y evaluación. La invitación es explícita: sumar datos, anotaciones y benchmarks para construir una base de Physical AI en salud que sea verificable y reutilizable.
La robótica médica entra en una nueva fase: ya no es solo ver y predecir, es hacer con precisión, explicar y adaptarse. Si trabajas en robótica quirúrgica, visión médica o simulación física, esto es un punto de entrada técnico y práctico para reconstruir cómo entrenamos autonomía en entornos frágiles y críticos.