Project Fetch: Claude Opus 4.7 acelera la robótica

18 jun 2026Keryc Díaz5 minutos

En agosto de 2024 Anthropic hizo algo divertido y revelador: puso a equipos de empleados a trabajar con un robodog para recuperar una pelota de playa. Un equipo usó el modelo Claude; el otro solo internet y su ingenio. Ahora, en la fase dos, volvieron con Claude Opus 4.7 para ver cuánto habían cambiado las cosas. ¿El resultado? Los modelos avanzaron rápido, y las implicaciones son interesantes y prácticas.

Qué hizo el experimento (Phase Two)

La versión original pedía a los participantes que completaran varios pasos: operar el robodog con el controlador del fabricante, conectarse a video y lidar, escribir y ejecutar un programa para control manual, monitorear la trayectoria del robot, detectar la pelota y finalmente lograr la recuperación autónoma.

En la actualización autónoma no pidieron que el modelo usara un controlador físico. En su lugar ejecutaron tres pruebas de Opus 4.7 en Claude Code con adaptive thinking y el parámetro de esfuerzo al máximo. El rol humano quedó limitado a enchufar la laptop, introducir el prompt inicial, aprobar los comandos y permitir que el modelo pase al siguiente paso.

Medición: midieron tiempo transcurrido por objetivo y evaluaron cualitativamente el éxito de cada tarea.

Resultados clave y métricas técnicas

En todas las tareas que completó al menos un equipo humano en la primera fase, Opus 4.7 completó la misma tarea al menos 10 veces más rápido.
Si tomamos las cuatro tareas que completaron ambos equipos humanos en la fase original, Opus 4.7 fue en promedio más de 37 veces más rápido que el equipo sin Claude (Team Claude-less) y más de 18 veces más rápido que el equipo que sí usó Claude.
De manera global, en las tareas que repitieron de 2024 a 2026, Opus 4.7 fue aproximadamente 20 veces más rápido que el equipo humano más veloz.
Produjo casi 10 veces menos volumen de código que Team Claude mientras alcanzaba un nivel de éxito igual o superior en esas tareas.

Estos números no son marketing vacío: son resultado de pruebas repetidas (tres trials) y de fijar la intervención humana al mínimo para aislar la capacidad del modelo.

Qué funcionó bien

Interfaz y descubrimiento: donde los humanos dudaron entre varios enfoques para acceder a los sensores del dog, Opus 4.7 identificó rápido la ruta más efectiva.
Código efectivo a la primera: mucho del código generado por el modelo funcionó en el primer intento, reduciendo iteraciones manuales.
Robustez operativa: a pesar de seleccionar por defecto un algoritmo de detección de objetos desactualizado, el modelo fue capaz de adaptar el flujo y encontrar soluciones efectivas.
Consistencia: baja varianza en tiempos de ejecución entre intentos completados, lo que sugiere que dentro de su "envelope" operativo el comportamiento es confiable.

Limitaciones técnicas — qué no resolvió Claude

Control de lazo cerrado fino: mover la pelota con precisión requiere percepción rápida, estimación del error entre comando y resultado, y ajustes de entradas para corregir la trayectoria. Ahí Opus 4.7 aún lucha: posiciona el robot detrás de la pelota, pero los movimientos son poco controlados para lograr un fetch preciso.
No se evaluaron políticas de actuadores de bajo nivel: diseñar una política de control específica (actuation policy) para estabilizar la interacción física sigue fuera del alcance de estas pruebas.
Dependencia de componentes existentes: el modelo usó algoritmos y APIs disponibles, lo que ayuda en tareas prácticas pero limita su rendimiento si esos componentes son subóptimos.
No se sustituyó totalmente la necesidad de expertos: un investigador con más experiencia en robótica logró programar la recuperación autónoma. Con más tiempo y andamiaje, es plausible que modelos actuales lo reproduzcan, pero aún no es automático.

Por qué esto importa (técnicamente)

Esto muestra una dinámica que hemos visto en software: 1) los modelos dan uplift a no expertos; 2) humanos y modelos colaboran; 3) los modelos terminan ejecutando solos tareas concretas. La novedad es que esta progresión ya aparece en el mundo físico.

Técnicamente, estas mejoras no vinieron de ajustes focalizados en robótica, sino del aumento general de capacidad del modelo (scaling). Eso sugiere que capacidades emergentes para manipulación y uso de herramientas físicas pueden seguir apareciendo sin entrenamiento específico, siempre que haya interfaces software-hardware disponibles.

Decirlo de otro modo: la disponibilidad de APIs, drivers y herramientas de diagnóstico convierte modelos de lenguaje grandes en agentes capaces de orquestar sistemas físicos para tareas delimitadas.

Riesgos, oportunidades y recomendaciones para investigadores

Oportunidades: acelerar prototipos robóticos, reducir tiempos de integración hardware-software, democratizar el acceso a robots para no expertos. Imagina un equipo de mantenimiento usando un modelo para integrar sensores y ejecutar tareas básicas sin un experto en el sitio.
Riesgos: automatización rápida puede escalar vulnerabilidades. Anthropic menciona paralelos con "N-days" en ciberseguridad: automatizar explotación o recon puede ser fácil si se dispone de modelos que encuentren y exploten interfaces.
Recomendaciones prácticas:
- Para equipos de robótica: documenta y estandariza APIs y puntos de instrumentación; los modelos trabajan mejor cuando hay interfaces claras.
- Para evaluadores de seguridad: red-teamear escenarios donde el modelo automatice la interacción con hardware expuesto.
- Para desarrolladores de LLMs: investigar integración de control de lazo cerrado y políticas de actuadores, quizás vía fine-tuning en datos simulador/real y aprendizaje por refuerzo híbrido.

Mirada hacia adelante

Estamos en una era temprana de lo que Anthropic llama "physical agentic AI": modelos que usan herramientas físicas existentes para propósitos concretos. No significa que ya resolvieron toda la robótica; significa que la brecha entre orquestar sistemas y manipularlos finamente se está acortando con rapidez.

Más investigación es necesaria en políticas de bajo nivel, seguridad, y en cómo los modelos pueden diseñar o adaptar hardware para tareas nuevas. Pero cuidado: capacidades que hoy nos ayudan a integrar sensores pueden mañana facilitar automatizaciones que exijan una atención regulatoria y de seguridad más firme.

Fuente original

https://www.anthropic.com/research/project-fetch-phase-two

¡Mantente al día!

Recibe noticias de IA, lanzamientos de herramientas y productos innovadores directo en tu correo. Todo claro y útil.