WildDet3D: detección 3D abierta desde una sola imagen | Keryc
Imagina sacarle una foto a una calle, tocar la imagen y que un sistema te diga no solo "qué" objetos hay, sino exactamente dónde están en el mundo: distancia, tamaño y orientación. Eso es lo que propone WildDet3D, un modelo abierto que hace detección 3D monocular desde una sola imagen y acepta múltiples formas de pedirle lo que buscas.
Qué es WildDet3D y por qué importa
WildDet3D predice 3D bounding boxes en coordenadas métricas a partir de una sola imagen RGB. Puede recibir consultas por nombre de categoría (por ejemplo, "banco"), por punto (tocaste el objeto) o por caja 2D (le das una detección previa y la eleva a 3D). ¿Por qué es relevante? Porque muchas aplicaciones reales necesitan saber dónde están las cosas en el espacio: vehículos autónomos en zonas de construcción, robots en bodegas, apps AR que colocan indicaciones en la calle.
Además, WildDet3D no necesita un tipo específico de cámara: acepta fotos de celular, cámaras gran angular de acción o transmisiones robóticas. Y cuando hay señales geométricas extra (profundidad escasa, LiDAR, TOF), las incorpora para afinar sus predicciones.
Arquitectura: simple en bloques, potente en resultados
El diseño combina tres componentes que corren en paralelo y se fusionan:
Un detector 2D basado en la columna vertebral SAM3 que acepta los tres tipos de prompt (texto, punto, caja).
Un backend de geometría con un encoder DINOv2 congelado y un decodificador de profundidad entrenable que genera características con información geométrica por píxel.
Una cabeza de detección 3D que fusiona las detecciones 2D con las características de profundidad mediante cross-attention para producir cajas 3D con posición, dimensiones y orientación.
Un detalle clave: el backend geométrico es modular. Eso significa que puedes cambiar el modelo de profundidad sin reescribir toda la arquitectura. El decodificador usa además una representación "ray-aware" que incorpora la geometría de cámara mediante codificaciones de armónicos esféricos de las direcciones de rayo, evitando la necesidad de una rama separada de calibración de cámara.
Cuando hay datos de profundidad dispersos en tiempo de inferencia (LiDAR, RGB-D, estéreo), se integran sin cambiar la tubería general, lo que mejora la localización.
Punto práctico: la modularidad facilita experimentos. Si ya tienes un decoder de profundidad mejor, lo conectas y mejoras la precisión sin rehacer el detector.
Los datos detrás: WildDet3D-Data
No solo es modelo; liberan WildDet3D-Data: más de 1 millón de imágenes con 3.7 millones de anotaciones 3D verificadas, cubriendo más de 13,000 categorías y con un núcleo de 100k imágenes anotadas por humanos. Cómo se hizo: generaron candidatos 3D a partir de datasets 2D (COCO, LVIS, Objects365, V3Det) con cinco métodos complementarios, refinaron y filtraron, y usaron VLMs más selección humana para validar. Esa variedad es la que permite generalizar más allá de taxonomías fijas.
Rendimiento y transferencia zero-shot (sí, de verdad funciona)
Evaluaron en múltiples frentes:
Omni3D (6 datasets, 50 categorías): 34.2 AP con prompts de texto (mejora de 5.8 puntos frente a 3D-MOOD), y 36.4 AP con caja oracle, entrenando solo 12 épocas frente a 80-120 de métodos previos.
Con profundidad dispersa en test: sube a 41.6 AP (texto) y 45.8 AP (oracle), con saltos grandes en entornos interiores.
Para probar generalización fuera de Omni3D:
Argoverse 2 (conducción): 40.3 ODS vs 23.8 previo.
ScanNet (interior): 48.9 ODS, ganancia de 17.4 puntos.
Las mejoras son más grandes en categorías nuevas que no estaban en el entrenamiento: por ejemplo, WildDet3D logra 38.6 ODS en categorías nuevas de Argoverse 2 frente a 14.8 del mejor anterior.
En Stereo4D (benchmark con profundidad estéreo real) mostró 7.5 AP sin profundidad; con profundidad sube a 27.7 AP en modo oracle box.
En el benchmark WildDet3D-Bench (700+ categorías): entrenado solo en Omni3D llega a 6.8 AP en modo texto (vs 2.3 del baseline). Con toda la data sube a 22.6 AP, y con profundidad ground-truth alcanza 41.6 AP. En categorías raras el salto es enorme: 47.4 AP vs 2.4 del baseline.
Resumen: mejores representaciones (SAM3, DINOv2) + datos variados = generalización real, con menos entrenamiento.
Aplicaciones prácticas, limitaciones y próximos pasos
Aplicaciones inmediatas:
AR en tiempo real (el equipo liberó una app iOS que usa cámara y LiDAR para superponer cajas 3D).
Robots de almacén que estiman tamaño y orientación de paquetes.
Seguimiento 3D zero-shot: si un tracker produce cajas 2D, WildDet3D las levanta a 3D cuadro por cuadro.
Soporte espacial para wearables (gafas inteligentes) para conciencia persistente del entorno.
Limitaciones a considerar:
El modelo completo aún requiere cómputo servidor-side para rendimiento total; se necesita optimización para ejecución real-time en dispositivo.
Calidad final sigue mejorando con señales de profundidad reales; monocular es sorprendente pero no siempre iguala sensores dedicados.
Como siempre, despliegues en el mundo real deben considerar sesgos de datos y seguridad en escenarios críticos (vehículos, robótica humana).
Próximos pasos razonables: optimizar la latencia para edge, mejorar la eficiencia energética, y explorar integraciones con VLMs para interfaces conversacionales espacialmente conscientes.
La publicación incluye modelo, dataset, demo interactiva y materiales de evaluación abiertos. Eso facilita reproducibilidad y que la comunidad iteré sobre el trabajo.
La pregunta práctica es: qué vas a construir con un modelo que puede ver el mundo en 3D desde una sola imagen. Unos verán mejoras en AR; otros, robots más útiles; alguien podría inventar una aplicación que ni imaginamos hoy.