WildDet3D: detección 3D abierta desde una sola imagen

Imagina sacarle una foto a una calle, tocar la imagen y que un sistema te diga no solo "qué" objetos hay, sino exactamente dónde están en el mundo: distancia, tamaño y orientación. Eso es lo que propone WildDet3D, un modelo abierto que hace detección 3D monocular desde una sola imagen y acepta múltiples formas de pedirle lo que buscas.

Qué es WildDet3D y por qué importa

WildDet3D predice 3D bounding boxes en coordenadas métricas a partir de una sola imagen RGB. Puede recibir consultas por nombre de categoría (por ejemplo, "banco"), por punto (tocaste el objeto) o por caja 2D (le das una detección previa y la eleva a 3D). ¿Por qué es relevante? Porque muchas aplicaciones reales necesitan saber dónde están las cosas en el espacio: vehículos autónomos en zonas de construcción, robots en bodegas, apps AR que colocan indicaciones en la calle.

Además, WildDet3D no necesita un tipo específico de cámara: acepta fotos de celular, cámaras gran angular de acción o transmisiones robóticas. Y cuando hay señales geométricas extra (profundidad escasa, LiDAR, TOF), las incorpora para afinar sus predicciones.

Qué es WildDet3D y por qué importa

Arquitectura: simple en bloques, potente en resultados

Los datos detrás: WildDet3D-Data

Rendimiento y transferencia zero-shot (sí, de verdad funciona)

Aplicaciones prácticas, limitaciones y próximos pasos

Fuente original

¡Mantente al día!

WildDet3D: detección 3D abierta desde una sola imagen