Falcon Perception: Transformer early-fusion para visión

Falcon Perception presenta una apuesta clara: un solo Transformer de fusión temprana que procesa imagen y texto en la misma pila para hacer grounding y segmentación de vocabulario abierto. ¿Suena a simplificación arriesgada? Sí, pero los resultados y el diseño muestran por qué esa simplicidad puede ganar en velocidad, claridad y escalabilidad.

Diseño central

La idea es directa y elegante. En lugar de la receta clásica vision encoder + fusion decoder, Falcon Perception usa un Transformer autoregresivo que consume una secuencia unificada de parches de imagen, tokens de texto y tokens de tarea desde la primera capa.

Imagen y texto comparten el mismo espacio de parámetros.
Uso de una máscara de atención híbrida para respetar la estructura distinta de ambos dominios.

La máscara híbrida es clave: los tokens de imagen se atienden bidireccionalmente entre sí para construir contexto visual global. Los tokens de texto y de tarea siguen atención causal respecto a todo lo anterior —incluida la visualidad— para permitir generación autoregresiva de respuestas y listas de instancias.

Nivel	Capacidad	Ejemplo de prompt
L0	Objetos simples	car
L1	Atributos y subtipos	red car
L2	OCR-guided	Diet Coke bottle
L3	Comprensión espacial	car on the left
L4	Relaciones e interacciones	person holding umbrella
Dense	Escenas muy concurridas	cientos de instancias

Capacidad	SAM 3	Falcon Perception	Gap
L0 simple	64.3	65.1	+0.8
L1 atributos	54.4	63.6	+9.2
L2 OCR-guided	24.6	38.0	+13.4
L3 espacial	31.6	53.5	+21.9
L4 relaciones	33.3	49.1	+15.8
Dense	58.4	72.6	+14.2

Diseño central

Interfaz de salida: Chain-of-Perception

Heads y codificación de coordenadas

Datos, preprocesos y curriculum de entrenamiento

PBench: benchmark diagnóstico

Ablaciones y elecciones de diseño

Resultados y comparación con SAM 3

Falcon OCR: OCR compacto y rápido

Infraestructura de inferencia

Limitaciones y próximos pasos

Fuente original

¡Mantente al día!

Falcon Perception: Transformer early-fusion para visión