NV-Raw2Insights-US: IA que adapta ultrasonido al paciente | Keryc
La imagen por ultrasonido no es una foto: es sonido reconstruido. ¿Y si en lugar de trabajar sobre la imagen final enseñamos a la IA a escuchar las señales crudas del transductor y entender cómo el cuerpo altera esas ondas? Eso es exactamente lo que propone NV-Raw2Insights-US, una pipeline de reconstrucción basada en modelos que aprende desde la fuente, no desde la versión ya procesada.
Qué es NV-Raw2Insights-US
NV-Raw2Insights-US es un modelo de reconstrucción de ultrasonido que opera directamente sobre los datos de canal crudos del transductor. En vez de aceptar las simplificaciones del pipeline clásico de beamforming, el modelo estima parámetros físicos clave, empezando por la velocidad del sonido en el tejido, para enfocar y corregir la imagen en tiempo real.
¿Por qué importar tanto la velocidad del sonido? Porque los sistemas tradicionales suelen asumir una velocidad constante en todo el cuerpo. Esa suposición introduce errores de enfoque y reduce claridad. Al estimar una mapa personalizado de velocidad de sonido por paciente, NV-Raw2Insights-US adapta la imagen a la física real de cada caso.
Datos crudos y física del sonido
En ultrasonido, lo que llega al sistema son millones de ecos: señales de voltaje en cada canal del arreglo de transductores. El pipeline clásico comprime y transforma esos ecos en una imagen, perdiendo información fina sobre fases, amplitud relativa y dispersión.
NV-Raw2Insights-US trabaja con ese raw channel data. Al aprender del dato original puede explotar información que antes se descartaba: pequeñas variaciones temporales, diferencias de fase entre canales y patrones que reflejan heterogeneidades en el tejido.
Técnicamente, el sistema incorpora ideas de beamforming diferenciable y aprendizaje supervisado para estimar la velocidad de sonido y aplicar correcciones de enfoque en una sola pasada de inferencia. Esto reduce la necesidad de optimizaciones iterativas costosas y abre la puerta a latencias compatibles con uso clínico en tiempo real.
Arquitectura y despliegue: de FPGA a GPU en el borde
La transferencia y procesamiento de datos crudos exige ancho de banda y baja latencia. Aquí entra Holoscan Sensor Bridge (HSB), una IP FPGA open source de NVIDIA que permite transferir datos de alta tasa mediante RDMA sobre Converged Ethernet.
En la demo técnica, un kit Altera Agilex-7 captura la salida DisplayPort de un escáner ACUSON Sequoia y usa una técnica llamada Data over DisplayPort para extraer el raw channel data. HSB paquetiza esa información y la envía por Ethernet a un sistema NVIDIA IGX para su recolección y ejecución de IA.
La inferencia corre sobre GPUs Blackwell-class usando la plataforma Holoscan, pensada para cargas de sensor en tiempo real en dispositivos como NVIDIA IGX Thor y NVIDIA DGX Spark. El flujo es: captura de datos -> streaming a GPU -> inferencia acelerada -> mapa de velocidad del sonido -> retroalimentación al escáner para mejorar enfoque en la imagen en vivo.
Resultados y capacidades técnicas
Estimación de velocidad de sonido por paciente en una sola pasada de IA, reemplazando procedimientos iterativos.
Corrección de enfoque en tiempo real, lo que mejora la nitidez y reduce artefactos introducidos por supuestos físicos incorrectos.
Arquitectura modular que separa captura (FPGA/HSB), transporte (RDMA/Ethernet) y cómputo (GPU/ Holoscan). Esto facilita experimentación y despliegue en distintos entornos clínicos.
La publicación cita trabajos relevantes, incluyendo métodos de beamforming diferenciable y estudios sobre estimación de velocidad de sonido con deep learning, que sirven como respaldo científico para la aproximación.
Implicaciones clínicas y de desarrollo
¿Qué significa esto para médicos, ingenieros y startups? Primero, una ruta práctica hacia la llamada imagenia nativa por IA: en vez de aplicar redes a imágenes ya reconstruidas, se aprende desde la señal primaria, reduciendo errores sistemáticos.
Para desarrolladores, NV-Raw2Insights-US ofrece una plataforma para experimentar con modelos que integren física y aprendizaje profundo. NVIDIA publica recursos para que empieces a trabajar, incluyendo enlaces a repositorios, pesos de modelos y datasets para investigación.
Para la práctica clínica, la mejora en enfoque y contraste puede facilitar tareas como identificación de lesiones pequeñas, guía de procedimientos intervencionistas y evaluación más precisa de estructuras anatómicas. Recuerda que esta tecnología está en desarrollo investigacional y no está aprobada para venta o uso clínico general.
Recursos técnicos y referencias
Artículo relacionado sobre beamforming diferenciable: "Ultrasound Autofocusing: Common Midpoint Phase Error Optimization via Differentiable Beamforming", IEEE Transactions on Medical Imaging, 2026. https://ieeexplore.ieee.org/document/11154013
El proyecto se desarrolló en colaboración con Siemens Healthineers, con contribuciones de Ismayil Guracar y Rickard Loftman. La demostración técnica muestra cómo integrar infraestructura existente (salidas DisplayPort de escáneres clínicos) con cómputo de borde para habilitar pipelines Raw2Insights.
Pensar en ultrasonido como sonido, no como imagen, cambia la forma en que diseñamos modelos. NV-Raw2Insights-US es un primer paso técnico hacia sistemas que entienden la física detrás de la señal y la usan en tiempo real para mejorar decisiones clínicas.