Ai2 y NSF lanzan infraestructura AI abierta OMAI | Keryc
Ai2 y la NSF ponen en línea una infraestructura de cómputo abierta diseñada para la investigación: no es solo hardware nuevo, es un cambio de modelo. En vez de que horas de GPU alimenten cajas negras propietarias, cada experimento puede convertirse en un artefacto reutilizable: pesos, checkpoints, datos y métodos disponibles para que otros los reproduzcan, extiendan y reutilicen.
Qué es NSF OMAI y por qué importa
NSF OMAI (Open Multimodal AI Infrastructure for Science) es un proyecto financiado por la National Science Foundation junto con inversión de NVIDIA para crear infraestructura de IA plenamente abierta orientada a la ciencia. Ai2 recibió la financiación para desplegar un clúster pensado desde su diseño para maximizar reutilización y transparencia.
¿Por qué es relevante? Porque en investigación reproducibilidad significa poder inspeccionar y reproducir experimentos. En IA eso requiere acceso a pesos, datos, checkpoints y a los procedimientos de entrenamiento; sin eso, estudiar el comportamiento de un modelo se vuelve especulación. NSF OMAI apuesta por lo contrario: que cada GPU hora genere un artefacto que persista y multiplique su impacto.
"NSF OMAI representa una inversión nacional en infraestructura abierta que se transforma en cómputo usable para una comunidad más amplia". — Noah A. Smith, Investigador Principal, NSF OMAI, Ai2
Infraestructura técnica: qué hay debajo del capó
El clúster se construyó sobre sistemas NVIDIA B300 con Blackwell Ultra. Más allá del número de FLOPS, la arquitectura del proyecto prioriza la eficiencia de uso y la compartición: que el recurso se use para entrenamiento a gran escala y para iteración contínua en tareas de lenguaje, multimodal y científicas.
La operación y gestión del clúster se hace en colaboración con Cirrascale Cloud Services, apuntando a un entorno donde cada ejecución genera artefactos descargables: checkpoints, scripts de preprocesamiento, logs y los metadatos necesarios para reproducir experimentos.
Desde un punto de vista técnico esto implica:
Sistemas B300 y Blackwell Ultra optimizados para throughput de entrenamiento.
Flujos de entrenamiento que documentan etapas como pretraining, midtraining, long-context training y ramas de post-training (Instruct, Think, RL Zero).
Publicación de checkpoints y datasets bajo licencias permisivas para facilitar la adopción y la validación independiente.
Qué investigación está habilitando (ejemplos concretos)
Ai2 ya publica resultados que muestran el valor del enfoque abierto:
Molmo 2: la familia multimodal introdujo comprensión de video, apuntado y tracking. Sorprendentemente, un modelo de 8B parámetros superó al Molmo original de 72B en benchmarks clave, acompañando la liberación de nueve nuevos datasets para tareas de video grounding, captioning ultra-denso y QA de video, todos con licencia permisiva.
MolmoPoint: una arquitectura de apuntado que cambia salidas de texto-coordenada por un mecanismo tokenizado de grounding conectado a las características visuales del modelo; esto mejora la precisión en razonamiento espacial.
Olmo Hybrid: combina atención transformadora con capas RNN lineales para igualar rendimiento previo usando significativamente menos datos de entrenamiento, en algunos casos aproximadamente 2x más eficiente.
Agentic AI y meta-RL: experimentos con aprendizaje por refuerzo meta y autorreflexión que permiten a agentes mejorar exploración usando reflexión cross-episodio sin depender solo de señales externas de recompensa.
Estos proyectos no son caprichos aislados; son artefactos reproducibles que otros equipos pueden inspeccionar, adaptar y retomar.
Impacto en eficiencia y retorno de la inversión
Ai2 estima que hasta un 82% del esfuerzo de entrenamiento va a trabajo exploratorio: runs intermedios, pruebas de hyperparámetros, iteraciones que normalmente quedan dentro de una empresa. Si esos runs se publican como artefactos abiertos, cada hora de GPU aporta no a un solo producto final, sino a un cuerpo de trabajo útil para toda la comunidad.
Ese es el multiplicador: reutilización en lugar de repetición. Menos duplicación de experimentos, más velocidad para nuevos proyectos, y mejor evaluación pública de resultados y sesgos.
Acceso, flujo de modelos y reproducibilidad
Ai2 ofrece una "model flow" pública donde puedes seguir cada etapa de modelos como Olmo 3: desde pretraining hasta variantes Instruct, Think y RL Zero. Cada etapa incluye descargas de artefactos, metadatos y documentación para reproducir o continuar el trabajo.
Si eres investigador o ingeniero, esto te permite:
Descargar checkpoints y reanudar entrenamientos.
Reproducir evaluaciones y benchmarks con los mismos datos y parámetros.
Usar los artefactos como base para transfer learning, adaptaciones científicas o trabajos de auditoría.
Riesgos, límites y consideraciones técnicas
Abrir pesos y datos acelera investigación, pero también exige responsabilidad. Publicar checkpoints implica gestionar licencias, documentación de datos y protocolos de seguridad para uso indebido. La comunidad necesita herramientas de gobernanza, evaluaciones de riesgos y mejores prácticas para benchmarking y mitigación de sesgos.
Desde lo técnico, diseñar clústeres para apertura implica también invertir en replicabilidad: trazabilidad de hyperparámetros, logs de experimentos y estándares para metadatos que permitan a terceros entender qué cambió entre runs.
Qué sigue y por qué te debería interesar
NSF OMAI ya está operacional y amplía el ecosistema de IA abierta. Para la ciencia esto significa menos muros entre resultados y reproducibilidad. Para la industria y los emprendedores significa acceso a artefactos de investigación que aceleran prototipos y reducen costos de R&D.
Si te interesa trabajar con estos modelos, revisa la model flow, descarga artefactos y prueba a replicar un experimento: es la forma más directa de entender tanto las oportunidades como los límites de este enfoque abierto.
La apuesta es clara: infraestructura abierta no es solo buenismo académico, es una estrategia para maximizar el impacto científico por hora de GPU.