Estado del open source en Hugging Face: Primavera 2026 | Keryc
Hugging Face publica una radiografía clara de cómo cambió el ecosistema open source en el último año. ¿Qué creció, quién manda, y por qué importa para ti como desarrollador, investigador o emprendedor? Aquí te lo explico en lenguaje claro y con la mirada técnica que necesitas.
Crecimiento y participación: comunidad activa, no solo consumo
La plataforma casi duplica usuarios y artefactos: 11 millones de usuarios, más de 2 millones de modelos públicos y sobre 500 mil datasets. Eso no es solo fama; es participación real. Cada vez más gente no solo descarga modelos, sino que los modifica: fine-tunes, adapters, benchmarks y aplicaciones.
Datos clave: la mitad de los modelos tienen menos de 200 descargas, mientras que las 200 modelos más populares (0.01% del total) concentran 49.6% de todas las descargas.
¿Significa esto que solo unos pocos importan? No del todo. Surgen comunidades especializadas (por dominio, idioma o tarea) que muestran reutilización sostenida aunque sus números globales parezcan modestos.
Concentración, downstream y valor económico
El patrón se parece al software libre tradicional: el valor que la comunidad genera a partir de artefactos abiertos suele exceder el costo de producirlos. En AI ocurre lo mismo: modelos abiertos se adaptan y especializan en miles de aplicaciones downstream. Eso reduce costos y aumenta flexibilidad frente a sistemas cerrados.
Tanto empresas grandes como startups usan modelos abiertos como componentes por defecto. Más del 30% de Fortune 500 tiene cuentas verificadas en Hugging Face. NVIDIA aparece como un contribuyente fuerte, y firmas como Airbnb incrementaron su compromiso.
Rebalanceo geográfico: China toma la delantera en descargas
Una de las novedades más relevantes: China supera a Estados Unidos en descargas mensuales y en total, representando alrededor del 41% de descargas. Organizaciones chinas han pasado de casi cero a publicar cientos de repositorios en meses.
Ejemplos concretos: tras el efecto viral de DeepSeek R1, Baidu pasó de 0 a +100 releases en 2025; ByteDance y Tencent multiplicaron sus releases por 8 o 9.
Quién construye y quién consume: industria vs independientes
La participación industrial cayó: la parte de la industria en el desarrollo disminuyó de ~70% antes de 2022 a ~37% en 2025. En paralelo, desarrolladores independientes subieron de 17% a 39% de las descargas. Los individuos y pequeños colectivos ahora influyen en qué modelos son prácticos para usuarios finales.
Un dato impresionante: la familia Qwen tiene más de 113000 modelos derivados; si cuentas todos los modelos que la etiquetan, superan los 200000.
Tendencias técnicas: tamaño, adaptaciones y eficiencia
El tamaño medio de los modelos descargados subió de 827M de parámetros en 2023 a 20.8B en 2025, pero la mediana apenas creció (326M a 406M). Eso nos dice que los usuarios avanzados tiran de modelos muy grandes, mientras que el uso práctico sigue dominado por modelos pequeños.
La adopción de quantization y arquitecturas de Mixture-of-Experts empuja el uso de modelos grandes reduciendo costos de inferencia. Además, la diferencia de rendimiento entre modelos gigantes y pequeños se reduce rápido gracias al fine-tuning y adaptaciones específicas a tareas.
La métrica de adopción relativa del ATOM Project muestra que modelos de 1-9B parámetros no están lejos en descarga respecto a los gigantes de >100B, especialmente cuando consideras despliegue en producción y límites de latencia.
Hardware, kernels y despliegue
NVIDIA domina la optimización de modelos, pero el soporte para AMD crece. Hugging Face lanzó el Kernel Hub para correr kernels optimizados tanto para NVIDIA como AMD. En China, los modelos se publican con soporte explícito para chips domésticos y arquitecturas de inferencia de empresas como Alibaba.
Resultado práctico: más modelos son realmente ejecutables en data centers locales o en hardware de edge, reduciendo dependencia de grandes nubes y democratizando despliegues.
Ciclo de vida y ritmo de actualización
El engagement con un modelo tiende a explotar tras el lanzamiento y caer: la duración media de interés es de unas 6 semanas. Por eso las organizaciones que lanzan actualizaciones frecuentes o versiones sucesivas (por ejemplo DeepSeek V3, R1, V3.2) mantienen relevancia.
Si no actualizas, te comen quienes sí lo hacen o quienes publican fine-tunes de nicho.
Comunidades emergentes: robótica y ciencia
Robótica fue la categoría que más creció: datasets pasaron de 1,145 en 2024 a 26,991 en 2025, y hoy es la categoría con más datasets en el Hub. Proyectos como LeRobot y conjuntos como L2D o RoboMIND proveen escalas masivas de trayectorias y tareas reales.
La ciencia también se hizo un espacio: protein folding, dinámica molecular, descubrimiento de fármacos y análisis científico se apoyan cada vez más en modelos y datasets abiertos. Aquí la colaboración comunitaria permite coordinar esfuerzos interdisciplinarios a gran escala.
Implicaciones prácticas para desarrolladores y empresas
Si eres desarrollador: prioriza modelos más pequeños y prácticos para producción, y aprende quantization y estrategias de pruning para bajar latencia.
Si eres investigador: publica artifacts reproducibles; la comunidad los reutiliza y eso acelera impacto.
Si eres empresa: considera mantener pesos abiertos cuando la seguridad y la soberanía lo permitan; te dará flexibilidad y economía.
Observación: la soberanía digital es real. Modelos con pesos abiertos permiten a gobiernos y organizaciones entrenar y auditar en marcos legales locales.
Qué viene en 2026
Competencia por alternativas abiertas a modelos frontales de EE. UU. y China (ejemplos: GPT-OSS, OLMo, Gemma). La pregunta es si podrán alcanzar el momentum de Qwen y DeepSeek.
Más sub-ecosistemas multimodales: robótica, ciencia, agentes y aplicaciones que requieren interoperabilidad entre modelos.
Debate público sobre inversión en infraestructura open: data centers y acceso a compute siguen siendo un cuello de botella para desarrollos a gran escala.
Reflexión final
El open source ya no es solo una opción académica. Es la capa práctica donde se construye, adapta y despliega buena parte de la inteligencia artificial hoy. Si quieres influir en el rumbo de la IA, participar en estos repositorios, crear derivados útiles y optimizar despliegue es la manera más directa.