La transición que comenzó con el "DeepSeek Moment" de enero de 2025 ya no es sólo sobre pesos o benchmarks: es sobre cómo se diseñan sistemas de IA completos cuando la apertura deja de ser una opción y pasa a ser el piso. En este segundo artículo técnico de la serie veremos por qué las elecciones arquitectónicas y de hardware en la comunidad abierta china marcan direcciones distintas y prácticas para investigadores, ingenieros y responsables de política.
Resumen técnico y por qué importa
¿Te interesa construir sistemas que funcionen en el mundo real, no solo en papers? Entonces presta atención: en 2025 la comunidad china priorizó sostenibilidad operativa, flexibilidad de despliegue y coste efectivo por encima de exprimir un punto extra de métrica en pruebas cerradas.
Eso se tradujo en tres tendencias concretas y simultáneas: adopción masiva de MoE (Mixture-of-Experts), proliferación de modelos pequeños (0.5B–30B) como piezas prácticas, y alineación estrecha entre modelos y pilas de inferencia/ hardware doméstico. Estas decisiones son técnicas, pero sobre todo son estratégicas: buscan que la IA sea reproducible, entrenable y desplegable en condiciones reales.
Mixture-of-Experts (MoE): la elección práctica
¿Por qué MoE en vez de solo modelos densos cada vez más grandes? Piensa en MoE como un sistema de distribución de cómputo: mantiene un marco único de capacidad pero activa dinámicamente subsets de "expertos" según la complejidad de la petición. Eso permite:
usabilidad eficiente: no todos los inferences consumen la totalidad de recursos;
adaptación a entornos heterogéneos: no asume hardware idéntico en todos los despliegues;
balance coste-capacidad: grandes modelos MoE actúan como techo de capacidad, mientras que la mayor parte del tráfico puede atenderse con menos expertos.
Técnicamente, MoE introduce retos: gating, balanceo de carga entre expertos, overhead de enrutamiento y variabilidad de latencia. Pero en China se priorizó cómo resolver esos retos operativos (scheduling, capacidad de memoria, cuantización de expertos) para que los modelos fueran aplicables en producción.
Además, muchas organizaciones usaron modelos MoE gigantes (100B–700B) como "teacher models" y destilaron esas capacidades a modelos pequeños más manejables, creando una pirámide práctica: pocos modelos enormes arriba y muchos modelos prácticos abajo.
Modalidad y diversificación: no es sólo texto
Desde febrero de 2025 la actividad abierta dejó de ser mono-modal. Vimos emergen modelos Any-to-Any, text-to-image, image-to-video, text-to-video, TTS, 3D y agentes en paralelo. ¿Qué cambió? No sólo se publicaron pesos, sino toolchains reproducibles: datasets de distilación, pipelines de evaluación, runtimes para edge y coordinaciones edge-to-cloud.
Ejemplos relevantes: StepFun con sus modelos multimodales de alto rendimiento (audio, video e imagen) y Step-Audio-R1.1 que compite con modelos propietarios. Tencent avanzó en video y 3D con Hunyuan Video y Hunyuan 3D. Eso muestra competencia más allá del dominio textual.
Modelos pequeños: la realidad operativa
Los modelos en el rango 0.5B–30B se volvieron la unidad práctica. ¿Por qué? Porque son fáciles de ejecutar localmente, de afinar (fine-tune) y de integrar en sistemas empresariales o agentes. Qwen 1.5-0.5B, por ejemplo, generó muchas derivaciones por esta misma razón: balance entre capacidad y practicidad.
Este enfoque responde a requisitos reales: entornos con límite de cómputo, cumplimiento y privacidad. Las organizaciones grandes siguen usando modelos enormes para investigación y distilación, pero la explotación diaria recae en modelos pequeños o mid-size.
Hardware doméstico y entrenamiento: la nueva normalidad
Uno de los cambios más notables es la entrada de hardware doméstico no solo en inferencia sino en etapas clave de entrenamiento. Señales claras:
Huawei Ascend y Cambricon obtuvieron soporte day-zero para DeepSeek-V3.2-Exp, con pipelines de inferencia reproducibles junto a los pesos.
Ant Group reportó que sus modelos Ling alcanzaron rendimiento cercano al H800 de NVIDIA mediante optimizaciones de entrenamiento en chips domésticos, reduciendo el costo de entrenar 1 trillón de tokens en alrededor de 20%.
Baidu documentó entrenamiento de Qianfan-VL en más de 5,000 aceleradores Kunlun P800 y publicó detalles de paralelización y eficiencia.
Al principio de 2026 Zhipu y China Telecom anunciaron modelos entrenados completamente en chips domésticos. Ese movimiento indica que la cadena de valor de compute en China está madurando: ya no solo inferencia, también entrenamiento a escala.
Infraestructura de inferencia y despliegue
La ingeniería de serving se abrió también. Moonshot AI publicó Mooncake, con soporte para separaciones como prefill/decoding, y Baidu lanzó FastDeploy 2.0 enfatizando cuantización extrema y optimización a nivel de cluster. Alibaba alineó modelo, framework y cloud para reducir la fricción de pasar de investigación a producción.
La lección técnica: entregar pesos ya no basta. Es crucial publicar pipelines reproducibles, formatos de cuantización estándar, runtimes edge y ejemplos de despliegue en hardware objetivo para que otros puedan validar performance real desde el día uno.
Licencias y adopción: Apache 2.0 como norma práctica
Tras DeepSeek R1, la comunidad se movió hacia licencias permisivas. Apache-2.0 se convirtió en la elección por defecto porque reduce fricción legal y técnica para empresas que quieren modificar, integrar y desplegar modelos en producción. Licencias no familiares o muy restrictivas añaden barreras y ralentizan adopción.
Tradeoffs y riesgos técnicos
Latencia y variabilidad en MoE: alta eficiencia promedio, pero mayor complejidad en gestión de cola y latencia p99.
Coste de entrenamiento vs. coste de inferencia: optimizar un techo de capacidad (MoE teacher) y destilarlo es costoso inicialmente pero eficiente a escala.
Dependencia de hardware doméstico: fortalece autonomía, pero la limitada disponibilidad de cómputo reportada en algunos actores puede frenar expansión.
Entregar modelos, infra y documentación reproducible se convierte en ventaja competitiva técnica. No es sólo quién tiene el mejor ROC-AUC, sino quién hace que todo funcione en condiciones reales.
Qué significa esto para tú trabajo como investigador o ingeniero
Si trabajas en producto, prioriza modelos que puedas ejecutar y mantener: empieza por modelos 0.5B–30B y una estrategia de distilación desde un teacher grande si necesitas capacidades superiores.
Si eres investigador, explora MoE pero no ignores la ingeniería de sistema: routing, balanceo, cuantización y pruebas en hardware objetivo son tan importantes como la arquitectura.
Si manejas políticas o compras, valora stacks que incluyan reproducibilidad, licencias permisivas (Apache-2.0) y soporte day-zero en hardware objetivo para reducir riesgo de adopción.
Reflexión final
La historia que sigue en China no es un monólogo técnico sobre rendimiento puro. Es una conversación entre arquitectura, economía del cómputo y operaciones reales. En la práctica, eso significa que las arquitecturas abiertas, la diversificación modal y la integración con hardware doméstico no son solo tácticas locales: son estrategias para que la IA sea utilizable, sostenible y gobernable en el mundo real.