Hugging Face facilita construir y compartir kernels ROCm

Los kernels personalizados son el motor del deep learning rápido: permiten operaciones GPU diseñadas para tu carga de trabajo, desde transformaciones tensoriales hasta multiplicaciones matriciales masivas. ¿El problema? Compilar para la arquitectura correcta, encajar flags, lidiar con errores de compilador y problemas de ABI puede volverse un desastre. Aquí entra Hugging Face con kernel-builder y la librería kernels: reproducibilidad con Nix, soporte para múltiples backends (CUDA, ROCm, Metal, XPU) y una forma ordenada de convertir tu código GPU en un operador nativo de PyTorch.

Qué vas a aprender y por qué importa

En esta guía técnica nos centramos en kernels ROCm. Usamos como ejemplo el kernel GEMM de RadeonFlow_Kernels, ganador del Grand Prize del AMD Developer Challenge 2025, optimizado para la GPU AMD Instinct MI300X y trabajando en formato FP8 e4m3fnuz.

¿Por qué te interesa esto? Porque si haces investigación, desarrollo de aceleradores o infraestructura ML, poder compilar, testear y publicar kernels ROCm reproducibles te ahorra horas —y errores— cuando quieres que otros usen tu trabajo en PyTorch.

Qué vas a aprender y por qué importa

Resumen técnico del kernel GEMM (lo esencial)

Estructura del proyecto que espera kernel-builder

Convenciones de archivos: .h vs .hip

El launcher y el binding: cómo se conectan GPU -> PyTorch

Reproducibilidad con Nix y flake.nix

Compilar, probar y empaquetar

Publicar en el Hub de Hugging Face

Cargar y usar el kernel desde Python

Buenas prácticas y consejos técnicos

Fuente original

¡Mantente al día!

Hugging Face facilita construir y compartir kernels ROCm