DeepInfra llega a Hugging Face como Inference Provider | Keryc
DeepInfra ya es un Inference Provider soportado en el Hub de Hugging Face. ¿Qué significa eso para ti? Más opciones de inferencia serverless, integración directa en las páginas de modelos y en los SDKs de Hugging Face para Python y JavaScript, todo listo para enchufar modelos a tus apps sin mucho ruido.
Qué trae la integración
DeepInfra es una plataforma de inferencia serverless que promete uno de los precios por token más competitivos del mercado. Su catálogo supera los 100 modelos y cubre desde LLMs hasta tareas de text-to-image, text-to-video y embeddings. En esta fase inicial la integración activa soporte para tareas conversacionales y de generación de texto, incluyendo modelos con peso abierto como DeepSeek V4, Kimi-K2.6 y GLM-5.1.
Esto significa que en las páginas de modelo verás a DeepInfra como una opción compatible, y además puedes seleccionarlo desde los widgets y snippets de código sin configurar infra compleja.
Modos de uso y facturación
Hugging Face ofrece dos modos para llamar a los Inference Providers. ¿Cuál te conviene? Depende de control y facturación:
Custom key: usas la clave del proveedor (por ejemplo tu API key de DeepInfra). Las llamadas van directo al proveedor y te factura el proveedor.
Routed by HF: usas tu token de Hugging Face. La petición se enruta a DeepInfra pero el cobro se aplica a tu cuenta de Hugging Face. No hay markup por parte de HF; actualmente se pasa el coste del proveedor tal cual.
En tu cuenta puedes además:
Configurar claves propias para cada proveedor que uses.
Ordenar los proveedores por preferencia para que el widget y los snippets muestren primero tus favoritos.
SDKs, ejemplos y formato de modelo
La integración ya está disponible a través de los SDKs de Hugging Face: huggingface_hub (>= 1.11.2) para Python y @huggingface/inference para JavaScript. Los modelos se llaman con un sufijo que indica el proveedor, por ejemplo deepseek-ai/DeepSeek-V4-Pro:deepinfra.
Ejemplo en Python (usa tu HF_TOKEN y la petición se enruta a DeepInfra automáticamente):
import os
from openai import OpenAI
client = OpenAI(
base_url="https://router.huggingface.co/v1",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Pro:deepinfra",
messages=[
{
"role": "user",
"content": "Write a Python function that returns the nth Fibonacci number using memoization."
}
],
)
print(completion.choices[0].message)
Ejemplo en JavaScript:
import { OpenAI } from "openai";
const client = new OpenAI({
baseURL: "https://router.huggingface.co/v1",
apiKey: process.env.HF_TOKEN,
});
const chatCompletion = await client.chat.completions.create({
model: "deepseek-ai/DeepSeek-V4-Pro:deepinfra",
messages: [
{
role: "user",
content: "Write a Python function that returns the nth Fibonacci number using memoization.",
},
],
});
console.log(chatCompletion.choices[0].message);
Si en cambio usas la clave directa de DeepInfra, querrás apuntar al endpoint y autenticar con la API key de DeepInfra; en ese caso la factura llega por su cuenta.
Integraciones y ecosistema
Los Inference Providers de Hugging Face están integrados en varios Agent Harnesses, por ejemplo Pi, OpenCode, Hermes Agents y OpenClaw. ¿Qué quiere decir? Que puedes enchufar modelos hospedados en DeepInfra directamente dentro de esos agentes sin escribir glue code adicional.
También puedes revisar la lista completa de modelos soportados por DeepInfra y su documentación dedicada para ver las tareas que ya están disponibles y las que vienen pronto (text-to-image, text-to-video, embeddings, etc.).
Costos, créditos PRO y recomendaciones
Los usuarios PRO de Hugging Face reciben 2 USD en créditos de inferencia cada mes. Esos créditos funcionan con los distintos proveedores.
Hugging Face ofrece una cuota gratuita pequeña para usuarios registrados, pero si necesitas más capacidad o créditos conviene evaluar el plan PRO.
Para controlar costos recomiéndote: usar claves propias si quieres facturación directa al proveedor, ordenar proveedores por preferencia y monitorear el uso por modelo.
Buenas prácticas técnicas
Si buscas máxima transparencia en facturación y límites, usa la custom key del proveedor.
Si prefieres simplicidad y gestionar todo desde Hugging Face, usa el modo routed by HF.
Ten presente la versión mínima del SDK (huggingface_hub >= 1.11.2) al automatizar despliegues.
Cuando pruebes modelos abiertos, confirma el sufijo :deepinfra en el nombre para apuntar a la implementación de DeepInfra.
La noticia es buena para desarrolladores y equipos que quieren alternativas de inferencia serverless con coste por token competitivo. ¿Te interesa probar un flujo de extremo a extremo? Podemos esbozar un script para comparar latencia y costo entre DeepInfra y otros proveedores.