La buena noticia: ahora puedes ejecutar un Vision Language Model (VLM) ligero en una laptop o PC con CPU Intel sin necesitar una gran granja de GPUs. ¿Suena bien? En esta guía te explico, paso a paso y sin jerga inaccesible, cómo convertir, cuantizar y ejecutar un VLM usando Optimum Intel y OpenVINO. (huggingface.co)
Qué es esto y por qué debería importarte
Los VLMs son modelos que combinan visión y lenguaje para describir imágenes, generar subtítulos o responder preguntas sobre contenido visual. Ejecutarlos localmente te da dos ventajas claras: tu información queda en tu máquina y la latencia suele ser mucho menor que depender de un servidor remoto. En este caso la receta usa SmolVLM, un modelo pequeño pensado para recursos limitados, junto con Optimum Intel y OpenVINO para optimizar su despliegue. (huggingface.co)
Cómo hacerlo en 3 pasos
La nota central es simple: convertir, cuantizar y ejecutar. Cada paso tiene comandos concretos que puedes copiar y pegar.
