Llama 4 Scout local con Ollama: IA multimodal sin nube

llama4 multimodal lokale-ki

Meta publicó en abril de 2026 la familia de modelos Llama 4, marcando un punto de inflexión para las organizaciones que trabajan con IA local. Por primera vez en la línea Llama, los modelos son nativamente multimodales: texto e imágenes van juntos en una sola solicitud, sin necesidad de un endpoint de visión aparte, sin pipeline en la nube y sin modelo adicional.

Llama 4 Scout, la variante diseñada para ejecutarse en una sola máquina de alta memoria, ya está disponible en la librería de Ollama. Este artículo explica qué aporta la arquitectura en la práctica, qué hardware se necesita, cómo hacer la instalación y cómo se compara Scout con las alternativas que ya funcionan en entornos de pymes europeas.

La arquitectura MoE: eficiencia sin sacrificar calidad

Llama 4 utiliza una arquitectura Mixture-of-Experts (MoE). Según la documentación oficial de Meta, Scout tiene 109 mil millones de parámetros en total, pero en cada inferencia solo se activan aproximadamente 17 mil millones. El modelo activa únicamente las subredes de expertos relevantes para cada token, en lugar de ejecutar todos los parámetros a pleno coste computacional en cada solicitud.

Para el despliegue local, esto importa directamente. Un modelo denso convencional de 70B parámetros requiere los 70B activos en cada solicitud. El diseño MoE de Scout permite obtener calidad competitiva con una fracción de la memoria y el coste computacional. El resultado práctico: Scout funciona en hardware que lucharía con un modelo denso de 70B, mientras ofrece resultados que los practicantes reportan como competitivos con modelos considerablemente más pesados.

La ventana de contexto es otra cifra destacable: hasta 10 millones de tokens, según Meta. Para calibrar esa magnitud: un contrato de 300 páginas suele tener menos de 150.000 tokens. Scout puede teóricamente procesar decenas de documentos así en una sola solicitud, lo que cambia cómo pensar las arquitecturas de recuperación de información.

Scout o Maverick: elegir la variante adecuada

Hay dos variantes de Llama 4 disponibles actualmente para despliegue local a través de Ollama.

Llama 4 Scout es la opción práctica para la mayoría de instalaciones en pymes:

  • 17B parámetros activos, 109B en total (MoE)
  • Ventana de contexto: hasta 10 millones de tokens (según documentación de Meta)
  • Memoria necesaria: a partir de 20 GB de VRAM o memoria unificada para variantes cuantizadas; 32 GB+ recomendado para operación multiusuario estable
  • Hardware adecuado: Mac Mini M4 Pro (64 GB), MacBook Pro M4 Max (128 GB), Mac Studio M3 Ultra (192 GB)
  • Multimodal: texto e imágenes de forma nativa, en la misma solicitud

Llama 4 Maverick tiene 400 mil millones de parámetros en total y está pensado para setups multi-GPU o servidores dedicados de IA. Para organizaciones que quieren IA local sin centro de datos, Scout es el punto de partida natural.

Instalación con Ollama: dos comandos hasta el primer resultado

Si Ollama ya está instalado, poner en marcha Llama 4 Scout requiere solo dos comandos:

ollama pull llama4:scout
ollama run llama4:scout

Tanto Scout como Maverick están disponibles en la librería de modelos de Ollama (ollama.com/library/llama4). Una vez en ejecución, el modelo es accesible a través de una API REST local compatible con Open WebUI, Continue.dev y cualquier aplicación que espere un endpoint compatible con OpenAI, lo que cubre la gran mayoría de las herramientas de IA local actuales. Una instalación nueva de Ollama suele tardar unos cinco minutos.

Para Maverick en hardware compatible:

ollama run llama4:maverick

No se necesitan cambios en archivos de configuración más allá de la instalación estándar de Ollama. La capacidad multimodal está integrada en el modelo y disponible de inmediato.

Multimodalidad práctica: qué se puede hacer hoy mismo

La multimodalidad nativa significa que se pasan imagen y texto juntos en la misma solicitud. No hay paso de OCR previo, no hay llamada a un modelo adicional, no hay pipeline que configurar. Para empresas españolas, los casos de uso son directamente aplicables:

  • Procesamiento de facturas: Escanea un albarán y pregunta "Extrae el importe total, la fecha de factura y el IBAN de esta imagen." Scout lo resuelve en una sola llamada
  • Catálogo de productos: Combina fotos del producto con una ficha técnica para generar descripciones consistentes o detectar discrepancias
  • Revisión de contratos: Pasa páginas escaneadas de un contrato directamente; pide resúmenes de cláusulas o señala lenguaje específico
  • Análisis de informes: Introduce un gráfico extraído de un PDF y solicita una interpretación en lenguaje llano

Todo esto corre en tu propio hardware. Ninguna imagen, ningún fragmento de documento ni ningún prompt sale de tu red.

Comparativa: Scout, Gemma 4 y Qwen 2.5VL

Llama 4 Scout no es el único modelo multimodal de peso abierto disponible para despliegue local. Hay dos alternativas ya consolidadas en entornos de pymes europeas.

Gemma 4 27B (Google, abril de 2026) destaca especialmente en tareas de programación y flujos de trabajo agentivos con llamadas a funciones nativas. Los practicantes lo valoran consistentemente para uso estructurado de herramientas. Si tu caso de uso principal es un asistente de código local o un agente que llama APIs y bases de datos, Gemma 4 sigue siendo muy competitivo. Su ventana de contexto es más corta que la de Scout, pero para la mayoría de tareas de documento único raramente es una limitación.

Qwen 2.5VL (Alibaba) es la variante de visión-lenguaje de la línea Qwen 2.5. Mediciones de la comunidad reportan consistentemente una calidad sólida en texto formal en alemán y español, lo que importa para empresas europeas. Para trabajo documental multilingüe en lenguas europeas, Qwen 2.5VL sigue siendo una opción fuerte.

Llama 4 Scout es la elección clara cuando la ventana de contexto de 10 millones de tokens es relevante, cuando se necesita multimodalidad nativa sin configuración adicional, o cuando se busca la amplitud de cobertura lingüística de Meta en una amplia variedad de tareas.

Si estás evaluando qué modelo encaja mejor con tu flujo de trabajo, nuestra página de IA local ofrece un marco práctico para empezar.

RGPD: los datos se quedan en tu empresa

Ejecutar IA local significa soberanía total de los datos. Cuando Llama 4 Scout corre a través de Ollama en tu propio hardware, no existe ninguna llamada API saliente. Las entradas —ya sean contratos de clientes, documentación de RRHH, datos financieros o cualquier categoría de datos personales— permanecen en tu máquina.

El RGPD exige medidas técnicas apropiadas para proteger los datos personales (art. 32). Una pila de inferencia completamente local, donde los datos no pueden abandonar físicamente tus instalaciones, es uno de los controles técnicos más sólidos que puedes implementar. Es más robusto que depender de los compromisos contractuales de un proveedor en la nube, que pueden cambiar con actualizaciones de política, cambios jurisdiccionales o reestructuraciones corporativas.

La Ley de IA de la UE también establece obligaciones para los desplegadores que entran en vigor en agosto de 2026. Una infraestructura local con documentación adecuada del uso del sistema simplifica el cumplimiento de un subconjunto significativo de esas obligaciones.

Kit Digital: financiar la inversión en hardware

El hardware Apple Silicon para IA local es una inversión real. El Kit Digital puede contribuir a reducirla significativamente.

La categoría "Inteligencia Artificial y Analítica" del Kit Digital cubre la adopción de herramientas de IA para pymes con 3 a 49 empleados. Según nuestra interpretación de las bases actuales, la implantación de infraestructura de IA local puede encuadrarse en esta categoría. La elegibilidad concreta depende del contexto de cada empresa y del agente digitalizador. Freshlab es agente adherido al programa — consulta nuestra guía detallada de Kit Digital para los criterios de elegibilidad actuales y los pasos de solicitud.

La combinación de subvención Kit Digital con un piloto de IA local estructura la inversión de forma que el retorno —en horas de trabajo ahorradas, en reducción de errores manuales y en eliminación de costes de API— es mensurable desde las primeras semanas.

Empezar ahora

Llama 4 Scout está disponible hoy con ollama pull llama4:scout en Macs con Apple Silicon: multimodal nativo, sin cuenta en la nube, sin facturación por token. Si quieres evaluar si la IA multimodal local encaja con un flujo de trabajo concreto de tu empresa, estamos listos para acompañarte desde la selección de hardware hasta la integración en producción.

→ Solicitar un proyecto piloto