Ollama + MLX en Apple Silicon: IA local hasta 2× más rápida

30. may 2026 Español 7 min de lectura

ollama mlx apple-silicon

En marzo de 2026, Ollama publicó una actualización que cambia más que cualquier nuevo modelo del último año: desde la versión 0.19, la herramienta de LLM local más utilizada sustituyó su backend llama.cpp Metal por MLX — el framework de machine learning propio de Apple — como motor de inferencia predeterminado en los Macs con Apple Silicon.

El resultado práctico: el mismo Mac Studio o Mac Mini que antes ejecutaba modelos de lenguaje de forma aceptable ahora los ejecuta con tiempos de respuesta comparables a las APIs en la nube. Para pymes que ya han invertido en hardware Apple Silicon, esto es una mejora de rendimiento gratuita que no requiere equipos nuevos.

Qué es MLX y por qué lo cambia todo

MLX fue desarrollado por el equipo de investigación en machine learning de Apple específicamente para aprovechar la arquitectura de memoria unificada de Apple Silicon. En hardware convencional con GPU dedicada, los pesos del modelo deben copiarse de la RAM de la CPU a la VRAM de la GPU antes de cada inferencia — una transferencia que supone una limitación de velocidad.

Apple Silicon no tiene memoria de GPU separada. CPU, GPU y Neural Engine comparten el mismo banco de memoria. MLX está diseñado para esto: accede directamente a todas las unidades de cómputo sin mover datos entre buses. El resultado es menor latencia, mayor rendimiento y mejor aprovechamiento de los núcleos GPU — especialmente visible con modelos grandes y ventanas de contexto largas.

El backend llama.cpp que Ollama utilizaba anteriormente es sólido y multiplataforma, pero no estaba optimizado para la arquitectura específica de Apple. Ese compromiso ya no existe desde la versión 0.19.

Cifras de rendimiento reportadas por la comunidad

Desarrolladores y profesionales han publicado benchmarks que muestran mejoras consistentes:

Mac M4 Max (36–128 GB de memoria unificada)

Qwen 3.5 9B, cuantización 4-bit: ~45–60 tok/s con MLX frente a ~35–50 tok/s con llama.cpp Metal
Qwen 3.5 35B-A3B (MoE): ~70–80 tok/s (MLX) frente a ~45 tok/s (llama.cpp Metal)

Mac M5 Max

Qwen 3.5 35B-A3B: prefill de ~1.150 a ~1.810 tok/s (+57 %), decode de ~58 a ~112 tok/s (+93 %)

Estas cifras provienen de benchmarks de la comunidad y varían según la carga del sistema, el nivel de cuantización y el tamaño del modelo. En M3 Ultra se reportan mejoras en decode del 40–60 %.

Ollama describe en X la actualización como algo que aporta "much faster performance to accelerate demanding work on macOS" — señalando asistentes personales, agentes de código y pipelines RAG como los principales beneficiarios.

Qué hardware se beneficia más

El backend MLX está activo por defecto en todos los Macs con Apple Silicon a partir de Ollama 0.19. No se requiere ninguna configuración adicional. Las mejoras escalan con la memoria unificada disponible:

Hardware	Memoria unificada	Rango de modelos recomendado
Mac Studio M3 Ultra	hasta 192 GB	Modelos 70B, uso continuo cómodo
Mac Studio M4 Max	hasta 128 GB	Modelos 70B, alto tok/s
Mac Mini M4 Pro	24–48 GB	Hasta 14B muy rápido
MacBook Pro M4 Max	36–128 GB	14B–32B según configuración

Para modelos de 70B, 64 GB de memoria unificada es el mínimo práctico. Con 32 GB, los modelos 32B con cuantización 4-bit funcionan a velocidades adecuadas para producción.

Los mejores modelos de código abierto en Apple Silicon (mayo 2026)

Benchmarks de la comunidad señalan tres opciones destacadas:

Llama 4 Scout 17B

El último modelo de código abierto de Meta usa una arquitectura Mixture-of-Experts: en lugar de activar los 17.000 millones de parámetros simultáneamente, selecciona un subconjunto relevante por tarea. Esto reduce significativamente los requisitos de memoria manteniendo una calidad alta. Los profesionales lo recomiendan actualmente como la mejor opción general para Apple Silicon.

ollama pull llama4-scout

Qwen 3 (7B a 32B)

La familia Qwen 3 de Alibaba se reporta como el modelo de código abierto más potente para tareas de código. Qwen 3 14B alcanza ~40–55 tok/s en un Mac Mini M4 Pro con 24 GB — apto para producción en herramientas internas.

ollama pull qwen3:14b

Gemma 3 12B

El Gemma 3 12B de Google es la opción recomendada con 16 GB de RAM. Muestra resultados especialmente buenos en tareas de extracción estructurada y en idiomas europeos, incluido el español — relevante para pymes en España y Latinoamérica.

ollama pull gemma3:12b

Casos de uso prácticos para pymes

Una inferencia más rápida se traduce directamente en mejores experiencias de usuario en flujos de trabajo empresariales.

Asistente de código privado

El desarrollador Anders Brownworth explica en X que Apple Intelligence en Xcode ya admite LLMs locales a través de Ollama: "in Xcode's Apple Intelligence you can add a local LLM using ollama and have private AI coding assistance without an internet connection." Lo mismo aplica a Claude Code y otros agentes de desarrollo: al conectarlos a un endpoint local de Ollama, ningún código fuente ni prompt sale del equipo.

Búsqueda en documentos y RAG

Un sistema RAG local que consulta contratos, procedimientos internos o correos electrónicos responde notablemente más rápido a 60 tok/s que a 40 tok/s, especialmente en documentos que requieren ventanas de contexto grandes. La latencia cae de varios segundos a menos de un segundo.

Asistente interno en la intranet

Open WebUI como alternativa local a ChatGPT sirve a varios usuarios simultáneos con tiempos de espera mucho menores a mayor velocidad de inferencia. La herramienta pasa de parecer lenta a sentirse ágil.

Flujos agénticos

Ollama 0.21 incorpora soporte para Hermes Agent de NousResearch, un agente de autoaprendizaje accesible mediante ollama launch hermes. Los frameworks de agentes locales como LangGraph se benefician directamente del mayor rendimiento al orquestar tareas de varios pasos.

Cumplimiento RGPD: completamente intacto

Las mejoras de velocidad no cambian nada en la arquitectura de datos fundamental: todo el procesamiento permanece en el dispositivo. Los prompts, los resultados intermedios y las respuestas del modelo nunca salen de tu red. Para pymes de la UE, esto significa:

No se requiere contrato de encargo de tratamiento con ningún proveedor de IA
Sin transferencia de datos a terceros países, sin jurisdicción de EE. UU. sobre los datos de la empresa
Sin costes mensuales de API

Según nuestra interpretación de las categorías vigentes del programa Kit Digital, la adquisición de un Mac Studio o Mac Mini para ejecutar IA local puede financiarse parcialmente en el marco de las categorías de «Gestión de procesos» o «Comercio electrónico e inteligencia empresarial», dependiendo del caso de uso específico. Recomendamos consultar directamente con un agente digitalizador acreditado para confirmar la elegibilidad. Freshlab es agente digitalizador y puede asesorarte.

El kAIra Toolkit de Freshlab es totalmente compatible con el stack de Ollama respaldado por MLX. Los proyectos piloto existentes obtienen la mejora de rendimiento con un simple ollama update.

Rapid-MLX: todavía más rápido para usuarios avanzados

Una alternativa de código abierto más reciente, Rapid-MLX, va aún más lejos. El desarrollador Raullen informa en X: "Rapid-MLX is built specifically for Apple Silicon. Tested across 18 models vs Ollama, mlx-lm, llama.cpp — fastest on 16 of them." Utiliza instantáneas de estado DeltaNet para un almacenamiento en caché de múltiples turnos más rápido. Para uso productivo en pymes, Ollama con MLX sigue siendo la opción más madura y estable; Rapid-MLX es más adecuado para desarrolladores que quieren llevar el rendimiento al límite.

Configuración: tres pasos

MLX está activo por defecto desde Ollama 0.19. No se necesita configuración adicional:

Actualizar Ollama: curl -fsSL https://ollama.com/install.sh | sh en macOS, o descargar desde ollama.com
Descargar un modelo: ollama pull qwen3:14b — una opción equilibrada de 14 GB
Prueba: ollama run qwen3:14b "Explica la memoria unificada y MLX en tres frases"

Opcional: desplegar Open WebUI como interfaz de chat para múltiples usuarios. Los equipos que ya trabajan con un stack de Freshlab no necesitan ningún cambio adicional.

Qué significa esto en la práctica

El cambio a MLX no es experimental — es el nuevo estándar de producción en Apple Silicon. Un Mac Studio M3 Ultra o M4 Max con Ollama 0.19+ es hoy un nodo de inferencia de IA de nivel empresarial: sin dependencia de la nube, sin coste por token, completamente conforme con el RGPD, y más rápido que hace seis meses sin ningún cambio de hardware.

¿Quieres saber qué modelos y casos de uso encajan mejor con tu empresa? Contacta con Freshlab — te ayudamos a diseñar el piloto.