Ollama adopta MLX: el LLM local más rápido en Apple Silicon

ollama mlx apple-silicon

Ollama es la herramienta de referencia para ejecutar modelos de lenguaje grandes de forma local — Llama 3.3, Qwen2.5, Gemma 3, DeepSeek-V3. Hasta hace poco, utilizaba llama.cpp como motor de inferencia principal en todas las plataformas. Ese cambio acaba de llegar: Ollama ha adoptado MLX como su backend primario para Apple Silicon.

El equipo oficial de Ollama anunció en X que "Ollama is now updated to run the fastest on Apple silicon, powered by MLX, Apple's machine learning framework" (Ollama en X). Para cualquier empresa que ejecute modelos locales en un Mac — sea un Mac Mini, un Mac Studio o un MacBook Pro — este es el cambio de arquitectura más relevante en la historia de la herramienta.

Por qué MLX supera a llama.cpp en Apple Silicon

MLX es el framework de aprendizaje automático de código abierto de Apple, diseñado para aprovechar la arquitectura de memoria unificada de los chips de la serie M. En una configuración convencional con GPU NVIDIA, la memoria de la GPU (VRAM) y la RAM del procesador son conjuntos separados: los datos deben copiarse entre ellos. En Apple Silicon, todos los núcleos de cómputo — CPU, GPU y Neural Engine — acceden al mismo bloque de memoria de forma simultánea, sin copias ni latencias adicionales.

Esto es relevante para la inferencia de LLM porque los modelos de tipo transformer están limitados por el ancho de banda de memoria: la velocidad a la que los pesos y activaciones se mueven por la memoria determina cuántos tokens por segundo puede generar el sistema. Al eliminar las copias entre regiones de memoria, MLX elimina un cuello de botella fundamental que llama.cpp, optimizado para compatibilidad multiplataforma, no podía resolver del mismo modo.

El resultado práctico: el mismo hardware Mac ejecuta modelos locales notablemente más rápido tras esta actualización, sin ningún cambio de configuración por parte del usuario.

Velocidades esperadas según la comunidad

Mediciones reportadas por usuarios y desarrolladores en la comunidad de LLM local — no mediciones propias de Freshlab — indican los siguientes rangos de rendimiento con el nuevo backend MLX:

  • Mac Mini M4 Pro (48 GB): modelos 7B (Qwen2.5-7B, Llama 3.2) entre 60 y 90 tok/s
  • Mac Studio M3 Max (96 GB): modelos 13B entre 40 y 60 tok/s; modelos 30B entre 25 y 38 tok/s
  • Mac Studio M3 Ultra (192 GB): modelos 70B (Llama 3.3 70B) entre 20 y 35 tok/s

El rendimiento real depende del nivel de cuantización, el tamaño de la ventana de contexto y la carga concurrente. Lo importante para quienes ya usan Ollama en Apple Silicon: la mejora es automática al actualizar a la última versión. No es necesario cambiar configuraciones ni seleccionar backends manualmente.

Agentes de código y asistentes locales: los grandes beneficiados

Ollama destacó expresamente los agentes de código como principal beneficiario del cambio a MLX. La razón es directa: un agente de código genera, evalúa e itera sobre fragmentos de código en secuencia rápida. Cada segundo adicional de latencia interrumpe el ritmo de trabajo del desarrollador. Un backend de inferencia más rápido se traduce directamente en un asistente de código más ágil.

Para equipos de desarrollo que manejan código propietario, decisiones de arquitectura o datos regulados — y quieren evitar enviarlos a APIs externas —, ejecutar un agente de código local es la única opción que satisface los requisitos de soberanía de datos. Con el backend MLX de Ollama en un Mac Studio, toda la cadena de inferencia funciona en local: ninguna línea de código, ningún comentario interno, ningún identificador empresarial sale de las instalaciones.

Puede consultar cómo la IA local se integra en flujos de trabajo de equipo mientras cumple el RGPD en nuestra página de referencia.

Clústeres de Mac: la arquitectura emergente

En la comunidad de desarrolladores está ganando tracción la idea de ejecutar varios Mac Mini M4 o Mac Studio como clúster de inferencia distribuida. Desarrolladores en X exploran este enfoque como extensión natural de la arquitectura de memoria unificada de Apple Silicon, combinada con librerías de clúster basadas en MLX que están madurando.

El argumento teórico es sólido. Dos Mac Studio M3 Ultra, cada uno con 192 GB de memoria unificada, podrían en una configuración distribuida ejecutar modelos de más de 300.000 millones de parámetros — una capacidad que hasta ahora requería aceleradores NVIDIA de grado empresarial a un coste notablemente superior y con un consumo energético mucho mayor.

Esto sigue siendo territorio de experimentación más que infraestructura productiva consolidada. Pero la trayectoria es significativa: la infraestructura de IA local sobre Apple Silicon está escalando en capacidad sin un incremento proporcional de complejidad ni de coste.

RGPD, Ley de IA de la UE y la ventaja on-premise

Para las empresas que operan bajo el RGPD y se preparan para la Ley de IA de la UE, la evolución de Ollama tiene implicaciones prácticas directas. La ventaja fundamental de un despliegue local de LLM es que satisface los requisitos de soberanía de datos por diseño: ningún dato personal, ninguna información empresarial ni ningún dato propietario se transmite a un proveedor externo de inferencia.

Según nuestra interpretación del Artículo 26 de la Ley de IA de la UE, los operadores de sistemas de IA en el ámbito de aplicación tendrán que cumplir obligaciones de documentación y monitorización a partir de agosto de 2026. Un despliegue local de Ollama proporciona a los operadores visibilidad completa y auditable sobre versiones de modelos, parámetros de inferencia y flujos de datos — algo estructuralmente más sencillo de documentar que una dependencia de API en la nube, donde las versiones de modelos y las prácticas de tratamiento de datos pueden cambiar sin previo aviso.

Para una guía práctica sobre cómo estructurar una infraestructura de IA que cumpla el RGPD, visite nuestra página de soberanía de datos. La IA local para empresas ofrece un resumen de los escenarios de uso más comunes en PYMES europeas.

Kit Digital: financiación para el despliegue de IA local

Las PYMES españolas que están evaluando implantar un stack de IA local basado en Ollama disponen de una vía de cofinanciación relevante a través del programa Kit Digital. Según nuestra interpretación de las categorías actuales de la convocatoria, la implantación de soluciones de inteligencia artificial puede encajar en las categorías de "Gestión de procesos y recursos" o "Soluciones de oficina virtual y productividad", dependiendo del caso de uso concreto y de la configuración del proyecto.

El importe máximo elegible varía según el segmento de empresa (segmento I, II o III). Le recomendamos contrastar la elegibilidad con un agente digitalizador acreditado antes de tomar decisiones de compra, ya que los criterios pueden actualizarse. Puede encontrar más información en nuestra página sobre Kit Digital.

Cómo elegir el hardware adecuado en 2026

La actualización MLX de Ollama refuerza Apple Silicon como la plataforma más práctica para el despliegue de LLM local en un contexto de PYME europea. La combinación de eficiencia energética, memoria unificada y ahora un framework de inferencia de primera clase consolida la propuesta de valor. Guía orientativa por nivel de necesidad:

  • Entrada (modelos 7B–13B, usuario individual o pequeño equipo): Mac Mini M4 Pro con 48 GB — cubre la mayoría de casos de uso de PYME con un precio competitivo
  • Nivel medio (modelos 13B–30B, equipo reducido): Mac Studio M3 Max con 96 GB — rendimiento equilibrado y buena relación coste-capacidad
  • Alto rendimiento (modelos 70B, despliegue multiusuario): Mac Studio M3 Ultra con 192 GB — el techo actual de la infraestructura de IA local coste-eficiente

Para flujos de trabajo con dependencias CUDA u otros requisitos que Apple Silicon no cubra, las opciones NVIDIA como el DGX Spark (GB10) siguen siendo relevantes. Pero para stacks puramente basados en Ollama, la actualización MLX hace que Apple Silicon sea la elección más sólida que ha sido hasta la fecha.

Próximos pasos

Si ya utiliza Ollama en Apple Silicon: actualice a la última versión. El backend MLX se activa automáticamente para los modelos compatibles. La actualización lleva minutos; el beneficio es inmediato.

Si su empresa está evaluando desplegar IA local por primera vez: el umbral de entrada acaba de bajar. Un Mac Studio moderno con Ollama ejecutando modelos con backend MLX nativo es un stack de IA privada apto para producción, no un proyecto experimental.

Si necesita una evaluación estructurada — qué modelos encajan con sus casos de uso, qué hardware se ajusta a su presupuesto, cómo se integra con sus sistemas actuales —, le acompañamos en un proyecto piloto enfocado. Sin dependencia de la nube, sin lock-in, con control total sobre los datos. Comience en /pilotproject.html.