Rapid-MLX: Inferencia LLM local más rápida en Apple Silicon

apple-silicon local-llm mlx

Desplegar un modelo de lenguaje grande en infraestructura propia siempre ha implicado elegir: privacidad o velocidad. Las APIs en la nube son rápidas, pero ninguna empresa europea quiere enviar contratos, datos de clientes o análisis internos a un endpoint externo que no controla. Las soluciones autoalojadas como Ollama o llama.cpp resuelven el problema de la soberanía de datos, pero históricamente han sido más lentas que sus equivalentes en la nube. Un nuevo proyecto de código abierto quiere romper ese equilibrio: Rapid-MLX ha sido construido desde cero para Apple Silicon y, según su documentación y los benchmarks de la comunidad, es actualmente el motor de inferencia LLM local más rápido disponible para hardware Mac.

Apple Silicon como plataforma de inferencia

Los chips de la serie M de Apple tienen una arquitectura fundamentalmente distinta a los procesadores x86 o las GPUs NVIDIA. En lugar de grupos de memoria separados para CPU y GPU, utilizan Unified Memory (memoria unificada): ambas unidades de cómputo acceden al mismo RAM físico directamente, sin la sobrecarga de copia por el bus PCIe. Para los modelos de lenguaje grande, esto significa que los pesos del modelo residen en el mismo pool de memoria al que acceden simultáneamente la CPU, la GPU y el Neural Engine.

El propio framework MLX de Apple fue diseñado específicamente para esta arquitectura. Utiliza kernels de cómputo Metal nativos optimizados para el bus de memoria unificada. Los motores tradicionales como llama.cpp o el backend estándar de Ollama fueron concebidos para GPUs CUDA o CPUs ARM genéricas. Funcionan en Apple Silicon, pero no hablan el idioma nativo del hardware.

Rapid-MLX parte de MLX de forma nativa: sin capas de adaptación, sin compromisos arquitectónicos.

¿Qué es Rapid-MLX?

Rapid-MLX es un servidor de inferencia de código abierto construido íntegramente sobre el framework MLX y diseñado como sustituto directo de la API de OpenAI. En X, @Raullen lo describió como "the fastest local LLM inference engine on Mac" — construido específicamente para Apple Silicon y testado frente a Ollama, mlx-lm y llama.cpp en 18 modelos.

Según la documentación del proyecto, Rapid-MLX ofrece:

  • Rendimiento 4,2× superior a Ollama (backend llama.cpp) en un M3 Ultra, medido en

varios modelos

  • TTFT cacheado de 0,08 s — tiempo hasta el primer token con prompt en caché, decisivo para

aplicaciones interactivas

  • 17 parsers de herramientas para tool calling estructurado en tiempo real
  • Caché de prompts y separación de razonamiento para arquitecturas chain-of-thought
  • Cloud routing como fallback opcional cuando el modelo local llega al límite de capacidad
  • Compatibilidad completa con la API de OpenAI: endpoint /v1/chat/completions,

autenticación bearer token, respuestas en streaming

Esa compatibilidad con la API de OpenAI tiene valor práctico inmediato. Agentes de codificación como Cursor o Aider, pipelines RAG internos o cualquier cliente LLM ya configurado para endpoints de estilo OpenAI pueden reconfigurarse para apuntar a un servidor Rapid-MLX local sin modificar una sola línea de código de la aplicación.

Números del benchmark y detalles técnicos

Según mediciones reportadas por la comunidad en un Mac Studio M3 Ultra con 256 GB de Unified Memory, se testaron 22 modelos en 6 motores de inferencia distintos. Rapid-MLX ocupó el primer puesto en 16 de los 18 benchmarks evaluados.

Los practicantes reportan tasas de rendimiento en el rango de 60–120 tok/s para modelos de clase 7B y 15–35 tok/s para modelos de clase 70B con Rapid-MLX, frente a los típicos 20–40 tok/s y 5–12 tok/s respectivamente con Ollama en el mismo hardware. Estas cifras proceden de mediciones de la comunidad y varían según la arquitectura del modelo y la longitud del contexto.

El diferenciador técnico clave es la técnica de DeltaNet State Snapshot. Las arquitecturas RNN híbridas como Qwen3.5 DeltaNet no usan un mecanismo de atención clásico; mantienen un vector de estado continuo. Rapid-MLX puede persistir ese estado entre peticiones — en lugar de recalcular el contexto completo en cada turno de la conversación, el motor recarga un snapshot guardado. Esto reduce tanto la latencia como el consumo energético de forma significativa.

Cobertura de modelos

Rapid-MLX es compatible con los modelos más usados en implantaciones de PYMES europeas: Llama 3.3, Qwen2.5, DeepSeek-V3 y sus variantes cuantizadas. En un Mac Studio M3 Ultra con 256 GB de Unified Memory, el proyecto reporta la capacidad de ejecutar modelos de hasta 397 mil millones de parámetros completamente en local — sin conexiones salientes, sin nube.

IA local compatible con RGPD para PYMES

Para las empresas europeas, la ventaja decisiva es la soberanía de datos por arquitectura. Ejecutar Rapid-MLX en un Mac Studio en la propia oficina o sala de servidores significa que ninguna petición sale de la red de la empresa, ningún dato llega a un proveedor externo, y no se necesita ningún contrato de encargo de tratamiento según el Art. 28 del RGPD para la capa de inferencia IA.

Según nuestra interpretación, esto es especialmente relevante para:

  • Despachos de abogados y asesores fiscales que no pueden introducir documentos de clientes

en sistemas externos

  • Centros sanitarios donde los datos de pacientes están bajo protección reforzada según

el Art. 9 del RGPD

  • Empresas industriales que deben mantener en sus instalaciones datos de producción,

archivos de ingeniería o información de la cadena de suministro

  • Entidades financieras que operan bajo MiFID II, DORA u otras regulaciones equivalentes

A diferencia de las garantías de privacidad basadas en contratos de proveedor, el perímetro de datos de un stack local es físico. No puede producirse ninguna fuga accidental a un servidor externo si no se realiza ninguna llamada API externa. Para más información sobre este enfoque arquitectónico, consulta nuestras páginas sobre IA local y soberanía de datos.

Inversión y opciones de financiación

Un Mac Studio M3 Ultra con 192 GB de Unified Memory tiene un precio de lista en el rango de 6.000–8.000 €; la configuración de 256 GB, proporcionalmente más. Frente a los costes recurrentes de las APIs en la nube — que con un uso productivo intensivo pueden superar 500–2.000 € al mes por equipo — una inversión única en hardware suele amortizarse en 12 a 18 meses.

Kit Digital y la implantación de IA local

El programa Kit Digital permite a las PYMES españolas financiar soluciones de inteligencia artificial mediante bonos de digitalización. Según nuestra interpretación de las bases del programa, los servicios de implantación, configuración e integración de soluciones de IA — incluida la puesta en marcha de stacks como Rapid-MLX en infraestructura propia — pueden encuadrar bajo las categorías de «soluciones de inteligencia artificial» o «gestión de procesos y recursos» disponibles en el catálogo de agentes digitalizadores.

El importe del bono varía según el segmento de empresa (Segmento I: 0–3 empleados; Segmento II: 3–9; Segmento III: 10–49), y la elegibilidad concreta de cada servicio depende de la categoría solicitada y del agente digitalizador habilitado. No podemos garantizar la aprobación de ninguna solicitud específica, pero podemos orientarte sobre cómo estructurar el proyecto para maximizar las posibilidades. Más información en nuestra página de Kit Digital.

Primeros pasos

Rapid-MLX requiere macOS en Apple Silicon (se recomienda M2 Pro o superior para uso en producción), Python 3.11+ y los paquetes MLX y Rapid-MLX instalados via pip. Tras la configuración, el endpoint compatible con OpenAI suele estar operativo en menos de una hora.

Para PYMES sin capacidad de ingeniería ML interna, Freshlab estructura todo el proceso: selección de hardware, configuración de modelos, integración con las herramientas existentes y formación del equipo. Nuestro programa de formación prepara a los equipos internos para la operación diaria.

Si quieres un proyecto piloto estructurado antes de comprometerte con un despliegue completo, nuestro formato de proyecto piloto está diseñado exactamente para eso: un alcance definido, un plazo fijo y criterios de éxito claros.


¿Lista tu PYME para IA local a velocidad de nube — sin la nube?<br> Cuéntanos tu caso de uso y te mostramos cómo encaja Rapid-MLX en tu stack: Contacta con nosotros