Clúster Apple Silicon para IA Local: 100B Parámetros Sin Nube

5. jun 2026 Español 6 min de lectura También en: Deutsch, English

apple-silicon local-llm data-sovereignty

Ejecutar un modelo de lenguaje de 671.000 millones de parámetros en hardware que cuesta menos que un servidor de gama media, y que reside en las propias instalaciones de la empresa, parecía ciencia ficción hace 18 meses. En junio de 2026 es un flujo de trabajo documentado en producción, gracias a una tecnología que Apple distribuyó silenciosamente dentro de macOS Tahoe 26.2.

El cambio de infraestructura: JACCL y RDMA sobre Thunderbolt 5

macOS Tahoe 26.2 incluye JACCL (Joint Apple Compute Cluster Library), el backend distribuido de inferencia de Apple para el framework MLX. JACCL ejecuta operaciones colectivas MLX sobre RDMA (Remote Direct Memory Access) en conexiones Thunderbolt 5, alcanzando 50-60 Gbps de ancho de banda con latencias inferiores a 50 µs entre nodos, según mediciones reportadas por la comunidad.

La consecuencia práctica: dos o más Mac Apple Silicon conectados por Thunderbolt 5 pueden agrupar sus memorias unificadas como un único espacio de direcciones. Un modelo demasiado grande para la RAM de un solo dispositivo se fragmenta automáticamente entre los nodos, con transferencias de pesos a velocidades cercanas a las de la memoria local.

EXO: orquestación open source para clústeres Mac

El proyecto open source EXO (45.200 estrellas en GitHub, versión 1.0.71 a fecha de abril de 2026) pone una interfaz accesible sobre JACCL. EXO descubre automáticamente los Mac Apple Silicon en la red local, distribuye los pesos del modelo mediante RDMA y expone un único endpoint de API compatible con el formato Chat de OpenAI, lo que significa que cualquier integración existente basada en el SDK de OpenAI funciona sobre un clúster EXO sin modificaciones.

Los benchmarks documentados en EXO reportan las siguientes ganancias de rendimiento frente a un solo dispositivo:

1,8× de throughput con 2 nodos
3,2× de throughput con 4 nodos
Reducción del 99 % de la latencia entre dispositivos frente a redes TCP estándar

Modelos confirmados en clústeres EXO: DeepSeek v3.1 671B (8 bits), Qwen3-235B (8 bits), Kimi K2, Llama 3.2 (todos los tamaños).

EXO requiere macOS Tahoe 26.2 o superior en cada nodo. Hardware compatible: Mac Mini M4 Pro, Mac Studio M4 Max, MacBook Pro M4 Max y Mac Studio M3 Ultra.

Configuraciones de hardware y costes aproximados

Entrada: 4 × Mac Mini M4 Pro (36 GB), aproximadamente 6.000-8.000 €

Cuatro Mac Mini M4 Pro conectados mediante un hub Thunderbolt 5 agregan 144 GB de memoria unificada y 128 núcleos GPU. Para esta configuración, la comunidad de practitioners reporta:

Qwen3-235B (8 bits): aproximadamente 20-30 tokens/segundo en generación
Llama 3.2 70B: aproximadamente 60-80 tokens/segundo, adecuado para aplicaciones de chat en tiempo real

Cada Mac Mini M4 Pro (36 GB) cuesta aproximadamente 1.500-2.000 €, lo que sitúa un clúster de cuatro nodos entre 6.000 y 8.000 €. Según experiencias de practitioners, para equipos de tamaño medio el retorno frente a costes de API en la nube se sitúa en 12-24 meses, dependiendo del volumen de uso.

Escala: 4 × Mac Studio M3 Ultra, aproximadamente 40.000-50.000 €

Cuatro Mac Studio M3 Ultra agregan aproximadamente 1,5 TB de memoria unificada. La comunidad reporta que esta configuración ejecuta DeepSeek v3.1 671B en cuantización de 8 bits a aproximadamente 25 tokens/segundo, más lento que un clúster NVIDIA H100, pero completamente on-premise a aproximadamente el 5 % del coste de hardware GPU equivalente.

Financiación: qué pueden explorar las pymes españolas

Según nuestra interpretación, las pymes españolas pueden explorar vías de financiación para inversiones en infraestructura de IA local. El programa Kit Digital, gestionado por Red.es, financia soluciones de inteligencia artificial para empresas de 0 a 49 empleados, incluidas herramientas de IA aplicada. Para hardware de clúster específico, recomendamos consultar con un Agente Digitalizador acreditado para verificar la elegibilidad de cada componente, ya que los criterios se actualizan periódicamente. Más detalles sobre cómo combinar Kit Digital con una implementación de IA local están disponibles en nuestra guía de Kit Digital.

Soberanía del dato como argumento estructural

Para las empresas europeas, el argumento central para un clúster on-premise no es principalmente el coste. Es la soberanía del dato.

Cuando la inferencia corre dentro del clúster propio:

Ningún dato sale de la red. Contratos con clientes, expedientes de personal, modelos financieros, código fuente, nada llega a la infraestructura de un proveedor en la nube.
El cumplimiento del RGPD es estructural. No se depende del acuerdo de tratamiento de datos de un tercero; la empresa controla físicamente el hardware y el perímetro de red.
La Ley de IA de la UE (artículos 13, 26 y 50) se cumple con mayor facilidad cuando se puede demostrar control total sobre el entorno de despliegue del sistema de IA.

Esto es especialmente relevante para sectores regulados, jurídico, servicios financieros, sanidad y manufactura, donde una sola fuga de datos puede tener consecuencias regulatorias desproporcionadas. La Agencia Española de Protección de Datos (AEPD) ha publicado orientaciones sobre los requisitos del RGPD aplicados a sistemas de IA que refuerzan la importancia del control de la infraestructura.

Nuestra visión general de la IA local profundiza en cómo las obligaciones del despliegue bajo la Ley de IA de la UE son más simples de satisfacer con infraestructura propia.

Consideraciones prácticas antes de comprar

Topología de red. JACCL RDMA requiere conexiones directas Thunderbolt 5 o un hub Thunderbolt 5 certificado. El Gigabit Ethernet estándar cae de vuelta a TCP y pierde la ventaja de latencia. Presupueste un hub de calidad si va a conectar más de dos nodos.

Cuantización. DeepSeek 671B y Qwen3-235B corren en estos clústeres con cuantización de 8 bits, que reduce la huella de memoria con una ligera pérdida de precisión. Para los casos de uso empresarial más frecuentes, análisis de documentos, clasificación, resumen, búsqueda interna, generación de código, la diferencia de calidad respecto a la precisión completa es imperceptible según los reportes de practitioners.

Almacenamiento de modelos. Un modelo de 671B en 8 bits ocupa aproximadamente 350-400 GB en disco. EXO admite montajes NFS mediante EXOMODELSREADONLYDIRS, de modo que un único servidor NAS puede servir los pesos del modelo a todos los nodos.

Consumo y refrigeración. Cuatro Mac Mini M4 Pro bajo carga de inferencia sostenida consumen aproximadamente 400-600 W en conjunto, según mediciones de practitioners, dentro del rango de la infraestructura de oficina estándar.

Para quién tiene sentido evaluar esto ahora

El enfoque de clúster Mac se adapta a organizaciones que:

Tratan datos sujetos al RGPD, NDA o requisitos de confidencialidad sectoriales
Necesitan capacidades de razonamiento de modelos frontier más allá de lo que ofrecen los modelos locales de 7B, 14B parámetros
Tienen un horizonte de hardware plurianual que puede amortizar una inversión inicial de 6.000-50.000 €

Para proyectos piloto con datos sensibles o regulados, la simplicidad arquitectónica de un clúster EXO, un endpoint de API, sin credenciales en la nube, sin ruta de salida de datos, lo convierte frecuentemente en la opción más limpia frente a despliegues en nube privada o arquitecturas híbridas.

Si desea evaluar su caso de uso concreto sobre hardware de clúster de referencia antes de comprometerse con una compra, contacte con Freshlab. Podemos ejecutar su caso de uso y ofrecerle una estimación realista de rendimiento y calidad para los modelos que se ajusten a sus datos.