Apple Silicon Cluster: 100B lokale LLMs für unter 8.000 € betreiben

apple-silicon local-llm data-sovereignty

Ein 671-Milliarden-Parameter-Sprachmodell auf Hardware laufen zu lassen, die weniger als ein mittelklassiger Server kostet und in den eigenen Serverräumen steht — das klang vor 18 Monaten nach Theorie. Im Juni 2026 ist es ein dokumentierter Produktions-Workflow. Die entscheidende Technologie dafür kam mit macOS Tahoe 26.2.

Was sich mit macOS Tahoe 26.2 geändert hat

macOS Tahoe 26.2 liefert JACCL (Joint Apple Compute Cluster Library), Apples verteiltes Inferenz-Backend für das MLX-Framework. JACCL führt MLX-Kollektivoperationen über RDMA (Remote Direct Memory Access) auf Thunderbolt-5-Verbindungen aus — gemäß Community-Messungen mit 50–60 Gbit/s Bandbreite und unter 50 µs Latenz zwischen den Knoten.

Das praktische Ergebnis: Zwei oder mehr Apple-Silicon-Macs, die über Thunderbolt 5 verbunden sind, können ihre Unified-Memory-Pools zu einem gemeinsamen Adressraum zusammenführen. Ein Modell, das zu groß für den RAM eines einzelnen Geräts ist, wird automatisch auf die Knoten verteilt — und die Gewichtsübertragungen laufen bei nahezu Speichergeschwindigkeit statt über ein herkömmliches Netzwerk.

EXO: Die Open-Source-Schicht für Mac-Cluster

Das Open-Source-Projekt EXO (45.200 GitHub-Sterne, Version 1.0.71, Stand April 2026) baut auf JACCL auf und macht den Cluster nutzbar. EXO erkennt Apple-Silicon-Macs im lokalen Netzwerk automatisch, verteilt Modellgewichte über RDMA und stellt einen einzelnen, OpenAI-kompatiblen Chat-API-Endpunkt bereit — bestehende Integrationen, die das OpenAI-SDK verwenden, laufen ohne Anpassung auf einem EXO-Cluster.

Laut EXO-Dokumentation und Community-Benchmarks ergeben sich folgende Durchsatzgewinne gegenüber einem einzelnen Gerät:

  • 1,8× Durchsatz bei 2 Knoten
  • 3,2× Durchsatz bei 4 Knoten
  • 99 % weniger Latenz zwischen den Geräten gegenüber TCP-basierter Vernetzung

Modelle, die auf EXO-Clustern dokumentiert laufen: DeepSeek v3.1 671B (8-Bit), Qwen3-235B (8-Bit), Kimi K2, Llama 3.2 (alle Größen).

EXO erfordert macOS Tahoe 26.2 oder neuer auf jedem Knoten. Unterstützte Hardware: Mac Mini M4 Pro, Mac Studio M4 Max, MacBook Pro M4 Max und Mac Studio M3 Ultra.

Hardware-Konfigurationen und Kosten

Einstieg: 4 × Mac Mini M4 Pro (36 GB) — circa 6.000–8.000 €

Vier M4-Pro-Mac-Minis, verbunden über einen Thunderbolt-5-Hub, aggregieren 144 GB Unified Memory und 128 GPU-Kerne. Für diese Konfiguration berichten Praktiker in der Community:

  • Qwen3-235B (8-Bit): etwa 20–30 Tokens/Sekunde bei der Generierung
  • Llama 3.2 70B: etwa 60–80 Tokens/Sekunde — ausreichend für Echtzeit-Chat-Anwendungen

Ein M4-Pro-Mac-Mini mit 36 GB kostet je nach Konfiguration circa 1.500–2.000 €, womit ein Vier-Knoten-Cluster im Bereich von 6.000–8.000 € landet. Für KMUs, die aktuell Cloud-API-Kosten zahlen, liegt der Break-even-Zeitraum gemäß Praxiserfahrungen bei 12–24 Monaten — abhängig vom Nutzungsvolumen.

Ausbaustufe: 4 × Mac Studio M3 Ultra — circa 40.000–50.000 €

Vier M3-Ultra-Mac-Studios aggregieren rund 1,5 TB Unified Memory. Community-Praktiker berichten, dass diese Konfiguration DeepSeek v3.1 671B in 8-Bit-Quantisierung mit etwa 25 Tokens/Sekunde ausführt — langsamer als ein NVIDIA-H100-Cluster, aber vollständig on-premise und zu circa 5 % der vergleichbaren GPU-Cluster-Kosten.

Förderung: Was KMUs prüfen sollten

Gemäß unserem Verständnis können Investitionen in digitale Infrastruktur für KMUs in Deutschland über verschiedene Förderprogramme teilfinanziert werden. Das BAFA-Programm „Beratung Mittelstand" (bis zu 80 % Zuschuss zu Beratungskosten) kann die Evaluierungsphase abdecken. Einzelne KfW-Programme für Digitalisierungsinvestitionen können auf Hardware-Cluster anwendbar sein — wir empfehlen, die aktuelle Programmlage direkt beim BAFA bzw. bei der KfW oder einem zugelassenen Berater zu prüfen, da sich Konditionen laufend ändern.

Datensouveränität als strukturelles Argument

Für deutsche Unternehmen ist das zentrale Argument für einen On-Premise-Cluster nicht primär der Kostenvorteil. Es ist die Datensouveränität.

Wenn Inferenz im eigenen Cluster läuft:

  • Kein Datum verlässt das Netzwerk. Kundenverträge, Personalakten, Finanzdaten, Quellcode — nichts davon gelangt in die Infrastruktur eines Cloud-Anbieters.
  • DSGVO-Konformität ist strukturell, nicht nur vertraglich. Sie verlassen sich nicht auf die Auftragsverarbeitungsvereinbarung eines Anbieters; Sie haben physische Kontrolle über Hardware und Netzwerkgrenze.
  • Betriebsgeheimnisse bleiben intern. Für Unternehmen, die proprietäre Verfahren, Kundeninformationen oder juristisch schützenswertes Know-how verarbeiten, schließt ein lokaler Cluster die häufigste Schwachstelle KI-gestützter Prozesse — die Datenübertragung ins Ausland — strukturell aus.

Für den EU-AI-Act-Kontext: Deployer-Verpflichtungen nach Artikel 26 — Dokumentation, Kontrolle, Transparenz gegenüber Nutzern — sind erheblich leichter zu erfüllen, wenn die gesamte Infrastruktur im eigenen Einflussbereich liegt. Eine Übersicht dieser Pflichten findet sich in unserem Leitfaden zur lokalen KI.

Wichtige Setup-Überlegungen

Netzwerktopologie. JACCL-RDMA erfordert Thunderbolt-5-Direktverbindungen oder einen zertifizierten Thunderbolt-5-Hub. Standard-Gigabit-Ethernet fällt auf TCP zurück und verliert den Latenzvorteil. Planen Sie einen hochwertigen Hub ein, wenn Sie mehr als zwei Knoten verbinden.

Quantisierung. DeepSeek 671B und Qwen3-235B laufen auf diesen Clustern mit 8-Bit-Quantisierung, was den Speicherbedarf senkt, aber leichte Präzisionseinbußen mit sich bringt. Für typische KMU-Anwendungen — Dokumentenanalyse, Klassifizierung, Zusammenfassung, interne Suche, Code-Generierung — ist der Qualitätsunterschied gegenüber voller Präzision laut Praxisberichten kaum wahrnehmbar.

Modell-Storage. Ein 671B-Modell in 8-Bit belegt circa 350–400 GB auf dem Datenträger. EXO unterstützt NFS-Mounts über EXOMODELSREADONLYDIRS, sodass ein einzelner NAS-Server die Modellgewichte für alle Knoten bereitstellt.

Strom und Kühlung. Vier M4-Pro-Mac-Minis unter Dauerlast verbrauchen laut Praxismessungen zusammen etwa 400–600 W — ohne Anforderungen, die über normale Büroinfrastruktur hinausgehen.

Für wen lohnt sich die Evaluierung jetzt

Der Mac-Cluster-Ansatz eignet sich für Unternehmen, die:

  • Daten verarbeiten, die DSGVO, NDA oder branchenspezifischen Vertraulichkeitsanforderungen unterliegen
  • Frontier-Modell-Fähigkeiten benötigen, die über das hinausgehen, was kleine 7B–14B-Modelle leisten
  • Einen mehrjährigen Hardware-Horizont haben, der 6.000–50.000 € Vorabinvestition amortisiert

Für Pilotprojekte, die sensible oder regulierte Daten beinhalten, ist die architektonische Einfachheit eines EXO-Clusters — ein API-Endpunkt, keine Cloud-Zugangsdaten, kein Datenaustritt — oft die sauberste Lösung gegenüber Private-Cloud-Deployments oder Hybrid-Architekturen.

Wenn Sie Ihren konkreten Anwendungsfall vor einer Kaufentscheidung gegen Referenz-Cluster-Hardware testen möchten, nehmen Sie Kontakt mit Freshlab auf. Wir können Ihren Use Case durchlaufen lassen und Ihnen eine realistische Einschätzung zu Durchsatz und Qualität für die passenden Modelle geben.