Seit dieser Woche läuft Ollama nativ auf MLX, Apples eigenem Machine-Learning-Framework für Apple Silicon. Das klingt nach einer technischen Randnotiz — ist es nicht. Für KMU, die lokale LLMs ohne Cloud-Abhängigkeit betreiben wollen, ändert sich damit die Rechnung grundlegend.
Was die Änderung konkret bedeutet
Ollama hat sein Backend für macOS auf MLX umgestellt. MLX ist Apples Framework, das speziell für die Unified-Memory-Architektur von M1/M2/M3/M4-Chips optimiert ist — GPU und CPU teilen sich denselben Speicher, ohne Datentransfer zwischen ihnen. Das eliminiert einen der größten Flaschenhälse bei der lokalen LLM-Inferenz.
In der Praxis: Wer bisher mit llama.cpp und GGUF-Quantisierung gearbeitet hat, wird auf Apple Silicon jetzt spürbar höhere Token-Raten sehen. Berichte aus der Community nennen für einen Mac Studio M3 Ultra mit 192 GB RAM 55–65 tok/s bei Gemma 4 27B (Q4-Quantisierung) — je nach Modell und Kontext. Zum Vergleich: Ein einzelner A100 mit 80 GB VRAM schafft in der Cloud bei vergleichbarem Modell etwa 60–80 tok/s, aber zu AWS-Preisen von ca. 3,90 €/Stunde.
Gleichzeitig entsteht ein weiteres natives Tool: Osaurus, ein MLX-only LLM-Server für Apple Silicon, der die OpenAI-API emuliert und vollständig Ollama-kompatibel ist. Das Ökosystem wächst.
Welche Modelle laufen — und wie
Auf einem Mac Studio M3 Ultra (192 GB RAM, ~5.800 €) laufen folgende Modelle produktionstauglich:
- Gemma 4 27B (Q4KM): ~60 tok/s, unsere aktuelle Empfehlung — stark bei Mehrsprachigkeit und Tool-Calling
- DeepSeek-V3 (Q4 quantisiert, ~65 GB): ~28 tok/s, stark bei Code und strukturierter Ausgabe
- Gemma 4 12B: ~90 tok/s, ideal für Mac Mini oder als schnelles Modell für einfache Aufgaben
- DeepSeek R1 70B: ~30 tok/s, reasoning-optimiert, gut für Compliance-Prüfungen
Mit einem Mac Studio M4 Max (128 GB RAM, ~4.500 €) lassen sich bis 70B-Modelle komfortabel betreiben. Für 671B-Modelle wie DeepSeek R1 (volle Parameterzahl) braucht man einen verteilten Cluster — Ronald Mannak und andere experimentieren auf X gerade mit verketteten Mac Minis über das lokale Netzwerk.
Der Setup-Aufwand für eine Einzelmaschine ist mit Ollama jetzt minimal:
brew install ollama
ollama serve
ollama pull gemma4:27b
Open WebUI als Frontend läuft als Docker-Container daneben. Fertig.
Ollama vs. vLLM vs. LM Studio auf Apple Silicon
Wer die Tools vergleicht, stellt fest: Die Wahl hängt vom Use-Case ab.
Ollama ist für Einzelpersonen und kleine Teams ideal — minimaler Setup, HTTP-API out of the box, läuft als Systemdienst. Mit der MLX-Umstellung ist es auf Apple Silicon jetzt klar schneller als bisher.
LM Studio bietet eine Desktop-GUI und unterstützt MLX-Modelle nativ. Für Nutzer ohne Terminal-Affinität der einfachste Einstieg. Nachteil: proprietär, kein Self-Hosting als Service.
vLLM ist auf Linux/NVIDIA optimiert und läuft auf Apple Silicon nur eingeschränkt (über CPU-Pfad). Wer echten Multi-User-Betrieb mit Batching und hohem Durchsatz braucht, fährt mit vLLM auf einer Linux-Maschine mit NVIDIA GPU besser — aber dann ist man wieder in der Cloud-Kostenfalle.
Für europäische KMU, die einen lokalen Server für 10–50 Mitarbeitende betreiben wollen: Ollama auf Mac Studio ist der Sweet Spot. Kein Linux-Admin, kein CUDA-Treiber-Chaos, kein GPU-Server im Serverraum.
Der DSGVO-Vorteil ist nicht optional
Warum lokale Inferenz und nicht einfach OpenAI oder Anthropic? Weil viele Dokumente, die Mitarbeitende in LLMs eingeben, personenbezogene Daten enthalten — Kundenkommunikation, Verträge, HR-Daten. Wer diese Daten an US-Cloud-Anbieter schickt, bewegt sich in einer DSGVO-Grauzone, die spätestens seit dem Schrems-II-Urteil (EuGH 2020) ernst genommen wird.
Art. 44 DSGVO regelt die Übermittlung personenbezogener Daten in Drittländer — und „Drittland" ist die USA, auch mit EU-US Data Privacy Framework. Das Framework steht politisch unter Druck und wurde bereits zweimal gekippt.
Ein lokales Modell auf einem Mac Studio im eigenen Büro überträgt keine Daten. Kein API-Call, kein Telemetrie-Log, keine Frage nach Angemessenheitsbeschlüssen. Das ist Datensouveränität in der Praxis, nicht als Marketingbegriff.
Für Branchen mit erhöhten Anforderungen — Steuerberatung, Medizin, Rechtsanwaltskanzleien, öffentliche Auftraggeber — ist das keine Option, sondern Pflicht.
TCO: Was eine lokale Lösung wirklich kostet
Ein ehrlicher Dreijahresvergleich für 20 Mitarbeitende, die täglich intensiv mit LLMs arbeiten:
| Variante | Jahr 1 | Jahr 2 | Jahr 3 | Gesamt |
|---|---|---|---|---|
| OpenAI GPT-4o API (20 User, ~500k Tokens/Tag) | ~14.400 € | ~14.400 € | ~14.400 € | 43.200 € |
| Anthropic Claude Pro (20 Lizenzen) | ~5.760 € | ~5.760 € | ~5.760 € | 17.280 € |
| Mac Studio M3 Ultra + Strom + Wartung | ~6.500 € | ~800 € | ~800 € | 8.100 € |
Die Hardwarekosten amortisieren sich bei intensiver Nutzung in weniger als einem Jahr. Ab Jahr 2 ist der lokale Stack faktisch kostenlos — abzüglich Strom (ca. 60–80 W Last, ~200 €/Jahr bei deutschen Strompreisen).
Diese Rechnung berücksichtigt noch nicht, dass man mit einem lokalen Modell unbegrenzt prompten kann, ohne auf Token-Limits oder Rate-Limits zu stoßen.
Was das für euren Betrieb bedeutet
MLX macht Apple Silicon zur ernsthaften Produktionsplattform für lokale LLMs. Was vor 12 Monaten noch ein Bastelprojekt war, ist heute eine valide Infrastrukturentscheidung.
Konkret empfehlen wir für KMU diesen Einstieg:
- Pilotphase (4 Wochen): Mac Mini M4 Pro mit 64 GB RAM (~2.200 €), Ollama + Open WebUI, ein konkreter Use-Case (z.B. Dokumentenzusammenfassung)
- Ausbau: Mac Studio M3 Ultra als Team-Server, wenn der Pilot zeigt, dass 3+ Personen täglich nutzen
- Integration: Verbindung bestehender Tools via OpenAI-kompatibler API (Ollama emuliert das Endpoint-Format)
Das Freshlab Pilotprojekt begleitet genau diesen Prozess — von der Modellwahl bis zur internen Rollout-Strategie. Wer wissen will, ob das für den eigenen Betrieb rechnet: Gespräch anfragen.
Weitere Hintergründe zu lokaler KI-Infrastruktur: Unser Leistungsbereich Local AI.