Ollama + MLX Apple Silicon: Lokale KI deutlich schneller

ollama mlx apple-silicon

Seit März 2026 läuft Ollama auf Apple-Silicon-Macs grundlegend anders: Ab Version 0.19 verwendet das meistgenutzte Tool für lokale Sprachmodelle MLX als Inferenz-Backend — statt des bisherigen llama.cpp-Metal-Pfads. Das ist kein Detailupdate. Es ist der größte Performance-Sprung, den Mac-Nutzer seit der Einführung von Apple Silicon für lokale LLMs gesehen haben.

Für KMU, die auf Mac Studio oder Mac Mini setzen, bedeutet das: Dieselbe Hardware kann ab sofort Modelle produktiv betreiben, die bisher zu langsam für den Alltagseinsatz waren.

Was ist MLX — und warum macht es den Unterschied?

MLX ist Apples eigenes Machine-Learning-Framework, entwickelt speziell für die Unified-Memory-Architektur von Apple-Silicon-Chips. Auf klassischer PC-Hardware mit diskreter GPU müssen Modelldaten zwischen CPU-RAM und GPU-VRAM hin- und herkopiert werden — das kostet Zeit und Speicherbandbreite.

Apple Silicon kennt diese Trennung nicht. CPU, GPU und Neural Engine teilen sich denselben Speicherbereich. MLX nutzt genau das: Es kommuniziert direkt mit allen Recheneinheiten, ohne Datentransfer über externe Busse. Das Ergebnis ist geringere Latenz, höherer Durchsatz und bessere Auslastung der GPU-Kerne — insbesondere bei großen Modellen und langen Kontextfenstern.

Das bisherige Backend llama.cpp war auf Apple Silicon ein Kompromiss: plattformübergreifend kompatibel, aber nicht auf Apples Architektur optimiert. Ollama hat diesen Kompromiss mit Version 0.19 beendet.

Konkrete Performance-Zahlen aus der Community

Laut Messungen aus der Entwickler-Community zeigen sich folgende Verbesserungen:

Mac M4 Max (36–128 GB Unified Memory)

  • Qwen 3.5 9B, 4-Bit-Quantisierung: ca. 45–60 tok/s (MLX) gegenüber ca. 35–50 tok/s mit llama.cpp Metal
  • Qwen 3.5 35B-A3B (MoE): ca. 70–80 tok/s (MLX) gegenüber ca. 45 tok/s mit llama.cpp Metal

Mac M5 Max

  • Qwen 3.5 35B-A3B: Prefill-Geschwindigkeit von ca. 1.150 auf ca. 1.810 tok/s (+57 %), Decode von ca. 58 auf ca. 112 tok/s (+93 %)

Diese Zahlen stammen aus Community-Benchmarks und können je nach Systemauslastung, Quantisierungsgrad und Modellgröße variieren. Berichtete Verbesserungen beim Decode liegen auf M3 Ultra ebenfalls im Bereich von 40–60 %.

Ollama schreibt auf X, das Update bringe "much faster performance to accelerate demanding work on macOS" — von persönlichen Assistenten über Coding-Agenten bis zu RAG-Pipelines.

Welche Hardware profitiert am meisten?

Das MLX-Backend ist ab Ollama 0.19 auf allen Apple-Silicon-Macs standardmäßig aktiv, kein manueller Eingriff nötig. Die praktischen Vorteile skalieren mit dem verfügbaren Unified Memory:

Hardware Unified Memory Empfohlene Modellgröße
Mac Studio M3 Ultra bis 192 GB 70B-Modelle, komfortabler Dauerbetrieb
Mac Studio M4 Max bis 128 GB 70B-Modelle, hohe tok/s
Mac Mini M4 Pro 24–48 GB Bis 14B-Modelle sehr schnell
MacBook Pro M4 Max 36–128 GB 14B–32B je nach Ausbau

Für 70B-Modelle bleibt 64 GB Unified Memory die praktische Untergrenze. Bei 32 GB sind 32B-Modelle in 4-Bit-Quantisierung produktionstauglich.

Die besten Open-Source-Modelle auf Apple Silicon (Mai 2026)

Aus laufenden Community-Benchmarks zeichnen sich drei Empfehlungen ab:

Llama 4 Scout 17B

Metas neuestes Open-Source-Modell nutzt eine Mixture-of-Experts-Architektur: Statt alle 17 Milliarden Parameter gleichzeitig zu aktivieren, wählt es je nach Aufgabe nur eine Teilmenge aus. Das senkt den Speicherbedarf erheblich bei vergleichsweise hoher Qualität. Es gilt laut aktuellen Community-Berichten als stärkste Gesamtempfehlung für Apple Silicon.

ollama pull llama4-scout

Qwen 3 (7B bis 32B)

Alibabas Qwen-3-Familie gilt nach Practitioner-Berichten als stärkstes Open-Source-Modell für Code- und Analyse-Aufgaben. Qwen 3 14B läuft auf einem Mac Mini M4 Pro mit 24 GB bei ca. 40–55 tok/s — produktionstauglich für interne Tools.

ollama pull qwen3:14b

Gemma 3 12B

Googles Gemma 3 12B ist die empfohlene Wahl für 16 GB RAM. Es zeigt bei deutschsprachigen Anfragen und strukturierten Extraktionsaufgaben besonders gute Ergebnisse — relevant für KMU in der DACH-Region.

ollama pull gemma3:12b

Praxisanwendungen für KMU

Höhere Inferenzgeschwindigkeit wirkt sich direkt auf den Produktiveinsatz aus.

Coding-Assistent ohne Cloud

Wie der Entwickler Anders Brownworth auf X berichtet, erlaubt Xcode's Apple Intelligence inzwischen lokale Ollama-LLMs: "in Xcode's Apple Intelligence you can add a local LLM using ollama and have private AI coding assistance without an internet connection." Dasselbe gilt für Claude Code, OpenCode und ähnliche Coding-Agenten — alle lassen sich mit einem lokalen Ollama-Endpunkt verbinden, ohne API-Schlüssel, ohne Datenweitergabe.

Dokumenten-Q&A und RAG

Ein lokales RAG-System auf Verträgen, SOPs oder internen E-Mails reagiert bei 60 statt 40 tok/s spürbar flüssiger — besonders bei langen Dokumenten mit großem Kontextfenster. Die Wartezeit sinkt von mehreren Sekunden auf unter eine Sekunde.

Interne Assistenten im Intranet

Open WebUI als ChatGPT-Alternative im Unternehmensnetz profitiert direkt: Mehrere Nutzer, die gleichzeitig anfragen, erhalten bei höherer Inferenzrate deutlich kürzere Antwortzeiten.

Agentenworkflows mit Hermes

Ollama 0.21 unterstützt zusätzlich Hermes Agent von NousResearch — einen selbstverbessernden Agenten, der direkt über ollama launch hermes ausführbar ist. Lokale Agenten-Frameworks wie LangGraph profitieren direkt von der gestiegenen Verarbeitungsgeschwindigkeit.

DSGVO-Vorteil: unverändert vollständig

Mehr Geschwindigkeit ändert nichts an der Grundstruktur: Alle Daten bleiben auf dem Gerät. Prompts, Zwischenergebnisse und Antworten verlassen zu keinem Zeitpunkt das eigene Netzwerk. Für KMU in der EU bedeutet das:

  • Kein Auftragsverarbeitungsvertrag (AVV) mit einem KI-Anbieter erforderlich
  • Kein Drittlandtransfer, keine US-Jurisdiktion über Firmendaten
  • Keine monatlichen API-Kosten

Gemäß unserem Verständnis des aktuellen Förderstands können KMU in Deutschland die Anschaffung geeigneter Apple-Silicon-Hardware unter Umständen über BAFA-Programme zur Digitalisierungsförderung oder KfW-Investitionskredite mitfinanzieren — aktuelle Konditionen sollten direkt bei der jeweiligen Stelle geprüft werden.

Das kAIra Toolkit von Freshlab ist mit dem MLX-basierten Ollama-Stack vollständig kompatibel. Bestehende Pilotprojekte erhalten den Performance-Vorteil durch ein einfaches ollama update.

Rapid-MLX: Noch mehr Speed für Fortgeschrittene

Wer noch höhere Inferenzraten benötigt, findet in Rapid-MLX eine Open-Source-Alternative. Der Entwickler Raullen berichtet auf X: "Rapid-MLX is built specifically for Apple Silicon. Tested across 18 models vs Ollama, mlx-lm, llama.cpp — fastest on 16 of them." Das Framework nutzt DeltaNet-State-Snapshots für schnelleres Multi-Turn-Caching. Für KMU-Einsatz ist der Reifegrad von Ollama mit MLX derzeit die sicherere Wahl; Rapid-MLX ist eher für experimentierfreudige Entwickler geeignet.

Einrichtung: Drei Schritte zum MLX-Stack

  1. Ollama aktualisieren: curl -fsSL https://ollama.com/install.sh | sh auf macOS bringt die aktuelle Version. MLX ist ab 0.19 automatisch aktiv — kein Flag, keine Konfigurationsdatei.
  2. Modell laden: ollama pull qwen3:14b für einen guten Einstieg (14 GB, starke Allround-Performance)
  3. Test: ollama run qwen3:14b "Erkläre MLX und Unified Memory in drei Sätzen"

Optional: Open WebUI als Chat-Oberfläche für mehrere Nutzer. Wer auf einen bestehenden Freshlab-Stack aufbaut, braucht keine weiteren Änderungen.

Zusammenfassung

Ollama auf MLX ist kein experimentelles Feature — es ist der neue Standard auf Apple Silicon. Wer heute einen Mac Studio M3 Ultra oder M4 Max betreibt, hat damit eine lokale KI-Infrastruktur, die mit professionellen GPU-Servern mithalten kann: ohne Cloud-Anbindung, ohne laufende Kosten, vollständig DSGVO-konform.

Möchten Sie wissen, welche Modelle und Einsatzszenarien zu Ihrem Unternehmen passen? Sprechen Sie uns an — wir planen Ihren Einstieg in die lokale KI.