Wer ein Large Language Model in der eigenen Infrastruktur betreiben will, stand lange vor einem Dilemma: Datenschutz oder Geschwindigkeit. Cloud-Modelle sind reaktionsschnell, aber kein europäisches Unternehmen möchte Kundendaten, Vertragsdetails oder interne Analysen über externe API-Endpunkte schicken. Lokale Stacks wie Ollama oder llama.cpp lösen das Datenschutzproblem – erkauft wurde das aber oft mit messbaren Geschwindigkeitseinbußen. Ein neues Open-Source-Projekt will diesen Trade-off auflösen: Rapid-MLX wurde von Grund auf für Apple Silicon entwickelt und behauptet laut seiner Dokumentation, die aktuell schnellste lokale LLM-Inferenz-Engine für Mac-Hardware zu sein.
Apple Silicon als Inferenz-Plattform
Die M-Serie-Chips von Apple unterscheiden sich strukturell von x86-Prozessoren oder NVIDIA-GPUs: Statt separatem CPU- und GPU-Speicher nutzen sie ein Unified-Memory-Modell, bei dem beide Verarbeitungseinheiten auf denselben physischen RAM zugreifen – ohne aufwändige Kopieroperationen über einen PCIe-Bus. Für große Sprachmodelle bedeutet das: Modellgewichte liegen im selben Speicher, auf den CPU, GPU und die Neural Engine direkt zugreifen.
Apples eigenes ML-Framework MLX wurde speziell für diese Architektur entwickelt. Es nutzt native Metal Compute Kernels und ist für den Unified-Memory-Bus optimiert. Klassische Inferenz-Engines wie llama.cpp oder das Standard-Backend von Ollama wurden ursprünglich für CUDA-GPUs oder allgemeine ARM-CPUs konzipiert. Sie laufen auf Apple Silicon, aber sie nutzen das Potenzial der Hardware nicht vollständig aus.
Rapid-MLX setzt hier an: Das Projekt ist von Grund auf für MLX und Apple Silicon entwickelt – kein Portierungslayer, keine Kompromisse bei der Hardware-Ausnutzung.
Was ist Rapid-MLX?
Rapid-MLX ist ein Open-Source-Inferenz-Server, vollständig auf dem MLX-Framework aufgebaut und als direkter Drop-in-Ersatz für die OpenAI-API konzipiert. Auf X schrieb @Raullen: "This might be the fastest local LLM inference engine on Mac" – und ergänzte, das Projekt sei speziell für Apple Silicon gebaut und in Tests gegen Ollama, mlx-lm und llama.cpp angetreten.
Laut Projektdokumentation bietet Rapid-MLX:
- 4,2× schnelleren Durchsatz als Ollama (llama.cpp-Backend) auf dem M3 Ultra, gemessen über
mehrere Modelle hinweg
- 0,08 s gecachtes TTFT – die Zeit bis zum ersten Token bei gecachtem Prompt, entscheidend
für interaktive Anwendungen
- 17 Tool-Parser für strukturiertes Tool Calling in Echtzeit
- Prompt Cache und Reasoning-Trennung für Chain-of-Thought-Architekturen
- Cloud Routing als optionale Erweiterung, wenn das lokale Modell an Kapazitätsgrenzen stößt
- Vollständige OpenAI-API-Kompatibilität: Endpunkt
/v1/chat/completions, Bearer-Token-
Authentifizierung, Streaming
Diese API-Kompatibilität ist kein Marketing-Label. Coding-Agenten wie Cursor oder Aider, interne RAG-Systeme oder bestehende LLM-Clients lassen sich ohne Code-Änderungen auf einen lokalen Rapid-MLX-Server umkonfigurieren.
Benchmark-Zahlen und technische Details
Laut Community-Benchmarks, durchgeführt auf einem Mac Studio M3 Ultra mit 256 GB Unified Memory, wurden 22 Modelle über 6 verschiedene Inferenz-Engines gemessen. Rapid-MLX belegte dabei den ersten Platz in 16 von 18 ausgewerteten Benchmarks.
Für gängige Modellgrößen berichten Nutzer von Durchsatzraten im Bereich 60–120 tok/s für 7B-Modelle und 15–35 tok/s für 70B-Modelle unter Rapid-MLX, verglichen mit typisch 20–40 tok/s bzw. 5–12 tok/s unter Ollama auf derselben Hardware. Diese Werte entstammen Community-Messungen und variieren je nach Modellarchitektur und Kontextlänge.
Das technische Differenzierungsmerkmal ist die DeltaNet State Snapshot-Methode: Hybrid-RNN- Architekturen wie Qwen3.5 DeltaNet arbeiten nicht mit einem klassischen Attention-Mechanismus, sondern mit einem fortlaufenden Zustandsvektor. Rapid-MLX speichert diesen Zustand persistent zwischen Anfragen – statt bei jedem Multi-Turn-Gespräch den gesamten Kontext neu zu berechnen, lädt das System einen gespeicherten Snapshot. Das reduziert sowohl Latenz als auch Energieverbrauch messbar.
Modellunterstützung
Rapid-MLX unterstützt gängige Modelle, die im lokalen Einsatz bei europäischen KMU beliebt sind: Llama 3.3, Qwen2.5, DeepSeek-V3 sowie deren quantisierte Varianten. Auf einem Mac Studio M3 Ultra mit 256 GB Unified Memory lassen sich laut Projektangaben Modelle mit bis zu 397 Milliarden Parametern vollständig lokal betreiben – komplett offline, keine Verbindung nach außen.
DSGVO-konformer lokaler KI-Stack für KMU
Für europäische Unternehmen ist der entscheidende Vorteil die Datensouveränität durch Architektur. Wer Rapid-MLX auf einem Mac Studio im eigenen Büro oder Serverraum betreibt, schickt keine Anfragen über externe APIs und benötigt keinen Auftragsverarbeitungsvertrag nach Art. 28 DSGVO für die KI-Verarbeitung selbst. DSGVO-Konformität entsteht nicht durch Vertragswerk, sondern durch physische Kontrolle über den gesamten Stack.
Das ist besonders relevant für:
- Rechts- und Steuerberatungen, die mandatsbezogene Dokumente nicht an externe Systeme
übergeben dürfen
- Medizinische Einrichtungen, wo Patientendaten unter besonderer Schutzpflicht nach
Art. 9 DSGVO stehen
- Industrieunternehmen, die Konstruktionsdateien, Fertigungsdaten oder Lieferketten-
informationen intern halten müssen
- Finanzdienstleister, die unter MiFID II, DORA oder vergleichbaren Regulierungen operieren
Mehr zum Thema Datensouveränität als Designprinzip und zu unserer Architektur für lokale KI in Unternehmen.
Investitionskosten und Förderoptionen
Ein Mac Studio M3 Ultra mit 192 GB Unified Memory liegt laut aktuellem Listenpreis im Bereich von 6.000–8.000 Euro; die 256-GB-Konfiguration entsprechend höher. Verglichen mit laufenden Cloud-API-Kosten – die bei intensivem produktiven Einsatz schnell 500–2.000 Euro pro Monat übersteigen können – rechnet sich die einmalige Hardware-Investition typischerweise innerhalb von 12 bis 18 Monaten.
Gemäß unserem Verständnis können digitale Infrastrukturinvestitionen unter bestimmten Voraus- setzungen durch Programme wie das KfW-Digitalisierungsdarlehen (KfW 380) oder durch regionale BAFA-Förderungen für digitale Transformation unterstützt werden. Konkrete Bedingungen und Antragswege sollten mit einem Fördermittelberater geprüft werden; wir können an dieser Stelle keine individualisierten Förderzusagen machen.
Erste Schritte
Rapid-MLX setzt technisch voraus: macOS auf Apple Silicon (M2 Pro oder neuer für Produktiveinsatz empfohlen), Python 3.11+ sowie MLX und die Rapid-MLX-Pakete. Die Installation erfolgt via pip. Ein OpenAI-kompatibler Endpunkt ist nach dem Setup typischerweise innerhalb einer Stunde einsatzbereit.
Für Unternehmen ohne eigene ML-Infrastruktur begleitet Freshlab den gesamten Prozess: von der Hardware-Auswahl über die Modell-Konfiguration bis zur Integration in bestehende Workflows. Unser Trainingsangebot bereitet interne Teams auf den produktiven Betrieb vor.
Wenn Sie direkt starten möchten, finden Sie alle Informationen zu einem strukturierten Einstieg auf unserer Pilotprojekt-Seite.
Schnelle lokale KI ohne Cloud-Abhängigkeit – bereit für Ihr Unternehmen? Wir zeigen Ihnen, wie sich Rapid-MLX in Ihren bestehenden Stack integrieren lässt: Jetzt Kontakt aufnehmen