Lokale KI-Modelle ohne Neustart: llama.cpp Router-Modus

14. Jun 2026 Deutsch 5 Min. Lesezeit Auch auf: English, Español

llama-cpp local-ai inference

llama.cpp hat kürzlich 100.000 GitHub-Sterne überschritten, ein Meilenstein, der die Reife des lokalen KI-Ökosystems unterstreicht. Projekt-Gründer Georgi Gerganov schrieb dazu auf X, er prognostiziere, dass "90% of all AI agents will be running locally with llama.cpp", und fügte hinzu, dass ihm das eine Gelegenheit sei, auf den zurückgelegten Weg zurückzublicken.

Die Zahl ist bemerkenswert, aber das eigentlich Wichtige für Teams, die lokale KI produktiv einsetzen wollen, ist ein konkretes neues Feature: der Router-Modus des llama-server. Damit lassen sich mehrere lokale LLMs aus einer einzigen Server-Instanz heraus bedienen, ganz ohne Neustart, ganz ohne Cloud, ganz ohne API-Kosten.

Was ist der Router-Modus?

Bis vor kurzem hatte llama-server eine grundlegende Einschränkung: pro Prozess ein Modell. Wer auf einem Mac Studio M3 Ultra gleichzeitig ein Coding-Modell, einen allgemeinen Chat-Assistenten und ein Analyse-Modell betreiben wollte, musste drei separate Serverprozesse starten und eine eigene Routing-Logik aufbauen, oder auf Ollama ausweichen.

Mit dem neuen Router-Modus ist das Geschichte. Wie Victor Mustar auf X berichtet, bringt llama.cpp jetzt Ollama-ähnliche Modellverwaltung mit:

"Auto-discover GGUFs from cache • Load on first request • Each model runs in its own process • Route by model (OpenAI-compatible API) • LRU unload at --models-max"

Ein einziger llama-server-Prozess übernimmt die Rolle eines Multi-Modell-Load-Balancers. Jedes Modell läuft in einem eigenen Child-Prozess, wenn eines abstürzt, laufen die anderen weiter. Modelle werden beim ersten API-Aufruf geladen und nach dem LRU-Prinzip (Least Recently Used) entladen, sobald das Limit --models-max erreicht ist.

Einrichtung in der Praxis

Der Einstieg ist denkbar einfach: Wird llama-server ohne --model-Flag gestartet, wechselt er automatisch in den Router-Modus. GGUF-Modelldateien werden aus dem Cache-Verzeichnis automatisch erkannt.

# Router-Modus: kein --model Flag, dafür --models-max setzen
llama-server --port 8080 --models-max 3

Anfragen an die OpenAI-kompatible API werden wie gewohnt gestellt, der Modellname im model-Feld entscheidet, welches Modell die Anfrage bearbeitet:

{
  "model": "qwen2.5-coder-7b-q4_k_m",
  "messages": [{"role": "user", "content": "Erkläre diesen Python-Code:"}]
}

Wird das Modell nicht gefunden, lädt der Router es beim ersten Aufruf aus dem Cache. Ist das --models-max-Limit erreicht, wird das am längsten inaktive Modell entladen, bevor das neue geladen wird. Laut Community-Berichten liegt die Umschaltzeit bei 3-10 Sekunden, je nach Lese-Geschwindigkeit des Datenträgers und VRAM-Bandbreite.

Drei Modelle, ein Server: KMU-Szenarien

Szenario 1: Software-Entwicklungsteam

Ein fünfköpfiges Entwicklungsteam betreibt auf einem Mac Studio M3 Ultra (192 GB) bis zu drei Modelle gleichzeitig:

DeepSeek-R1:32B (Q4) für komplexes Reasoning und Code-Review
Qwen2.5-Coder:7B (Q8) für schnelle Code-Vervollständigung im IDE-Plugin
Llama 3.3:70B (Q4) für Dokumentation und allgemeine Team-Anfragen

Mit --models-max 3 bleiben alle drei im Speicher. Jede Anwendung, IDE-Plugin, Slack-Bot, CI-Pipeline, wählt das passende Modell per model-Feld in der API-Anfrage, ohne dass ein Administrator den Server anpassen muss.

Szenario 2: Bürobetrieb mit mehreren Abteilungen

Auch in Nicht-Tech-Unternehmen deckt der Router-Modus unterschiedliche Bedürfnisse ab:

Buchhaltung: kleines Phi-4-Modell (3,8B) für Belegkategorisierung und DATEV-Klassifizierung
Kundenservice: Llama 3.3 für strukturierte E-Mail-Entwürfe und FAQ-Antworten
Übersetzung: Qwen 2.5 für Deutsch/Spanisch/Englisch-Übersetzungen ohne Drittanbieter

Alle Abteilungen nutzen denselben internen API-Endpunkt. Kein Mitarbeiter kommuniziert mit externen Servern, was das DSGVO-Risiko nach unserer Einschätzung erheblich reduziert.

Szenario 3: Zeitgesteuerter Batch-Betrieb

Über Nacht verarbeitet ein großes Modell (70B) Batch-Analysen von Kundendaten oder Vertragsarchiven. Tagsüber übernehmen kleinere, schnellere Modelle die interaktiven Anfragen. Der LRU-Cache kümmert sich um den Wechsel vollautomatisch, kein Cron-Job, kein Neustart.

Router-Modus vs. Ollama: Was passt wann?

Ollama bleibt eine exzellente Wahl für Teams, die schnell starten und eine einfache Verwaltungsoberfläche schätzen. Der Unterschied liegt im Grad der Kontrolle:

Merkmal	llama.cpp Router	Ollama
Einrichtungsaufwand	Mittel (CLI)	Gering (GUI + CLI)
Inference-Performance	Hoch (kein Overhead)	Gut
Prozess-Isolation	Ja (je Modell)	Nein
Multi-Modell-Management	Ja (nativ)	Ja (nativ)
OpenAI-API	Ja	Ja
Konfigurierbarkeit	Sehr hoch	Mittel

Der Router-Modus von llama.cpp ist die bessere Wahl, wenn maximale Inference-Geschwindigkeit, feingranulare Prozesskontrolle oder Integration in bestehende DevOps-Pipelines gefragt sind. Ollama bleibt vorzuziehen für Teams mit heterogenem technischen Hintergrund oder wenn die grafische Verwaltungsoberfläche gebraucht wird.

Hardware und Kosten

Der Router-Modus verändert keine Hardware-Anforderungen: Arbeitsspeicher bleibt der entscheidende Faktor. Je mehr aktive Modelle parallel im Speicher gehalten werden sollen, desto mehr RAM wird benötigt.

Hardware	RAM	Empfohlene Konfiguration
Mac Mini M4 Pro	64 GB	1-2 kleine Modelle (3B, 7B Q4)
Mac Studio M3 Max	64-96 GB	2-3 mittlere Modelle (7B, 14B Q4/Q8)
Mac Studio M3 Ultra	192 GB	3-5 Modelle, inkl. 70B Q4

Laut Community-Messungen erzielen 7B-Modelle in Q4 auf Apple Silicon zwischen 30 und 80 Tokens pro Sekunde, deutlich schneller als viele Cloud-APIs unter Last, ohne Latenz durch Netzwerkübergang.

Die Amortisationsrechnung ist für viele KMU überzeugend: Ein Mac Studio M3 Max kostet rund 2.000-3.500 €, ersetzt dauerhaft API-Ausgaben, die bei aktivem Einsatz 300-600 € monatlich betragen können. Der Break-Even liegt typischerweise bei 4-8 Monaten.

Datenschutz ohne Abstriche

Der tiefgreifendste Vorteil gegenüber Cloud-Lösungen bleibt unverändert: Kein Datum verlässt das Firmennetz. Kein API-Schlüssel, kein DSGVO-Drittland-Transfer, kein Einblick eines Drittanbieters in Ihre Prompts oder Antworten.

Für Branchen mit erhöhten Anforderungen, Recht, Medizin, Finanzen, Personalwesen, ist lokale Inferenz keine Option, sondern oft die einzige compliant Wahl. Mehr dazu auf unserer Seite zu lokaler KI und Datensouveränität sowie in unserem Überblick zu lokaler KI für Unternehmen.

Nächster Schritt

Der Router-Modus macht llama.cpp zum zentralen Inference-Server für Teams mit vielfältigen Modell-Bedürfnissen, ohne externe Abhängigkeiten, ohne Token-Kosten, ohne Datenschutzrisiko. Wer bisher Ollama als Einstieg genutzt hat und mehr Kontrolle und Rohleistung will, findet hier die natürliche nächste Stufe.

Wenn Sie wissen möchten, welcher lokale KI-Stack für Ihr Unternehmen am besten geeignet ist, starten Sie mit uns ein Pilotprojekt, typischerweise läuft Ihr erster interner Multi-Modell-Server nach rund zwei Wochen.