Lokale LLMs mit langem Kontext: Qwen3, Llama 4 und Gemma 4

local-llm context-window ollama

Das Kontextfenster entscheidet darüber, wie viel Text ein Sprachmodell auf einmal verarbeiten kann — einen kurzen Chat-Satz oder einen 400-seitigen Vertrag. Lange Zeit war ein großes Kontextfenster ein Cloud-Privileg: On-Premise-Modelle lagen bei 4k–8k Tokens, während GPT-4 mit 128k warb. Dieses Ungleichgewicht hat sich 2026 grundlegend verschoben. Qwen3.6 bringt 256k Tokens nativ auf Hardware, die unter Ihrem Schreibtisch steht. Llama 4 Scout erreicht theoretisch 10 Millionen Tokens, mit einem praxistauglichen Bereich von 256k–1M auf Consumer-Hardware, wie Entwickler in der Community berichten. Gemma 4 bietet solide 128k. Für KMU, die Verträge, Codebasen und lange E-Mail-Threads verarbeiten wollen, eröffnet das neue Möglichkeiten — vollständig on-premise, ohne ein Zeichen das eigene Netzwerk zu verlassen.

Was das Kontextfenster im Alltag bedeutet

Ein Token entspricht grob einem Viertelwort im Deutschen; 256.000 Tokens entsprechen ungefähr 190.000 Wörtern oder rund 380 DIN-A4-Seiten. Das reicht für:

  • einen vollständigen Jahresabschluss mit Anhang (typisch 80–120 Seiten)
  • ein mittleres Node.js- oder Python-Projekt mit allen Modulen
  • 15 Stunden Meeting-Transkripte, etwa erstellt mit einer lokalen Whisper-Installation
  • ein vollständiges Ausschreibungspaket mit Leistungsverzeichnis

Das Standard-Verhalten der meisten Deployment-Tools täuscht hier: Ollama begrenzt den Kontext standardmäßig auf 2.048 Tokens, unabhängig davon, was das Modell technisch unterstützt. Wer diese Einstellung nicht explizit überschreibt, schneidet ältere Gesprächsteile stillschweigend ab — ohne Warnung und ohne Hinweis auf den Informationsverlust.

Modelle mit langem Kontext (Stand Juni 2026)

Llama 4 Scout (Meta, Llama Community Licence)

Theoretisches Kontextmaximum: 10 Millionen Tokens. Laut Erfahrungsberichten aus der Entwickler-Community liegt der praxistaugliche Bereich auf Consumer-Hardware bei 256k–1M Tokens, abhängig vom verfügbaren Unified Memory. Mindestempfehlung: 80–128 GB RAM für sinnvolle Inferenz bei langen Kontexten.

Qwen3.6 (Alibaba, Apache 2.0)

256k Tokens nativ. Via YaRN-Extrapolation auf bis zu 1M Tokens erweiterbar. Zwei Varianten: Qwen3.6-27B (Dense) und Qwen3.6-35B-A3B (Mixture-of-Experts). Laut Community-Messungen benötigt das 27B-Modell bei 128k Kontext rund 22 GB RAM. Ausgezeichnete Sprachqualität auf Deutsch, Spanisch und anderen europäischen Sprachen.

Qwen3.5 (Alibaba, Apache 2.0)

Das 9B-Modell unterstützt laut Entwicklerdokumentation bis zu 262k Tokens nativ — ideal für Setups mit 16–24 GB RAM, die dennoch lange Dokumente verarbeiten sollen.

Qwen3-Coder (Alibaba, Apache 2.0)

Auf Code und technisches Schreiben spezialisiert; 256k Tokens nativ, bis 1M via Extrapolation. Besonders geeignet für automatisierte Codebase-Reviews und Dokumentationsgenerierung.

Gemma 4 (Google, Gemma Terms of Use)

128k Kontext. Solide Wahl für 16-GB-Setups (12B-Modell). Breite Sprachunterstützung, starke strukturierte Ausgaben. Nicht ganz so weit wie die Qwen3-Familie, dafür ressourcenschonender und gut geeignet für Laptops oder kompakte Workstations.

Hardware-Anforderungen: Was geht auf welcher Maschine?

Der KV-Cache — der Speicher, in dem das Modell seinen Kontext vorhält — wächst mit der Kontextlänge. Laut Community-Messungen an einem 7B-Modell mit Q4\K\M-Quantisierung:

Kontextlänge Ungefährer RAM-Bedarf
4k Tokens ~6 GB
32k Tokens ~8–9 GB
128k Tokens ~12–16 GB

Für größere Modelle, wie von Entwicklern berichtet:

  • Qwen3.5-9B bei 128k Kontext: ~14–18 GB — passt auf Mac Mini M4 Pro (24 oder 48 GB)
  • Qwen3.6-27B bei 128k Kontext: ~22 GB — komfortabel auf Mac Studio M4 Max (128 GB) oder Mac Studio M3 Ultra (192 GB)
  • Llama 4 Scout bei 256k Kontext: ~80–96 GB — für Mac Studio M3 Ultra (192 GB) konzipiert
  • Qwen3.6-27B bei 1M Kontext: ~65 GB — liegt im Bereich der Mac Studio M3 Ultra oder dedizierter Server-Hardware

Für lokale KI-Infrastruktur gilt als Faustregel: lieber etwas mehr RAM einplanen, als den Kontext ständig beschneiden zu müssen. Ein 192-GB-System ist heute kein Luxus mehr für Teams, die längere Dokumente routinemäßig verarbeiten.

Ollama konfigurieren — den Standardwert überschreiben

Ollama setzt num_ctx standardmäßig auf 2.048 Tokens. Drei Wege, das für längere Kontexte zu ändern:

Option 1 — Direkt in der API-Anfrage:

{
  "model": "qwen3.6:27b",
  "prompt": "...",
  "options": { "num_ctx": 65536 }
}

Option 2 — Im Terminal beim Modell-Start:

ollama run qwen3.6:27b --num_ctx 65536

Option 3 — Per Modelfile (empfohlen für Dauereinsatz):

FROM qwen3.6:27b
PARAMETER num_ctx 65536

Dann ollama create mein-qwen3 -f Modelfile ausführen. Dieses Vorgehen ist stabil über Neustarts hinweg.

Für Kontextlängen über 64k empfiehlt die Ollama-Dokumentation zur Kontextlänge Flash Attention zu aktivieren, um den Speicherbedarf des KV-Cache zu reduzieren. KV-Cache-Quantisierung ist eine weitere Option: Q80 halbiert laut Community-Berichten den Cache-Speicherbedarf, Q40 reduziert ihn auf etwa ein Drittel — mit leichten Qualitätsabstrichen bei sehr langen Kontexten.

Praxis-Anwendungsfälle für KMU

Vertragsanalyse ohne Chunking

Einen 80-seitigen Lieferantenvertrag plus drei Zusatzvereinbarungen vollständig in einen Prompt laden, widersprüchliche Klauseln identifizieren lassen und eine strukturierte Zusammenfassung ausgeben. Kein Splitten, kein Informationsverlust durch Kontextgrenzen — das Modell sieht das gesamte Dokument als zusammenhängendes Ganzes.

Codebase-Review

Qwen3-Coder analysiert ein komplettes Backend-Repository in einem Kontext, versteht Abhängigkeiten über mehrere Dateien hinweg und schlägt gezieltes Refactoring vor. Keine RAG-Pipeline nötig, kein Chunking-Overhead.

E-Mail-Thread-Analyse

Monatelange E-Mail-Konversationen aus einem Outlook-Export (PST → EML) in einem Prompt strukturieren, kritische Entscheidungspunkte hervorheben und Handlungsbedarfe ableiten.

Meeting-Protokolle aus Transkripten

In Kombination mit einer lokalen Whisper-Installation (Faster-Whisper) lassen sich mehrstündige Besprechungstranskripte direkt in Protokollformat konvertieren und mit spezifischen Fragen auswerten. Die kAIra Toolkit-Suite bietet dafür vorgefertigte Workflows, die Transkription und Zusammenfassung in einer Automatisierung verbinden.

Mehr über lokale KI im Unternehmenseinsatz finden Sie in unserer Schulungs- und Trainingsübersicht.

Wann bleibt RAG die bessere Architektur?

Ein langes Kontextfenster ist kein genereller RAG-Ersatz:

  • Wissensbasis > 1M Tokens: Tausende Dokumente — interne Wissensdatenbanken, komplette Dokumentenarchive — lassen sich selbst mit großzügigem Kontext nicht in einen Prompt packen. RAG bleibt hier die richtige Architektur.
  • Häufig aktualisierte Inhalte: RAG hält eine Wissensbasis aktuell, ohne jedes Mal den gesamten Kontext neu aufzubauen.
  • Latenz bei einfachen Abfragen: Die Pre-Fill-Phase (Verarbeitung des Kontexts vor der Antwortgenerierung) dauert bei sehr langen Kontexten spürbar länger. Für einfache Fragen in großen Datenbanken ist RAG schneller.

Für überschaubare Dokumentenmengen bis etwa 300 Seiten oder mittelgroße Codebasen ist der direkte lange Kontext heute oft die elegantere Lösung — weniger Infrastruktur, keine Chunking-Entscheidungen, vollständiger Informationszugang.

Jetzt passende Infrastruktur planen

Die Wahl des Kontextfensters und des Modells gehört zur Architekturentscheidung, bevor ein Pilot startet — nicht danach. Wenn Sie wissen möchten, welches Setup für Ihre Dokumente, Ihre Sprache und Ihr Budget die richtige Wahl ist, sprechen Sie mit uns. Wir zeigen Ihnen, was auf Ihrer eigenen Infrastruktur realistisch erreichbar ist — konkret, ohne Vendor-Lock-in.