Am 5. Juni 2026 veröffentlichte Google DeepMind auf Hugging Face neue Checkpoints für die gesamte Gemma-4-Modellfamilie — diesmal mit Quantization-Aware Training (QAT). Laut Google DeepMind sinkt der Speicherbedarf um rund 72 % gegenüber dem unkomprimierten BF16-Modell, während die Ausgabequalität nahe an die des Originals heranreicht.
Für Unternehmen, die lokale KI auf vorhandener Hardware betreiben wollen, ist das eine bedeutende Verschiebung.
Was ist QAT — und warum ist das besser als normale Quantisierung?
Klassische Post-Training Quantization (PTQ) wird nach dem Training angewendet: Das fertige Modell wird nachträglich auf 4 Bit komprimiert, wobei Qualität verloren geht. QAT verfolgt einen anderen Ansatz. Die Effekte der Quantisierung werden während des Trainings selbst simuliert — das Modell lernt, mit dieser Einschränkung umzugehen, bevor es eingefroren wird.
Das Ergebnis: Laut Messungen der Community, unter anderem dokumentiert durch das Unsloth-Team, erzielen QAT-Varianten bei einfachen Konvertierungen über 15 % bessere Genauigkeit als PTQ bei identischer Komprimierungsstufe. In der Praxis bedeutet das konsistenteres Instruction-Following, weniger Halluzinationen und stabilere Ausgaben — bei gleichem Speicherbedarf.
Google DeepMind bezeichnet das Ziel der QAT-Checkpoints als maximale On-Device-Performance: Die 4-Bit-Komprimierung soll sich qualitativ so nah wie möglich an BF16 anfühlen.
Welche Modelle gibt es — und was brauchen sie?
Die Gemma-4-QAT-Familie umfasst fünf Größen. Die empfohlenen GGUFs im UD-Q4\K\XL-Format (laut Unsloth-Dokumentation) benötigen folgende Arbeitsspeichermengen:
| Modell | Besonderheit | RAM-Bedarf (~) |
|---|---|---|
| Gemma 4 E2B | Sehr klein, schnell | ~3 GB |
| Gemma 4 E4B | Gute Qualität für 8 GB | ~5 GB |
| Gemma 4 12B | Ausgewogenes Verhältnis | ~7 GB |
| Gemma 4 26B-A4B | MoE, 3,8B aktiv/Token | ~15 GB |
| Gemma 4 31B | Höchste Qualität | ~18 GB |
Das Herzstück ist die 26B-A4B-Variante: Sie nutzt eine Mixture-of-Experts (MoE)-Architektur und aktiviert pro Token nur 3,8 Milliarden Parameter. Inferenzgeschwindigkeit und Ressourcenbedarf liegen dadurch nahe an einem 4B-Modell — während die Ausgabequalität das eines vollständig aktiven Großmodells widerspiegelt.
Gemma 4 QAT einrichten: drei Wege
Mit Ollama (empfohlen für den KMU-Einstieg)
Ollama 0.24.0 unterstützt die Gemma-4-QAT-Checkpoints. Nach der Installation genügen wenige Zeilen im Terminal:
# Für 16-GB-Systeme (26B-A4B QAT):
ollama pull gemma4:27b-a4b-q4_k_m
# Für 8-GB-Systeme (E4B QAT):
ollama pull gemma4:e4b-q4_k_m
Die genauen Tag-Namen sind im Ollama Model Hub abrufbar. Nach dem Download läuft das Modell vollständig lokal — kein Internet, keine API-Keys, keine Datenweitergabe.
Mit llama.cpp
Für Nutzer, die maximale Kontrolle über Komprimierung und GPU-Offloading wünschen, bietet llama.cpp volle Unterstützung für die QAT-GGUFs. Die UD-Q4\K\XL-Variante ist im UnslothAI-Repository auf Hugging Face verfügbar:
./llama-cli -m gemma4-26b-a4b-UD-Q4_K_XL.gguf \
--ctx-size 8192 \
--n-gpu-layers 999
Das Flag --n-gpu-layers 999 lädt alle Layer auf den Metal-GPU — auf Apple Silicon ergibt sich dadurch ein deutlicher Geschwindigkeitsgewinn.
Mit vLLM (für Team-Server)
vLLM ≥ 0.22.0 unterstützt die QAT-Checkpoints im HuggingFace-Format. Das ist sinnvoll, wenn mehrere Mitarbeitende gleichzeitig über eine lokale API auf das Modell zugreifen sollen:
vllm serve google/gemma-4-27b-a4b-qat \
--quantization bitsandbytes \
--max-model-len 8192
Für Teams mit 5–20 Nutzenden reicht in der Regel ein einzelner Server mit 16 GB VRAM.
Warum das jetzt für KMU relevant ist
Viele kleine und mittlere Unternehmen stehen vor einem Dilemma: Cloud-KI-Dienste liefern gute Qualität, aber jede Anfrage verlässt das eigene Netzwerk. Das ist bei personenbezogenen Daten unter der DSGVO heikel — und bei vertraulichen Geschäftsdaten schlicht unerwünscht.
Bisher war die lokale Alternative ein Kompromiss:
- Kleine Modelle (3B–8B): schnell, aber qualitativ begrenzt
- Große Modelle (70B+): hohe Hardware-Anforderungen (80–128 GB RAM)
Gemma 4 QAT verschiebt diese Grenze spürbar. Ein 26B-Modell mit MoE-Architektur auf 15 GB, das qualitativ nahe an BF16-Niveau liegt, verändert die Kalkulation:
- Datensouveränität: Alle Verarbeitungen bleiben im eigenen Netzwerk. Kein Drittanbieter sieht die Anfragen.
- DSGVO-Konformität: Ohne Cloud-Verarbeitung entfällt der Aufwand für Auftragsverarbeitungsverträge mit KI-Dienstleistern.
- Kosten: Kein Token-Preis, keine monatlichen API-Rechnungen. Einmalige Hardware-Investition.
- Offline-Betrieb: Das Modell funktioniert ohne Internetverbindung — relevant für sichere Umgebungen oder Standorte mit instabiler Verbindung.
Praxisbeispiele
Steuerberatungskanzlei (12 MA): Analyse von Mandantenkorrespondenz und Zusammenfassung von Jahresabschlüssen mit Gemma 4 QAT 26B auf einem bestehenden Mac Studio M2 Ultra (64 GB). Mandantendaten bleiben intern, keine Cloud-Freigabe nötig.
Software-Agentur (8 Entwickler): Code-Review und automatische Dokumentation. Auf einem MacBook Pro M4 (16 GB) läuft die 26B-A4B-Variante laut Community-Berichten mit Geschwindigkeiten vergleichbar einem 4B-Modell — ausreichend für assistiertes Arbeiten in Echtzeit.
Mittelständischer Händler (30 MA): Automatische Zusammenfassung von Lieferantenkorrespondenz in Deutsch, Spanisch und Englisch auf vorhandenen Bürorechnern. Da E-Mails das Gerät nicht verlassen, entstehen keine datenschutzrechtlichen Fragen.
Nächste Schritte
Gemma 4 QAT ist ein technisch reifer Schritt in Richtung qualitativ hochwertiger lokaler KI auf Consumer-Hardware. Wer bisher gezögert hat, weil das Qualitätsniveau für den produktiven Einsatz nicht ausreichte, sollte die 26B-A4B-Variante neu bewerten.
Der Einstieg erfordert keine neue Infrastruktur: Ein moderner Mac mit 16 GB Unified Memory reicht für die Installation und erste Tests an einem Nachmittag.
Wenn Sie wissen möchten, welche Variante für Ihren spezifischen Anwendungsfall geeignet ist und wie sich Gemma 4 QAT in Ihre bestehenden Abläufe integrieren lässt, sprechen Sie uns an.
Weiterführende Themen: Lokale KI im Überblick · Datensouveränität und DSGVO · kAIra Toolkit für KMU