In der Woche vom 21. bis 27. April 2026 veröffentlichten zwei der produktivsten Open-Weight-Labore der Welt neue Modelle innerhalb weniger Tage: das Qwen-Team der Alibaba Group am 16. April das Qwen3.6-35B-A3B, DeepSeek am 24. April V4-Flash und V4-Pro. Beide Releases sind MIT-lizenziert, beide selbst-hostbar, und setzen in ihren jeweiligen Leistungsklassen neue Maßstäbe. Für europäische KMU, die eine DSGVO-konforme KI-Infrastruktur ohne Cloud-Abhängigkeit aufbauen wollen, sind beide Modelle relevant — aus unterschiedlichen Gründen.
Qwen3.6-35B-A3B: Das neue Standardmodell für Apple Silicon
Das technisch interessanteste Release dieser Woche ist das Qwen3.6-35B-A3B. Der Namenszusatz "A3B" steht für "3 Milliarden aktive Parameter" — der Kern der Mixture-of-Experts-Architektur (MoE). Das Modell hat zwar 35 Milliarden Parameter insgesamt, aber bei jedem Forward-Pass werden nur etwa 3 Milliarden davon aktiviert. Das Ergebnis: Die Inferenzgeschwindigkeit entspricht einem 3-Milliarden-Parameter-Modell, während das Modell auf das kodierte Wissen von 35 Milliarden Parametern zugreift.
Was das in der Praxis bedeutet: Auf einem Mac mit 24 GB Unified Memory — etwa einem MacBook Pro M4 oder einem Mac Mini M4 Pro — läuft Qwen3.6-35B-A3B flüssig. Das ist die Hardwareklasse, die viele Unternehmen bereits in der IT-Abteilung oder am Entwicklerarbeitsplatz haben. Auf einem Mac Studio M3 Ultra mit 192 GB RAM berichten Entwickler in Community-Benchmarks von 50–60 tok/s — eine Geschwindigkeit, die für produktive Anwendungen gut ausreicht.
Benchmark-Ergebnisse, die überzeugen
Laut öffentlich veröffentlichter Benchmarks erzielt Qwen3.6-35B-A3B einen Score von 73,4 % auf SWE-bench Verified und 51,5 % auf Terminal-Bench 2.0. SWE-bench Verified gilt als einer der härtesten Benchmarks für Software-Engineering-Aufgaben: Das Modell bekommt reale GitHub-Issues vorgelegt und soll selbstständig funktionierende Patches produzieren. 73 % bedeuten, dass fast drei von vier solchen Aufgaben eigenständig gelöst werden.
Für den Büroalltag heißt das: Code-Reviews, Dokumentenanalyse und strukturierte Textverarbeitung laufen auf einem lokalen Mac in einer Qualität, die vor zwei Jahren noch Server mit teurer GPU-Infrastruktur erforderte.
Setup: Wenige Befehle bis zur Produktion
Wer Ollama bereits installiert hat, startet sofort:
ollama pull qwen3.6:35b-a3b
ollama run qwen3.6:35b-a3b
Für maximale Geschwindigkeit auf Apple Silicon bietet mlx-lm (ab Version 0.24.0) native MLX-Unterstützung. Die passenden Modelle sind auf Hugging Face unter dem Namenssuffix "-MLX" verfügbar und laufen ohne zusätzliche Konvertierung direkt.
Das Modell unterstützt ein Kontextfenster von 256.000 Tokens — ausreichend für umfangreiche Dokumentenanalyse, mehrstufige Reasoning-Ketten oder lange Code-Repositories.
DeepSeek V4-Flash: Self-Hosting für GPU-Infrastruktur
Während Qwen3.6 für Apple Silicon optimiert ist, richtet sich DeepSeek V4-Flash an Unternehmen, die auf GPU-Server — eigen oder EU-gehostet — setzen können.
DeepSeek veröffentlichte am 24. April 2026 gleichzeitig zwei Modelle:
- V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktiv
- V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv
Beide sind unter der MIT-Lizenz als Open-Weight-Modelle verfügbar. Tech-Blogger Simon Willison beschrieb das Release auf simonwillison.net treffend als "almost on the frontier, a fraction of the price".
V4-Flash im Detail
Der Flash-Ableger ist der praxisrelevante für Self-Hosting:
- ~160 GB Modellgewicht auf Hugging Face (FP4+FP8 Mixed Precision)
- 1 Million Token Kontextfenster — genug für umfangreiche Dokumentenkorpora
- Empfohlenes Framework: vLLM mit MoE-Expert-Parallelismus
- Mindestanforderung: 1× NVIDIA H200 oder 2× A100 80 GB
Laut Modellveröffentlichung von DeepSeek erzielt die V4-Architektur eine 73 % Reduktion der Inferenz-FLOPs pro Token sowie eine 90 % Reduktion des KV-Cache-Speicherbedarfs gegenüber DeepSeek V3.2. Für Unternehmen, die hohe Anfragevolumen intern verarbeiten, ist das ein wesentlicher operativer Kostenfaktor.
Preisniveau bei API-Nutzung
Wer den Einstieg über die DeepSeek-API machen will, bevor in eigene Hardware investiert wird: V4-Flash kostet laut aktueller Preisliste 0,14 USD pro Million Input-Tokens. Das liegt deutlich unter vergleichbaren Cloud-Modellen und erlaubt einen kostengünstigen Proof-of-Concept vor jeder Hardwareentscheidung.
Was bedeutet das für europäische KMU?
Zwei wesentliche Releases in einer einzigen Woche verschieben die Kalkulationsgrundlage für lokale KI substantiell. Das Wichtigste für KMU in der DACH-Region:
Mac-Nutzer haben jetzt Zugang zu Frontier-naher Qualität. Qwen3.6-35B-A3B läuft auf 24 GB Unified Memory — das ist die Untergrenze des Mac Mini M4 Pro, nicht das Optimum. Wer bereits einen Mac Studio betreibt, erhält damit ein Modell in einer Qualitätsklasse, die vor 18 Monaten noch proprietäre Cloud-API-Verträge erforderte.
DSGVO-Konformität durch Architektur. Auf einem lokalen Mac oder Server verlassen Anfragen und Antworten das eigene Netzwerk nicht. Das löst nicht jeden Aspekt der DSGVO, schließt aber die kritischste Frage — Drittlandübertragung und unkontrollierter Datenzugang durch externe Anbieter — strukturell aus. Mehr dazu auf unserer Seite zu Datensouveränität und lokaler KI.
Hardware-Empfehlung für 2026:
| Gerät | RAM | Modell | Einsatz |
|---|---|---|---|
| Mac Mini M4 Pro | 48 GB | Qwen3.6-35B-A3B | Einzelnutzer, Büro |
| Mac Studio M4 Max | 128 GB | Mehrere Modelle parallel | Kleines Team (3–5 Nutzer) |
| EU-GPU-Server | H200 | DeepSeek V4-Flash | Hoher Durchsatz |
Typische Anwendungsfälle in dieser Qualitätsklasse
Die Modellgeneration von April 2026 ist für folgende Aufgaben produktiv einsetzbar:
- Vertragsanalyse und -zusammenfassung — Dokumente verlassen nie den eigenen Server
- Coding-Assistenz und Code-Reviews — 73 % SWE-bench entspricht produktiver Qualität
- Mehrsprachige Texterstellung (DE/EN/ES) ohne Qualitätsverlust
- Interne FAQ-Automatisierung auf Basis eigener Wissensdatenbanken
- Compliance-Prüfungen mit Reasoning-Modellen lokal und nachvollziehbar
Einordnung für die Praxis
Die Entscheidung für lokale Inferenz löst nicht automatisch jeden DSGVO-Aspekt — Zugriffskontrollen, Speicherfristen und das Verzeichnis von Verarbeitungstätigkeiten bleiben erforderlich. Aber sie schließt die häufigste Lücke: personenbezogene Daten, die auf Infrastruktur verarbeitet werden, die das Unternehmen nicht kontrolliert und nicht in der EU verortet ist. Gemäß unserem Verständnis des aktuellen Rechtsrahmens ist On-Premise-Inferenz eine der robustesten Grundlagen für DSGVO-konforme KI-Deployments im KMU-Umfeld.
Nächste Schritte
Für einen ersten Praxistest reichen ein Mac Mini M4 Pro und ein einzelner, klar definierter Use Case. Der häufigste Einstiegspunkt: die Automatisierung einer wiederkehrenden Dokumentenzusammenfassung oder der Aufbau eines Entwurfsgenerierungs-Tools auf Basis interner Dokumente.
Wer strukturiert vorgehen will: Freshlab bietet Pilotprojekte an, bei denen wir gemeinsam mit Ihrem Team das passende Modell, die passende Hardware und den konkreten Anwendungsfall testen — bevor Sie in Infrastruktur investieren.
Mehr zur lokalen KI-Strategie für KMU: Lokale KI für Ihr Unternehmen