Qwen3.6 und DeepSeek V4: Lokale LLMs auf neuem Niveau

27. Apr 2026 Deutsch 5 Min. Lesezeit

local-ai open-weight deepseek

In der Woche vom 21. bis 27. April 2026 veröffentlichten zwei der produktivsten Open-Weight-Labore der Welt neue Modelle innerhalb weniger Tage: das Qwen-Team der Alibaba Group am 16. April das Qwen3.6-35B-A3B, DeepSeek am 24. April V4-Flash und V4-Pro. Beide Releases sind MIT-lizenziert, beide selbst-hostbar, und setzen in ihren jeweiligen Leistungsklassen neue Maßstäbe. Für europäische KMU, die eine DSGVO-konforme KI-Infrastruktur ohne Cloud-Abhängigkeit aufbauen wollen, sind beide Modelle relevant — aus unterschiedlichen Gründen.

Qwen3.6-35B-A3B: Das neue Standardmodell für Apple Silicon

Das technisch interessanteste Release dieser Woche ist das Qwen3.6-35B-A3B. Der Namenszusatz "A3B" steht für "3 Milliarden aktive Parameter" — der Kern der Mixture-of-Experts-Architektur (MoE). Das Modell hat zwar 35 Milliarden Parameter insgesamt, aber bei jedem Forward-Pass werden nur etwa 3 Milliarden davon aktiviert. Das Ergebnis: Die Inferenzgeschwindigkeit entspricht einem 3-Milliarden-Parameter-Modell, während das Modell auf das kodierte Wissen von 35 Milliarden Parametern zugreift.

Was das in der Praxis bedeutet: Auf einem Mac mit 24 GB Unified Memory — etwa einem MacBook Pro M4 oder einem Mac Mini M4 Pro — läuft Qwen3.6-35B-A3B flüssig. Das ist die Hardwareklasse, die viele Unternehmen bereits in der IT-Abteilung oder am Entwicklerarbeitsplatz haben. Auf einem Mac Studio M3 Ultra mit 192 GB RAM berichten Entwickler in Community-Benchmarks von 50–60 tok/s — eine Geschwindigkeit, die für produktive Anwendungen gut ausreicht.

Benchmark-Ergebnisse, die überzeugen

Laut öffentlich veröffentlichter Benchmarks erzielt Qwen3.6-35B-A3B einen Score von 73,4 % auf SWE-bench Verified und 51,5 % auf Terminal-Bench 2.0. SWE-bench Verified gilt als einer der härtesten Benchmarks für Software-Engineering-Aufgaben: Das Modell bekommt reale GitHub-Issues vorgelegt und soll selbstständig funktionierende Patches produzieren. 73 % bedeuten, dass fast drei von vier solchen Aufgaben eigenständig gelöst werden.

Für den Büroalltag heißt das: Code-Reviews, Dokumentenanalyse und strukturierte Textverarbeitung laufen auf einem lokalen Mac in einer Qualität, die vor zwei Jahren noch Server mit teurer GPU-Infrastruktur erforderte.

Setup: Wenige Befehle bis zur Produktion

Wer Ollama bereits installiert hat, startet sofort:

ollama pull qwen3.6:35b-a3b
ollama run qwen3.6:35b-a3b

Für maximale Geschwindigkeit auf Apple Silicon bietet mlx-lm (ab Version 0.24.0) native MLX-Unterstützung. Die passenden Modelle sind auf Hugging Face unter dem Namenssuffix "-MLX" verfügbar und laufen ohne zusätzliche Konvertierung direkt.

Das Modell unterstützt ein Kontextfenster von 256.000 Tokens — ausreichend für umfangreiche Dokumentenanalyse, mehrstufige Reasoning-Ketten oder lange Code-Repositories.

DeepSeek V4-Flash: Self-Hosting für GPU-Infrastruktur

Während Qwen3.6 für Apple Silicon optimiert ist, richtet sich DeepSeek V4-Flash an Unternehmen, die auf GPU-Server — eigen oder EU-gehostet — setzen können.

DeepSeek veröffentlichte am 24. April 2026 gleichzeitig zwei Modelle:

V4-Pro: 1,6 Billionen Gesamtparameter, 49 Milliarden aktiv
V4-Flash: 284 Milliarden Gesamtparameter, 13 Milliarden aktiv

Beide sind unter der MIT-Lizenz als Open-Weight-Modelle verfügbar. Tech-Blogger Simon Willison beschrieb das Release auf simonwillison.net treffend als "almost on the frontier, a fraction of the price".

V4-Flash im Detail

Der Flash-Ableger ist der praxisrelevante für Self-Hosting:

~160 GB Modellgewicht auf Hugging Face (FP4+FP8 Mixed Precision)
1 Million Token Kontextfenster — genug für umfangreiche Dokumentenkorpora
Empfohlenes Framework: vLLM mit MoE-Expert-Parallelismus
Mindestanforderung: 1× NVIDIA H200 oder 2× A100 80 GB

Laut Modellveröffentlichung von DeepSeek erzielt die V4-Architektur eine 73 % Reduktion der Inferenz-FLOPs pro Token sowie eine 90 % Reduktion des KV-Cache-Speicherbedarfs gegenüber DeepSeek V3.2. Für Unternehmen, die hohe Anfragevolumen intern verarbeiten, ist das ein wesentlicher operativer Kostenfaktor.

Preisniveau bei API-Nutzung

Wer den Einstieg über die DeepSeek-API machen will, bevor in eigene Hardware investiert wird: V4-Flash kostet laut aktueller Preisliste 0,14 USD pro Million Input-Tokens. Das liegt deutlich unter vergleichbaren Cloud-Modellen und erlaubt einen kostengünstigen Proof-of-Concept vor jeder Hardwareentscheidung.

Was bedeutet das für europäische KMU?

Zwei wesentliche Releases in einer einzigen Woche verschieben die Kalkulationsgrundlage für lokale KI substantiell. Das Wichtigste für KMU in der DACH-Region:

Mac-Nutzer haben jetzt Zugang zu Frontier-naher Qualität. Qwen3.6-35B-A3B läuft auf 24 GB Unified Memory — das ist die Untergrenze des Mac Mini M4 Pro, nicht das Optimum. Wer bereits einen Mac Studio betreibt, erhält damit ein Modell in einer Qualitätsklasse, die vor 18 Monaten noch proprietäre Cloud-API-Verträge erforderte.

DSGVO-Konformität durch Architektur. Auf einem lokalen Mac oder Server verlassen Anfragen und Antworten das eigene Netzwerk nicht. Das löst nicht jeden Aspekt der DSGVO, schließt aber die kritischste Frage — Drittlandübertragung und unkontrollierter Datenzugang durch externe Anbieter — strukturell aus. Mehr dazu auf unserer Seite zu Datensouveränität und lokaler KI.

Hardware-Empfehlung für 2026:

Gerät	RAM	Modell	Einsatz
Mac Mini M4 Pro	48 GB	Qwen3.6-35B-A3B	Einzelnutzer, Büro
Mac Studio M4 Max	128 GB	Mehrere Modelle parallel	Kleines Team (3–5 Nutzer)
EU-GPU-Server	H200	DeepSeek V4-Flash	Hoher Durchsatz

Typische Anwendungsfälle in dieser Qualitätsklasse

Die Modellgeneration von April 2026 ist für folgende Aufgaben produktiv einsetzbar:

Vertragsanalyse und -zusammenfassung — Dokumente verlassen nie den eigenen Server
Coding-Assistenz und Code-Reviews — 73 % SWE-bench entspricht produktiver Qualität
Mehrsprachige Texterstellung (DE/EN/ES) ohne Qualitätsverlust
Interne FAQ-Automatisierung auf Basis eigener Wissensdatenbanken
Compliance-Prüfungen mit Reasoning-Modellen lokal und nachvollziehbar

Einordnung für die Praxis

Die Entscheidung für lokale Inferenz löst nicht automatisch jeden DSGVO-Aspekt — Zugriffskontrollen, Speicherfristen und das Verzeichnis von Verarbeitungstätigkeiten bleiben erforderlich. Aber sie schließt die häufigste Lücke: personenbezogene Daten, die auf Infrastruktur verarbeitet werden, die das Unternehmen nicht kontrolliert und nicht in der EU verortet ist. Gemäß unserem Verständnis des aktuellen Rechtsrahmens ist On-Premise-Inferenz eine der robustesten Grundlagen für DSGVO-konforme KI-Deployments im KMU-Umfeld.

Nächste Schritte

Für einen ersten Praxistest reichen ein Mac Mini M4 Pro und ein einzelner, klar definierter Use Case. Der häufigste Einstiegspunkt: die Automatisierung einer wiederkehrenden Dokumentenzusammenfassung oder der Aufbau eines Entwurfsgenerierungs-Tools auf Basis interner Dokumente.

Wer strukturiert vorgehen will: Freshlab bietet Pilotprojekte an, bei denen wir gemeinsam mit Ihrem Team das passende Modell, die passende Hardware und den konkreten Anwendungsfall testen — bevor Sie in Infrastruktur investieren.

Mehr zur lokalen KI-Strategie für KMU: Lokale KI für Ihr Unternehmen