Zwei Geräte dominieren derzeit die Diskussion in Entwickler-Communities rund um lokale LLM-Infrastruktur: der NVIDIA DGX Spark mit GB10-Superchip und der Apple Mac Studio M3 Ultra. Beide kosten in ähnlichen Konfigurationen etwa 4.000–5.000 USD, spielen aber in sehr unterschiedlichen Disziplinen besonders stark. Dieser Vergleich zeigt, welche Architektur zu welchem KMU-Anwendungsfall passt — und welche Faktoren über die reine Benchmark-Zahl hinaus entscheidend sind.
Was steckt im NVIDIA DGX Spark?
NVIDIA positioniert den DGX Spark als „persönlichen KI-Supercomputer". Im Kern arbeitet der GB10-Superchip: ein SoC auf TSMC 3nm mit einem 20-Kern-ARM-Prozessor (10× Cortex X925, 10× Cortex A725), einer Blackwell-GPU und 128 GB LPDDR5X-Speicher auf einem gemeinsamen 256-Bit-Bus. Laut NVIDIA liefert das Gerät bis zu einem Petaflop FP4-Rechenleistung.
Das Gehäuse misst gerade einmal 15 × 15 × 5 cm — kaum größer als ein Schulbuch. Der aktuelle Listenpreis liegt nach einer Erhöhung Anfang 2026 bei rund 4.699 USD.
Stärke: Compute-intensive Workloads
Die Blackwell-Architektur glänzt bei Aufgaben, die viel Rechenleistung benötigen: schnelles Verarbeiten großer Kontextfenster (Prefill), Fine-Tuning über LoRA und die Nutzung hocheffizienter Quantisierungsformate wie MXFP4.
Laut Messungen in der llama.cpp-Community (GitHub-Discussion #16578) erreicht der DGX Spark folgende Werte:
- 120B-Modell (MXFP4): ca. 25–35 tok/s bei Token-Generierung
- 30B-Modell Q8_0 (z. B. Qwen3-Coder-30B): ca. 20–38 tok/s
- Prefill 120B, 2.048 Tokens: über 1.000 tok/s
Das Prefill-Tempo ist besonders relevant für RAG-Pipelines, bei denen lange Dokumente in den Kontext geladen werden. Starke Zahlen also — aber mit einem Vorbehalt.
Schwäche: Speicherbandbreite bei großen Modellen ohne Quantisierung
Mit 273 GB/s Speicherbandbreite hat der DGX Spark eine strukturelle Begrenzung für Token-Generierung bei unquantisierten Modellen. Llama 3.3 70B in BF16 (volle Präzision) kommt laut Community-Berichten auf nur rund 2–3 tok/s — zu langsam für flüssige interaktive Nutzung. Mit MXFP4-Quantisierung sieht die Welt anders aus, doch nicht alle Modelle unterstützen dieses Format nativ.
Was kann der Mac Studio M3 Ultra?
Apples Mac Studio M3 Ultra bringt drei- bis viermal mehr Speicherbandbreite als der DGX Spark — der entscheidende Faktor bei der Token-Generierung großer Modelle. Je nach Konfiguration sind bis zu 512 GB Unified Memory verfügbar.
Seit Ollama nativ das MLX-Framework von Apple nutzt (ab Mai 2025), laufen quantisierte Modelle auf Apple Silicon sehr effizient. Community-Benchmarks berichten für Llama 70B in 4-Bit-Quantisierung von ca. 15–25 tok/s auf einem M3 Ultra mit 192 GB — deutlich flüssiger als BF16 auf dem DGX Spark.
Für Teams, die täglich interaktiv mit großen Modellen arbeiten, ist das ein spürbarer Unterschied in der User-Experience. Hinzu kommt das ausgereifte macOS-Ökosystem: Ollama, Open WebUI, LM Studio und andere Tools laufen ohne Linux-Kenntnisse sofort produktiv.
Der Kern-Unterschied: Compute versus Bandbreite
| Merkmal | DGX Spark GB10 | Mac Studio M3 Ultra |
|---|---|---|
| Speicher | 128 GB LPDDR5X | bis 512 GB unified |
| Speicherbandbreite | 273 GB/s | ~800+ GB/s |
| FP4-Rechenleistung | 1 Petaflop | keine native FP4-GPU |
| Llama 70B BF16 | ~2–3 tok/s | — |
| Llama 70B 4-Bit | ca. 10–20 tok/s | ca. 15–25 tok/s |
| LoRA Fine-Tuning | ✅ (Unsloth, CUDA) | eingeschränkt |
| Listenpreis (ca.) | 4.699 USD | ab 3.999 USD |
Alle tok/s-Angaben basieren auf Community-Benchmarks; keine eigenen Messungen.
Wann lohnt sich welches Gerät?
DGX Spark: Ideal für…
Fine-Tuning und Modellanpassung — Über Unsloth lassen sich LoRA-Adapter auf eigenen Firmendaten trainieren, direkt auf dem Gerät, ohne Cloud-Upload. Das ist besonders relevant für Betriebe, die personenbezogene oder vertrauliche Trainingsdaten verwenden und keinen US-Anbieter ins Datenschutzkonzept einbeziehen wollen.
Batch-Verarbeitung und Prefill-intensive Aufgaben — Juristische Dokumente, technische Berichte, lange Kundenakten: Wer große Mengen Text automatisiert verarbeitet, profitiert von der Blackwell-Compute-Stärke erheblich.
CUDA-Ökosystem und Skalierbarkeit — vLLM, SGLang, TensorRT-LLM, LangGraph — alle professionellen Inferenz-Frameworks laufen auf CUDA. Wer in Richtung Multi-GPU-Cluster oder produktive Serverinfrastruktur denkt, ist mit NVIDIA besser aufgestellt. EXO Labs hat zudem demonstriert, dass zwei DGX Spark kombiniert mit einem Mac Studio M3 Ultra einen rund 2,8-fachen Leistungsgewinn gegenüber dem Mac Studio allein erzielen — ein interessanter Ansatz für wachsende Teams.
Mac Studio M3 Ultra: Ideal für…
Interaktive Assistenten und Chat-Workflows — Schnelle Token-Generierung macht die tägliche Nutzung deutlich angenehmer. Für Mitarbeiter-Chatbots, Code-Assistenten und interne Wissensabfragen über RAG ist das der relevantere Faktor.
Große Modelle ohne Quantisierungsverlust — 192–512 GB Speicher erlauben es, 70B-Modelle oder größere in höherer Präzision zu betreiben. Wer auf maximale Modellqualität ohne Abstriche durch Quantisierung angewiesen ist, hat hier mehr Spielraum.
Einfacher Betrieb ohne Linux-Kenntnisse — Das macOS-Setup mit Ollama ist erheblich schlanker als eine CUDA-Konfiguration unter Linux. Für KMU ohne dediziertes IT-Team ist das ein praktischer Vorteil.
DSGVO und Datensouveränität: beide Geräte gleichwertig
Ein wesentlicher Vorteil gilt für beide Optionen: kein Datentransfer in die Cloud. Prompts, Dokumente und Modellantworten verlassen das Gerät nicht. Das vereinfacht die DSGVO-Konformität erheblich — kein Cloud-Anbieter als Auftragsverarbeiter, kein Drittlandtransfer in die USA, keine Abhängigkeit von externen SLAs oder Preisänderungen.
Gemäß unserem Verständnis der aktuellen Rechtslage gelten Unternehmen, die lokale LLMs betreiben, unter dem EU AI Act als „Deployer" mit Dokumentationspflichten — aber ohne die strengsten Transparenzanforderungen, die für Anbieter großer Foundation-Modelle gelten. Der lokale Betrieb vereinfacht diese Einstufung spürbar.
Mehr zu diesem Thema: Datensouveränität und lokale KI, Pilotprojekte für KMU.
Empfehlung für den Einstieg
Für die meisten KMU, die ihre erste lokale KI-Infrastruktur aufbauen, ist der Mac Studio M3 Ultra der praktischere Start: niedrigere Einstiegshürde, bessere Tool-Unterstützung, flüssigere Alltagserfahrung. Details zu typischen Setups finden Sie auf /local-ai.html.
Der DGX Spark wird attraktiv, sobald Anforderungen für Fine-Tuning, Batch-Automatisierung oder mittelfristige Cluster-Skalierung entstehen. Beide Architekturen schließen sich nicht aus — die kombinierte Nutzung ist heute schon möglich und wird aktiv in der Community erprobt.
Wenn Sie unsicher sind, welches Gerät oder welche Kombination zu Ihren konkreten Prozessen passt: Wir beraten KMU bei Auswahl, Setup und DSGVO-konformer Integration — jetzt Kontakt aufnehmen.