Microsoft hat Foundry Local in den General-Availability-Status gehoben — einen lokalen LLM-Stack, der ohne Cloud-Anbindung, ohne API-Kosten und ohne Datenaustausch mit Drittdiensten auf dem eigenen Gerät läuft. Für KMU, die bisher auf macOS-Hardware verzichten wollten oder keine eigene Linux-Server-Infrastruktur aufbauen konnten, öffnet das eine neue Tür: Foundry Local läuft nativ auf Windows, macOS (Apple Silicon) und Linux x64 — und lässt sich mit einer einzigen Zeile im Windows-Terminal starten.
Entwickler Mim schrieb auf X: "Microsoft is officially joining the local LLM trend with Foundry Local" — und fasste damit treffend zusammen, was sich in der lokalen KI-Szene geändert hat: Neben Ollama, LM Studio und llama.cpp gibt es jetzt eine von einem großen Softwarehersteller direkt unterstützte Runtime, die Enterprise-Anforderungen in den Mittelpunkt stellt.
Was Foundry Local ist und warum es jetzt zählt
Foundry Local ist ein rund 20 MB großes natives Runtime-Paket, das direkt in Anwendungen eingebettet werden kann. Es stellt eine OpenAI-API-kompatible Schnittstelle für Chat-Completions und Audio-Transkription bereit — lokal, ohne Netzwerklatenz, ohne nutzungsbasierte Abrechnung. Das Modell wird beim ersten Aufruf heruntergeladen, lokal gecacht und bei jedem folgenden Start sofort geladen.
Die Runtime erkennt automatisch die verfügbare Hardware und wählt den besten Execution Provider: NVIDIA CUDA, AMD-Grafikprozessoren, Intel-NPUs, Qualcomm-NPUs auf Snapdragon-Windows-Geräten — oder, als Fallback, die CPU. Diese automatische Hardware-Erkennung unterscheidet Foundry Local von Ollama, das unter Windows bisher keine NPU-Beschleunigung bietet. Für KMU mit modernen Windows-Laptops mit Copilot+-Chip kann das ein konkreter Leistungsvorteil sein.
Schnellstart: Installation in zwei Schritten
Unter Windows genĂĽgen zwei Befehle:
winget install Microsoft.FoundryLocal
foundry model run phi-4-mini
Das Modell phi-4-mini — Microsofts kompaktes 3,8-Milliarden-Parameter-Modell — läuft nach dem Download direkt in der Kommandozeile als interaktives Chat-Interface. Wer eine OpenAI-kompatible API für eigene Anwendungen benötigt, startet den lokalen Server mit foundry service start und spricht ihn unter http://localhost:5273/v1/ an.
Auf macOS (Apple Silicon) ist der Prozess ähnlich unkompliziert: Foundry Local steht als nativer ARM64-Installer bereit. Linux-Nutzer greifen auf die x64-CLI zurück. In allen drei Fällen gilt: Keine Docker-Container, keine Python-Umgebungen, kein manuelles CUDA-Setup.
Welche Modelle Foundry Local unterstĂĽtzt
Foundry Local kommt mit einer kuratierten Modellliste. Laut Microsoft-Dokumentation sind aktuell folgende Familien verfĂĽgbar:
- Microsoft Phi-4 und Phi-4-mini: Kompakte Small Language Models (3,8B–14B) mit gutem Reasoning, auch auf schwacher Hardware lauffähig
- Qwen 3.5 (Alibaba): Starkes Allround-Modell mit 256 K-Token-Kontextfenster
- DeepSeek-R1-Distill: Reasoning-optimierte Varianten von 1,5B bis 14B
- Mistral: Bewährtes Open-Source-Modell für allgemeine Aufgaben
Im Vergleich: Ollama unterstützt nahezu jedes Modell im GGUF-Format — Gemma 4, Llama 4, Qwen 3.5, Command R+ und Hunderte weitere. Foundry Local ist bewusst selektiver, dafür für die unterstützten Modelle tiefer optimiert und durch Microsoft aktiv gewartet.
Foundry Local vs. Ollama: Ein ehrlicher Vergleich
Beide Tools haben ihre Berechtigung — sie adressieren leicht unterschiedliche Anwendungsfälle:
| Kriterium | Foundry Local | Ollama |
|---|---|---|
| Betriebssysteme | Windows, macOS, Linux | macOS, Linux, Windows |
| NPU-Support | Ja (Intel, Qualcomm) | Nein |
| Modellauswahl | Kuratiert (~20 Modelle) | Offen (GGUF, 500+) |
| Einbettung in Apps | ~20 MB Library | HTTP-Daemon (separater Prozess) |
| OpenAI-kompatibler Endpunkt | Ja | Ja |
| Unternehmens-Support | Microsoft-Supportkanal | Community |
| Lizenz | Microsoft EULA | MIT (Open Source) |
Für Entwicklerteams, die Windows-Anwendungen bauen und den LLM-Stack direkt einbetten wollen, ist Foundry Local der direktere Weg. Für Nutzer mit maximaler Modellflexibilität oder primärem Apple-Silicon-Fokus bleibt Ollama die breiteren Wahl. Wer beide Tools parallel betreibt, profitiert von der Kompatibilität: Da beide eine OpenAI-kompatible API bieten, lassen sich Anwendungen ohne Code-Änderungen von einem auf den anderen Stack umleiten.
Datensouveränität und DSGVO
Der entscheidende Punkt für europäische KMU ist nicht das Performancedelta, sondern die Architektur: Foundry Local schickt keine Anfragen an externe APIs. Prompts, Kontext und Antworten bleiben auf dem lokalen Gerät. Für Anwendungsfälle, in denen Mitarbeiterdaten, Kundenanfragen oder Betriebsgeheimnisse verarbeitet werden, ist das keine optionale Zusatzfunktion — es ist die Grundvoraussetzung für DSGVO-konforme Verarbeitung.
Unsere Einschätzung: Die Tatsache, dass Microsoft jetzt aktiv in lokale Inferenz investiert, sendet ein klares Signal an Compliance-Verantwortliche, die bisher auf interne Genehmigungsrunden für Cloud-KI gewartet haben. Ein Werkzeug mit Microsoft-Branding und einem dokumentierten Enterprise-Supportpfad kann Beschaffungsentscheidungen in Unternehmen erheblich beschleunigen.
Eine Übersicht über datenschutzkonforme Einsatzszenarien finden Sie auf unserer Seite zur lokalen KI. Wie Datensouveränität in der Praxis aussieht, haben wir dort ebenfalls dokumentiert.
Relevanz fĂĽr KMU in Deutschland
FĂĽr KMU-Betreiber, die bisher auf Cloud-KI-Dienste gesetzt haben und ĂĽber On-Premise-KI nachdenken, vereinfacht Foundry Local den Einstieg erheblich:
- Kein separater Server notwendig: Ein Windows-Arbeitsplatz mit ausreichend RAM genĂĽgt fĂĽr erste Tests mit Phi-4-mini (8 GB RAM reichen fĂĽr das 3,8B-Modell, laut Community-Berichten)
- Keine Container-Kenntnisse erforderlich:
winget installund ein Befehl genügen - Klarer Upgrade-Pfad: Wer später skalieren möchte, kann dieselbe Foundry-API gegen Azure AI Foundry tauschen, ohne Anwendungscode anzupassen
- Kostenplanung: Keine per-Token-Kosten, kein Cloud-Abonnement — einmalige Hardware-Investition, laufende Betriebskosten nur für Strom
Für Betriebe, die staatliche Förderung für ihre Digitalisierung nutzen möchten — in Deutschland über das BAFA-Modul „Digital und Kreativ" oder KfW-Mittelstandsprogramme — kann ein dokumentierter On-Premise-KI-Testaufbau als Grundlage für den Förderantrag dienen, bevor größere Investitionen in dedizierte Hardware wie einen Mac Studio oder eine NVIDIA-GPU-Workstation getätigt werden.
Wenn Sie prüfen möchten, wie Foundry Local oder ein vergleichbarer lokaler KI-Stack in Ihrem Betrieb funktioniert, besprechen wir gern die konkreten Schritte — Pilotprojekt anfragen.