Microsoft Foundry Local: Lokale KI-Inferenz ohne Cloud

13. Jun 2026 Deutsch 4 Min. Lesezeit Auch auf: English, Español

local-llm microsoft on-premise

Microsoft hat Foundry Local in den General-Availability-Status gehoben, einen lokalen LLM-Stack, der ohne Cloud-Anbindung, ohne API-Kosten und ohne Datenaustausch mit Drittdiensten auf dem eigenen Gerät läuft. Für KMU, die bisher auf macOS-Hardware verzichten wollten oder keine eigene Linux-Server-Infrastruktur aufbauen konnten, öffnet das eine neue Tür: Foundry Local läuft nativ auf Windows, macOS (Apple Silicon) und Linux x64, und lässt sich mit einer einzigen Zeile im Windows-Terminal starten.

Ein Entwickler aus der Community schrieb auf X: "Microsoft is officially joining the local LLM trend with Foundry Local", und fasste damit treffend zusammen, was sich in der lokalen KI-Szene geändert hat: Neben Ollama, LM Studio und llama.cpp gibt es jetzt eine von einem großen Softwarehersteller direkt unterstützte Runtime, die Enterprise-Anforderungen in den Mittelpunkt stellt.

Was Foundry Local ist und warum es jetzt zählt

Foundry Local ist ein rund 20 MB großes natives Runtime-Paket, das direkt in Anwendungen eingebettet werden kann. Es stellt eine OpenAI-API-kompatible Schnittstelle für Chat-Completions und Audio-Transkription bereit, lokal, ohne Netzwerklatenz, ohne nutzungsbasierte Abrechnung. Das Modell wird beim ersten Aufruf heruntergeladen, lokal gecacht und bei jedem folgenden Start sofort geladen.

Die Runtime erkennt automatisch die verfügbare Hardware und wählt den besten Execution Provider: NVIDIA CUDA, AMD-Grafikprozessoren, Intel-NPUs, Qualcomm-NPUs auf Snapdragon-Windows-Geräten, oder, als Fallback, die CPU. Diese automatische Hardware-Erkennung unterscheidet Foundry Local von Ollama, das unter Windows bisher keine NPU-Beschleunigung bietet. Für KMU mit modernen Windows-Laptops mit Copilot+-Chip kann das ein konkreter Leistungsvorteil sein.

Schnellstart: Installation in zwei Schritten

Unter Windows genügen zwei Befehle:

winget install Microsoft.FoundryLocal
foundry model run phi-4-mini

Das Modell phi-4-mini, Microsofts kompaktes 3,8-Milliarden-Parameter-Modell, läuft nach dem Download direkt in der Kommandozeile als interaktives Chat-Interface. Wer eine OpenAI-kompatible API für eigene Anwendungen benötigt, startet den lokalen Server mit foundry service start und spricht ihn unter http://localhost:5273/v1/ an.

Auf macOS (Apple Silicon) ist der Prozess ähnlich unkompliziert: Foundry Local steht als nativer ARM64-Installer bereit. Linux-Nutzer greifen auf die x64-CLI zurück. In allen drei Fällen gilt: Keine Docker-Container, keine Python-Umgebungen, kein manuelles CUDA-Setup.

Welche Modelle Foundry Local unterstützt

Foundry Local kommt mit einer kuratierten Modellliste. Laut Microsoft-Dokumentation sind aktuell folgende Familien verfügbar:

Microsoft Phi-4 und Phi-4-mini: Kompakte Small Language Models (3,8B, 14B) mit gutem Reasoning, auch auf schwacher Hardware lauffähig
Qwen 3.5 (Alibaba): Starkes Allround-Modell mit 256 K-Token-Kontextfenster
DeepSeek-R1-Distill: Reasoning-optimierte Varianten von 1,5B bis 14B
Mistral: Bewährtes Open-Source-Modell für allgemeine Aufgaben

Im Vergleich: Ollama unterstützt nahezu jedes Modell im GGUF-Format, Gemma 4, Llama 4, Qwen 3.5, Command R+ und Hunderte weitere. Foundry Local ist bewusst selektiver, dafür für die unterstützten Modelle tiefer optimiert und durch Microsoft aktiv gewartet.

Foundry Local vs. Ollama: Ein ehrlicher Vergleich

Beide Tools haben ihre Berechtigung, sie adressieren leicht unterschiedliche Anwendungsfälle:

Kriterium	Foundry Local	Ollama
Betriebssysteme	Windows, macOS, Linux	macOS, Linux, Windows
NPU-Support	Ja (Intel, Qualcomm)	Nein
Modellauswahl	Kuratiert (~20 Modelle)	Offen (GGUF, 500+)
Einbettung in Apps	~20 MB Library	HTTP-Daemon (separater Prozess)
OpenAI-kompatibler Endpunkt	Ja	Ja
Unternehmens-Support	Microsoft-Supportkanal	Community
Lizenz	Microsoft EULA	MIT (Open Source)

Für Entwicklerteams, die Windows-Anwendungen bauen und den LLM-Stack direkt einbetten wollen, ist Foundry Local der direktere Weg. Für Nutzer mit maximaler Modellflexibilität oder primärem Apple-Silicon-Fokus bleibt Ollama die breiteren Wahl. Wer beide Tools parallel betreibt, profitiert von der Kompatibilität: Da beide eine OpenAI-kompatible API bieten, lassen sich Anwendungen ohne Code-Änderungen von einem auf den anderen Stack umleiten.

Datensouveränität und DSGVO

Der entscheidende Punkt für europäische KMU ist nicht das Performancedelta, sondern die Architektur: Foundry Local schickt keine Anfragen an externe APIs. Prompts, Kontext und Antworten bleiben auf dem lokalen Gerät. Für Anwendungsfälle, in denen Mitarbeiterdaten, Kundenanfragen oder Betriebsgeheimnisse verarbeitet werden, ist das keine optionale Zusatzfunktion, es ist die Grundvoraussetzung für DSGVO-konforme Verarbeitung.

Unsere Einschätzung: Die Tatsache, dass Microsoft jetzt aktiv in lokale Inferenz investiert, sendet ein klares Signal an Compliance-Verantwortliche, die bisher auf interne Genehmigungsrunden für Cloud-KI gewartet haben. Ein Werkzeug mit Microsoft-Branding und einem dokumentierten Enterprise-Supportpfad kann Beschaffungsentscheidungen in Unternehmen erheblich beschleunigen.

Eine Übersicht über datenschutzkonforme Einsatzszenarien finden Sie auf unserer Seite zur lokalen KI. Wie Datensouveränität in der Praxis aussieht, haben wir dort ebenfalls dokumentiert.

Relevanz für KMU in Deutschland

Für KMU-Betreiber, die bisher auf Cloud-KI-Dienste gesetzt haben und über On-Premise-KI nachdenken, vereinfacht Foundry Local den Einstieg erheblich:

Kein separater Server notwendig: Ein Windows-Arbeitsplatz mit ausreichend RAM genügt für erste Tests mit Phi-4-mini (8 GB RAM reichen für das 3,8B-Modell, laut Community-Berichten)
Keine Container-Kenntnisse erforderlich: winget install und ein Befehl genügen
Klarer Upgrade-Pfad: Wer später skalieren möchte, kann dieselbe Foundry-API gegen Azure AI Foundry tauschen, ohne Anwendungscode anzupassen
Kostenplanung: Keine per-Token-Kosten, kein Cloud-Abonnement, einmalige Hardware-Investition, laufende Betriebskosten nur für Strom

Für Betriebe, die staatliche Förderung für ihre Digitalisierung nutzen möchten, in Deutschland über das BAFA-Modul „Digital und Kreativ" oder KfW-Mittelstandsprogramme, kann ein dokumentierter On-Premise-KI-Testaufbau als Grundlage für den Förderantrag dienen, bevor größere Investitionen in dedizierte Hardware wie einen Mac Studio oder eine NVIDIA-GPU-Workstation getätigt werden.

Wenn Sie prüfen möchten, wie Foundry Local oder ein vergleichbarer lokaler KI-Stack in Ihrem Betrieb funktioniert, besprechen wir gern die konkreten Schritte, Pilotprojekt anfragen.