Lokaler KI-Stack 2026: Ollama, Gemma 4 und LangGraph gratis

4. Mai 2026 Deutsch 5 Min. Lesezeit

local-llm production-ai zero-cost

Ein Produktionssystem – ohne eine einzige Lizenzgebühr

Entwickler und IT-Verantwortliche in der KI-Community berichten zunehmend von einer überraschenden Erkenntnis: Ein vollständiger, produktionstauglicher KI-Stack ist im Jahr 2026 zu null Lizenzkosten betreibbar. Die Bausteine sind ausgereift, gut dokumentiert und laufen vollständig lokal – kein Daten-Upload in die Cloud, keine monatlichen API-Rechnungen, keine Abhängigkeit von einem US-Anbieter.

Was vor zwei Jahren noch nach Nischen-Experiment klang, ist zur soliden Alternative für kleine und mittlere Unternehmen geworden. Laut Community-Berichten hat Ollama im ersten Quartal 2026 die Marke von 52 Millionen monatlichen Downloads überschritten. Gemäß Entwicklerumfragen führen inzwischen rund 42 Prozent der Entwicklerinnen und Entwickler zumindest einen Teil ihrer LLM-Workloads vollständig lokal aus.

Die Frage ist nicht mehr ob dieser Ansatz funktioniert – sondern wie er sich am schnellsten für KMU umsetzen lässt.

Der Stack im Überblick

Der meistdiskutierte Aufbau kombiniert folgende Komponenten:

LLM-Server: Ollama (Open Source, MIT-Lizenz) auf localhost:11434
Modelle: Google Gemma 4, Meta Llama 3.3 oder Mistral Small 4 – alle unter permissiven Lizenzen
Orchestrierung: LangGraph oder CrewAI für mehrstufige Agenten-Workflows
RAG-Schicht: LlamaIndex als Framework, ChromaDB oder Qdrant als lokale Vektordatenbank
Embeddings: nomic-embed-text (274 MB, 8 192-Token-Chunks) – ebenfalls lokal

Jede dieser Komponenten ist Open Source. Ollama verwaltet Modelle mit einem einzigen Terminal-Befehl (ollama pull gemma4); LangGraph und CrewAI übernehmen die Orchestrierung von Aufgaben, Werkzeugaufrufen und Entscheidungsschleifen; ChromaDB oder Qdrant persistieren Embedding-Vektoren auf dem eigenen Server, ohne Verbindung nach außen.

Das Ergebnis: ein vollständiges KI-System, das nach der einmaligen Hardware-Investition keine weiteren Lizenz- oder Nutzungskosten verursacht.

Modellwahl: Gemma 4, Llama 3.3 oder Mistral Small 4?

Google Gemma 4 (Apache-2.0-Lizenz) ist laut dem offiziellen Google-DeepMind-Blog die erste Open-Weight-Modellfamilie, bei der agentisches Verhalten – Tool-Calling, mehrstufige Planung, strukturierte Ausgaben – als erstklassiges Designziel integriert wurde. Die 12B- und 27B-Varianten lassen sich auf einer handelsüblichen Workstation oder einem Mac Studio betreiben und liefern für Dokumentenanalyse, strukturierte Datenextraktion und FAQ-Beantwortung starke Ergebnisse.

Meta Llama 3.3 bietet starke Allround-Performance und ist in der 70B-Variante für Teams mit leistungsstarker Hardware gut geeignet – etwa einem Mac Studio M4 Ultra (128 GB Unified Memory) oder einer Linux-Workstation mit NVIDIA RTX 4090 (24 GB VRAM). Die kleineren Varianten (8B, 32B) laufen auch auf bescheidener Hardware.

Mistral Small 4 punktet mit kompaktem Footprint und schneller Inferenz auf Consumer-Hardware. Für den Einstieg empfiehlt die Community Gemma 4 (27B) via Ollama: ausreichend leistungsfähig für reale Aufgaben, DSGVO-sicher und kostenfrei.

Inferenzgeschwindigkeit

Laut Community-Messungen erreicht Gemma 4 27B auf einem Mac Studio M3 Ultra typischerweise 20–40 Tokens pro Sekunde, je nach Quantisierungsstufe (Q4 bis Q8). Auf einer NVIDIA RTX 4090 unter Linux liegen die gemeldeten Werte für ähnliche Modelle zwischen 30 und 60 Tokens pro Sekunde. Diese Werte machen lokale Inferenz für die meisten interaktiven Anwendungsfälle gut nutzbar.

Orchestrierung mit LangGraph und CrewAI

Sobald das Modell über Ollama läuft, erlaubt LangGraph die Umsetzung komplexer, zustandsbehafteter Workflows: Der Agent kann Webseiten lesen, Tabellen befüllen, Entscheidungen treffen und Werkzeuge aufrufen – alles ohne Internetverbindung. LangGraph beschreibt Agenten-Workflows als gerichtete Graphen, was Debugging und Erweiterung erleichtert.

CrewAI eignet sich besonders für Mehrfach-Agenten-Systeme, bei denen unterschiedliche "Rollen" (Recherche, Analyse, Zusammenfassung, Qualitätsprüfung) zusammenarbeiten. Beide Frameworks bieten eine offizielle Python-Integration und lassen sich mit Ollama per OpenAI-kompatibler API verbinden – ein base_url-Parameter reicht aus.

Typische Anwendungsfälle für KMU:

Automatische Beantwortung interner Anfragen (HR-FAQ, IT-Helpdesk, Unternehmensrichtlinien)
Dokumentenverarbeitung (Rechnungen, Verträge, Lieferantenkorrespondenz)
Datenextraktion aus unstrukturierten Berichten oder Formularen
Zusammenfassung von Besprechungsprotokollen oder Kundenanfragen

Laut Berichten aus der Praxis dauert der Aufbau eines funktionierenden Prototyps mit einem internen Python-Entwickler zwei bis vier Stunden.

RAG lokal: LlamaIndex mit ChromaDB oder Qdrant

Retrieval-Augmented Generation (RAG) erlaubt dem Modell, eigene Unternehmensdokumente zu durchsuchen, anstatt ausschließlich auf sein Trainings-Wissen zu vertrauen. LlamaIndex indexiert PDF-, Word- und HTML-Dateien; ChromaDB oder Qdrant speichern die resultierenden Vektoren lokal auf dem eigenen Server.

Das Ergebnis: ein KI-Assistent, der firmeninterne Handbücher, Produktkataloge, technische Dokumentationen oder Kundenkorrespondenz kennt – ohne dass auch nur ein Buchstabe dieser Daten das eigene Netzwerk verlässt. Für einen Softwarebetrieb könnte das bedeuten: der Assistent kennt alle internen Coding-Guidelines. Für eine Kanzlei: alle nicht-personenbezogenen Vorlagentexte.

DSGVO-Konformität als Wettbewerbsvorteil

Für europäische KMU ist dieser Punkt entscheidend. Da alle Verarbeitungsschritte lokal stattfinden, entfällt die Pflicht zum Abschluss eines Auftragsverarbeitungsvertrags mit einem US-Cloud-Anbieter. Es gibt keine Übertragung personenbezogener Daten in ein Drittland im Sinne der DSGVO.

Gemäß unserem Verständnis des EU-KI-Gesetzes (AI Act) und der aktuellen DSGVO-Praxis vereinfacht ein vollständig lokaler Stack die Dokumentationspflichten erheblich. Kunden und Geschäftspartner können auf Anfrage leicht nachvollziehen, wo ihre Daten verarbeitet werden – ein konkretes Argument im B2B-Vertrieb und bei Ausschreibungen.

Der EU AI Act sieht für bestimmte Hochrisiko-Anwendungen umfangreiche Transparenz- und Dokumentationspflichten vor. Ein lokaler Stack, der ausschließlich auf eigenen Servern läuft und keine personenbezogenen Daten an Dritte überträgt, reduziert das regulatorische Risikoprofil erheblich.

Kosten und Förderung für KMU

Hardware-Einstieg:

Hardware	Arbeitsspeicher	Geeignet für
Mac Mini M4 Pro	48 GB Unified Memory	Gemma 4 27B (Q4/Q8)
Mac Studio M3 Ultra	96–192 GB	Llama 3.3 70B
Linux-Workstation + RTX 4090	24 GB VRAM	Gemma 4 27B, Mistral Small 4

Preise ab ca. 1 600 € (Mac Mini M4 Pro) bis ca. 6 000 € (Mac Studio M3 Ultra) – einmalige Investition ohne laufende Lizenzkosten.

Laufende Kosten: Stromverbrauch (typisch 30–150 W im Betrieb) plus gelegentlicher Wartungsaufwand. Keine API-Abonnements, keine Token-Gebühren.

Förderung: Über das BAFA-Programm "Unternehmensberatung für KMU" können Beratungskosten für KI-Einführungsprojekte bezuschusst werden. KfW-Digitalisierungsprogramme decken gemäß unserer Lesart der aktuellen Förderrichtlinien ebenfalls Hard- und Softwarekosten ab. Eine Prüfung im Einzelfall durch einen Fördermittelberater ist empfehlenswert.

Break-even: Im Vergleich zu einem typischen Cloud-API-Abonnement für KMU (laut Community-Berechnungen 50–500 € pro Monat) liegt der Break-even bei sechs bis zwölf Monaten – danach läuft der Stack kostenlos.

Erste Schritte mit Freshlab

Freshlab hat vergleichbare lokale KI-Stacks bereits in Pilotprojekten mit europäischen KMU eingerichtet – als Paket aus Hardware-Auswahl, Modell-Setup, RAG-Konfiguration und Mitarbeiter-Schulung. Unser Kaira Toolkit bietet eine einsatzbereite Grundlage für genau diesen Stack.

Mehr Hintergründe zur technischen und rechtlichen Perspektive lesen Sie auf unserer Seite zur Datensouveränität.

Wenn Sie wissen möchten, ob der lokale KI-Stack für Ihr Unternehmen der richtige Schritt ist, sprechen Sie uns an – wir zeigen Ihnen in einem kostenlosen Erstgespräch, was realistisch ist und wie der Aufbau konkret aussieht.