Lokaler KI-Stack 2026: Produktiv ohne Cloud und API-Kosten

22. Mai 2026 Deutsch 5 Min. Lesezeit Auch auf: English, Español

lokale-ki ollama llm-stack

Entwicklerinnen und KI-Praktikerinnen diskutieren auf X, dass sich 2026 ein vollständiger, produktionstauglicher KI-Stack ohne Cloud-Dienste und ohne API-Gebühren betreiben lässt. Konkret beschreiben sie Kombinationen aus Ollama als lokaler LLM-Runtime, offenen Sprachmodellen wie Llama 3.3 oder Gemma 3, einem Orchestrierungs-Framework wie LangGraph oder CrewAI und einer lokalen Vektordatenbank wie ChromaDB oder Qdrant.

Das klingt nach einem Versprechen, das sich erst ab einer bestimmten Unternehmensgröße einlösen lässt, doch die Praxis zeigt: Schon mit einem Mac Studio oder einem handelsüblichen Server ab 64 GB RAM sind alle vier Schichten stabil betreibbar.

Warum 2026 der Wendepunkt ist

Drei Entwicklungen haben sich gleichzeitig beschleunigt. Erstens: Offene Modelle wie Llama 3.3 70B, Gemma 3 27B und Qwen 2.5 72B erreichen bei typischen Unternehmensaufgaben, Dokumentenanalyse, Klassifikation, strukturierte Datenextraktion, eine Qualität, die bis vor Kurzem noch Cloud-APIs vorbehalten war. Zweitens: Ollama bringt diese Modelle mit einem einzigen Terminal-Befehl auf jede macOS- oder Linux-Maschine. Drittens: Die Orchestrierungs-Frameworks LangGraph und CrewAI sind inzwischen produktionserprobt und aktiv gewartet.

Für Unternehmen mit Datenschutzpflichten ist das kein Experiment mehr, es ist eine realistische Infrastrukturentscheidung.

Schicht 1: Ollama als LLM-Runtime

Ollama ist der De-facto-Standard für lokale Modell-Deployments. Der Befehl ollama pull llama3.3:70b lädt das Modell herunter und startet einen REST-Endpunkt, der die OpenAI-API-Schnittstelle nachahmt. Das bedeutet: Jede Python-Bibliothek, die mit der OpenAI-API arbeitet, LangChain, LangGraph, LlamaIndex, CrewAI, funktioniert mit Ollama ohne eine einzige Codeänderung.

Die MLX-Unterstützung macht Ollama auf Apple Silicon besonders leistungsfähig. Laut Community-Messungen laufen Gemma 3 12B auf einem MacBook Pro M3 Pro und Llama 3.3 70B auf einem Mac Studio M3 Max mit Antwortzeiten, die für interaktive Nutzung ausreichend sind.

Empfohlene Modelle nach Anwendungsfall

Modell	Parameter	Stärke
Llama 3.3 70B	70B	Allround, Reasoning, Deutsch
Gemma 3 27B	27B	Schnell, effizient auf 24 GB
Qwen 2.5 72B	72B	Mehrsprachigkeit, Deutsch sehr gut
Mistral Small	22B	Kurze Antworten, Klassifikation

Neuere Modellversionen erscheinen laufend, das Ollama-Repository unter ollama.com listet stets den aktuellen Stand.

Schicht 2: Orchestrierung mit LangGraph oder CrewAI

Ein Sprachmodell allein ist ein Werkzeug, kein System. Für mehrstufige Workflows, Dokumentenauswertung mit bedingten Entscheidungen, parallele Datenbeschaffung, Freigabeprozesse, braucht es ein Framework, das Schritte, Werkzeugaufrufe und Zustandsverwaltung koordiniert.

LangGraph eignet sich für komplexe, auditierbare Pipelines. Das Graph-Modell macht Entscheidungspfade explizit nachvollziehbar und erlaubt "Human-in-the-Loop"-Genehmigungen, relevant für Prozesse, bei denen KI-Ausgaben von einer Person freigegeben werden müssen, etwa in Compliance-sensitiven Bereichen.

CrewAI setzt auf rollenbasierte Agenten: Ein Recherche-Agent sammelt Informationen, ein Analyse-Agent bewertet sie, ein Ausgabe-Agent formatiert das Ergebnis. Die Konfiguration ist deklarativ und für Teams ohne tiefe Python-Kenntnisse zugänglich.

Beide Frameworks verbinden sich via OpenAI-kompatibler API mit Ollama, ohne Cloud-Aufruf:

from langchain_ollama import ChatOllama
llm = ChatOllama(model="llama3.3:70b", base_url="http://localhost:11434")

Kein API-Schlüssel. Kein Datendurchfluss nach außen.

Schicht 3: Lokaler Vektorspeicher für RAG

Retrieval-Augmented Generation (RAG) ist das Herzstück der meisten produktiven Unternehmens-KI: Das Modell antwortet nicht aus seinem Trainingswissen, sondern aus den eigenen Dokumenten. Dafür braucht es lokale Embedding-Modelle und eine Vektordatenbank.

Lokale Embeddings laufen ebenfalls über Ollama: nomic-embed-text und mxbai-embed-large erzeugen hochwertige Vektoren vollständig lokal.

ChromaDB im eingebetteten Modus läuft direkt im Python-Prozess, kein separater Server, ideal für kleine bis mittlere Deployments. Qdrant als Docker-Container bietet bessere Performance bei hohem Anfragevolumen und mehreren gleichzeitigen Nutzenden.

Die vollständige RAG-Architektur, Embedding, Speicher, Retrieval, Generierung, läuft damit komplett lokal. Kein Byte sensibler Unternehmensdaten verlässt das Netzwerk. Einen detaillierteren Einstieg in lokale Embeddings bietet unser Leitfaden zu lokaler KI.

Typische Anwendungsfälle für KMU

Mit diesem Stack sind folgende Anwendungen ohne Cloud-Abhängigkeit umsetzbar:

Interne Dokumentensuche: Verträge, SOPs, E-Mail-Archive und Handbücher per natürlicher Sprache durchsuchen
Interner FAQ-Bot: Mitarbeiterfragen werden automatisch auf Basis interner Dokumentation beantwortet
Datenextraktion aus PDFs: Rechnungen, Lieferantenformulare oder Antragsformulare strukturiert auslesen
Meeting-Protokollierung: Kombination mit lokal laufendem Whisper für automatische Zusammenfassungen
Code-Assistenz: Intern gehosteter Coding-Assistent ohne Weitergabe proprietären Codes

Die kAIra Tools-Suite von Freshlab integriert diese Anwendungsfälle in eine verwaltbare Plattform für KMU.

DSGVO-Konformität als eingebauter Vorteil

Der entscheidende Unterschied zu Cloud-Diensten ist die vollständige Datenkontrolle. Kein US-amerikanischer Anbieter verarbeitet Geschäftsdaten. Keine Auftragsverarbeitungsverträge (AVV) mit komplexen Drittstaatentransfers erforderlich. Kein Datenverlust bei einem Sicherheitsvorfall beim Anbieter.

Für Unternehmen, die nach DSGVO Art. 9 besonders schützenswerte Daten verarbeiten, Patientendaten, Personalakten, Mandanteninformationen, ist die lokale Architektur oft nicht nur wirtschaftlich sinnvoll, sondern die einzig rechtssichere Wahl. Mehr zu diesem Thema: Datensouveränität und lokale KI.

Realistische Kosten und Amortisation

Die gesamte Software ist kostenlos und Open Source. Die Kosten entstehen bei:

Hardware: Mac Studio M3 Max (96 GB) ab ca. 4.500 €; ausreichend für 70B-Modelle mit mehreren parallelen Nutzenden. Mac Studio M3 Ultra (192 GB) für schwerere Workloads oder 236B-Modelle. Alternativ: dedizierter Linux-Server mit 64 GB RAM für kleinere Modelle.
Integration: Je nach Komplexität der internen Systeme 2-8 Tage Einrichtungsaufwand.
Strom: Ca. 20-30 W Leerlaufleistung, gemäß unserer Kalkulation vernachlässigbar gegenüber Cloud-API-Kosten bei regelmäßiger Nutzung.

Gegenüber einem typischen Unternehmens-Abonnement bei Cloud-LLM-Diensten liegt die Amortisationszeit der Hardware nach unserem Verständnis für viele KMU-Nutzungsprofile unter 18 Monaten. KfW-Digitalisierungskredite oder BAFA-Förderprogramme können Investitionen in Digitalisierungsinfrastruktur bezuschussen; ob ein lokales KI-Setup im Einzelfall förderfähig ist, sollte mit einer zugelassenen Beratungsstelle geprüft werden.

Kompetenzaufbau im Team

Freshlab bietet kompakte Trainings zu Ollama, LangGraph und RAG-Implementierung an, die Teams in die Lage versetzen, den Stack eigenständig zu betreiben und weiterzuentwickeln: KI-Training für KMU.

Der erste Schritt ist meist ein überschaubares Pilotprojekt, ein konkreter Anwendungsfall, der sich schnell messen lässt. Freshlab begleitet KMU von der Architekturentscheidung bis zum laufenden System.

Pilotprojekt anfragen