Entwicklerinnen und KI-Praktikerinnen diskutieren auf X, dass sich 2026 ein vollständiger, produktionstauglicher KI-Stack ohne Cloud-Dienste und ohne API-Gebühren betreiben lässt. Konkret beschreiben sie Kombinationen aus Ollama als lokaler LLM-Runtime, offenen Sprachmodellen wie Llama 3.3 oder Gemma 3, einem Orchestrierungs-Framework wie LangGraph oder CrewAI und einer lokalen Vektordatenbank wie ChromaDB oder Qdrant.
Das klingt nach einem Versprechen, das sich erst ab einer bestimmten Unternehmensgröße einlösen lässt – doch die Praxis zeigt: Schon mit einem Mac Studio oder einem handelsüblichen Server ab 64 GB RAM sind alle vier Schichten stabil betreibbar.
Warum 2026 der Wendepunkt ist
Drei Entwicklungen haben sich gleichzeitig beschleunigt. Erstens: Offene Modelle wie Llama 3.3 70B, Gemma 3 27B und Qwen 2.5 72B erreichen bei typischen Unternehmensaufgaben – Dokumentenanalyse, Klassifikation, strukturierte Datenextraktion – eine Qualität, die bis vor Kurzem noch Cloud-APIs vorbehalten war. Zweitens: Ollama bringt diese Modelle mit einem einzigen Terminal-Befehl auf jede macOS- oder Linux-Maschine. Drittens: Die Orchestrierungs-Frameworks LangGraph und CrewAI sind inzwischen produktionserprobt und aktiv gewartet.
Für Unternehmen mit Datenschutzpflichten ist das kein Experiment mehr – es ist eine realistische Infrastrukturentscheidung.
Schicht 1: Ollama als LLM-Runtime
Ollama ist der De-facto-Standard für lokale Modell-Deployments. Der Befehl ollama pull llama3.3:70b lädt das Modell herunter und startet einen REST-Endpunkt, der die OpenAI-API-Schnittstelle nachahmt. Das bedeutet: Jede Python-Bibliothek, die mit der OpenAI-API arbeitet – LangChain, LangGraph, LlamaIndex, CrewAI – funktioniert mit Ollama ohne eine einzige Codeänderung.
Die MLX-Unterstützung macht Ollama auf Apple Silicon besonders leistungsfähig. Laut Community-Messungen laufen Gemma 3 12B auf einem MacBook Pro M3 Pro und Llama 3.3 70B auf einem Mac Studio M3 Max mit Antwortzeiten, die für interaktive Nutzung ausreichend sind.
Empfohlene Modelle nach Anwendungsfall
| Modell | Parameter | Stärke |
|---|---|---|
| Llama 3.3 70B | 70B | Allround, Reasoning, Deutsch |
| Gemma 3 27B | 27B | Schnell, effizient auf 24 GB |
| Qwen 2.5 72B | 72B | Mehrsprachigkeit, Deutsch sehr gut |
| Mistral Small | 22B | Kurze Antworten, Klassifikation |
Neuere Modellversionen erscheinen laufend – das Ollama-Repository unter ollama.com listet stets den aktuellen Stand.
Schicht 2: Orchestrierung mit LangGraph oder CrewAI
Ein Sprachmodell allein ist ein Werkzeug, kein System. Für mehrstufige Workflows – Dokumentenauswertung mit bedingten Entscheidungen, parallele Datenbeschaffung, Freigabeprozesse – braucht es ein Framework, das Schritte, Werkzeugaufrufe und Zustandsverwaltung koordiniert.
LangGraph eignet sich für komplexe, auditierbare Pipelines. Das Graph-Modell macht Entscheidungspfade explizit nachvollziehbar und erlaubt "Human-in-the-Loop"-Genehmigungen – relevant für Prozesse, bei denen KI-Ausgaben von einer Person freigegeben werden müssen, etwa in Compliance-sensitiven Bereichen.
CrewAI setzt auf rollenbasierte Agenten: Ein Recherche-Agent sammelt Informationen, ein Analyse-Agent bewertet sie, ein Ausgabe-Agent formatiert das Ergebnis. Die Konfiguration ist deklarativ und für Teams ohne tiefe Python-Kenntnisse zugänglich.
Beide Frameworks verbinden sich via OpenAI-kompatibler API mit Ollama – ohne Cloud-Aufruf:
from langchain_ollama import ChatOllama
llm = ChatOllama(model="llama3.3:70b", base_url="http://localhost:11434")
Kein API-Schlüssel. Kein Datendurchfluss nach außen.
Schicht 3: Lokaler Vektorspeicher für RAG
Retrieval-Augmented Generation (RAG) ist das Herzstück der meisten produktiven Unternehmens-KI: Das Modell antwortet nicht aus seinem Trainingswissen, sondern aus den eigenen Dokumenten. Dafür braucht es lokale Embedding-Modelle und eine Vektordatenbank.
Lokale Embeddings laufen ebenfalls über Ollama: nomic-embed-text und mxbai-embed-large erzeugen hochwertige Vektoren vollständig lokal.
ChromaDB im eingebetteten Modus läuft direkt im Python-Prozess – kein separater Server, ideal für kleine bis mittlere Deployments. Qdrant als Docker-Container bietet bessere Performance bei hohem Anfragevolumen und mehreren gleichzeitigen Nutzenden.
Die vollständige RAG-Architektur – Embedding, Speicher, Retrieval, Generierung – läuft damit komplett lokal. Kein Byte sensibler Unternehmensdaten verlässt das Netzwerk. Einen detaillierteren Einstieg in lokale Embeddings bietet unser Leitfaden zu lokaler KI.
Typische Anwendungsfälle für KMU
Mit diesem Stack sind folgende Anwendungen ohne Cloud-Abhängigkeit umsetzbar:
- Interne Dokumentensuche: Verträge, SOPs, E-Mail-Archive und Handbücher per natürlicher Sprache durchsuchen
- Interner FAQ-Bot: Mitarbeiterfragen werden automatisch auf Basis interner Dokumentation beantwortet
- Datenextraktion aus PDFs: Rechnungen, Lieferantenformulare oder Antragsformulare strukturiert auslesen
- Meeting-Protokollierung: Kombination mit lokal laufendem Whisper für automatische Zusammenfassungen
- Code-Assistenz: Intern gehosteter Coding-Assistent ohne Weitergabe proprietären Codes
Die kAIra Toolkit-Suite von Freshlab integriert diese Anwendungsfälle in eine verwaltbare Plattform für KMU.
DSGVO-Konformität als eingebauter Vorteil
Der entscheidende Unterschied zu Cloud-Diensten ist die vollständige Datenkontrolle. Kein US-amerikanischer Anbieter verarbeitet Geschäftsdaten. Keine Auftragsverarbeitungsverträge (AVV) mit komplexen Drittstaatentransfers erforderlich. Kein Datenverlust bei einem Sicherheitsvorfall beim Anbieter.
Für Unternehmen, die nach DSGVO Art. 9 besonders schützenswerte Daten verarbeiten – Patientendaten, Personalakten, Mandanteninformationen – ist die lokale Architektur oft nicht nur wirtschaftlich sinnvoll, sondern die einzig rechtssichere Wahl. Mehr zu diesem Thema: Datensouveränität und lokale KI.
Realistische Kosten und Amortisation
Die gesamte Software ist kostenlos und Open Source. Die Kosten entstehen bei:
- Hardware: Mac Studio M3 Max (96 GB) ab ca. 4.500 €; ausreichend für 70B-Modelle mit mehreren parallelen Nutzenden. Mac Studio M3 Ultra (192 GB) für schwerere Workloads oder 236B-Modelle. Alternativ: dedizierter Linux-Server mit 64 GB RAM für kleinere Modelle.
- Integration: Je nach Komplexität der internen Systeme 2–8 Tage Einrichtungsaufwand.
- Strom: Ca. 20–30 W Leerlaufleistung – gemäß unserer Kalkulation vernachlässigbar gegenüber Cloud-API-Kosten bei regelmäßiger Nutzung.
Gegenüber einem typischen Unternehmens-Abonnement bei Cloud-LLM-Diensten liegt die Amortisationszeit der Hardware nach unserem Verständnis für viele KMU-Nutzungsprofile unter 18 Monaten. KfW-Digitalisierungskredite oder BAFA-Förderprogramme können Investitionen in Digitalisierungsinfrastruktur bezuschussen; ob ein lokales KI-Setup im Einzelfall förderfähig ist, sollte mit einer zugelassenen Beratungsstelle geprüft werden.
Kompetenzaufbau im Team
Freshlab bietet kompakte Trainings zu Ollama, LangGraph und RAG-Implementierung an, die Teams in die Lage versetzen, den Stack eigenständig zu betreiben und weiterzuentwickeln: KI-Training für KMU.
Der erste Schritt ist meist ein überschaubares Pilotprojekt – ein konkreter Anwendungsfall, der sich schnell messen lässt. Freshlab begleitet KMU von der Architekturentscheidung bis zum laufenden System.