RAG (Retrieval-Augmented Generation) ist die praktischste Methode, um Sprachmodelle mit eigenem Firmenwissen anzureichern — ohne das Modell neu trainieren zu müssen. Die Technologie ist ausgereift. Das Problem: Die meisten Tutorials setzen auf Cloud-Embeddings von OpenAI, Cohere oder Pinecone, die jedes Dokument und jede Suchanfrage an externe Server senden.
Für Kanzleien, Handwerksbetriebe mit Kundendaten oder Fertigungsunternehmen mit vertraulichen Rezepturen ist das keine Option. Dieser Leitfaden zeigt, wie ein vollständig lokaler RAG-Stack — von der Einbettung bis zur Antwortgenerierung — produktionsreif aufgebaut wird: kein Cloud-Kontakt, keine API-Kosten, DSGVO-konform by design.
Welche lokalen Embedding-Modelle für die Produktion taugen
Ein Embedding-Modell wandelt Text in einen numerischen Vektor um, der semantische Ähnlichkeit messbar macht. Wenn ein Nutzer fragt "Welche Zahlungsbedingungen gelten für Großkunden?", findet das System passende Vertragsklauseln — auch wenn der Vertragstext andere Formulierungen verwendet.
Zwei Modelle haben sich in der Praxis als zuverlässig etabliert:
- nomic-embed-text: 768-dimensionaler Embedding-Vektor, trainiert auf umfangreichen mehrsprachigen Datensätzen, direkt über Ollama verfügbar. Laut Messungen der Community liegt die Qualität auf Augenhöhe mit älteren OpenAI-Embedding-Modellen, bei deutlich geringerer Latenz für lokale Abfragen. Für deutschsprachige Dokumente besonders geeignet.
- mxbai-embed-large: Von Mixedbread.ai veröffentlicht, ebenfalls über Ollama abrufbar. Practitioners berichten von starken Ergebnissen auf dem MTEB-Benchmark und solider Qualität bei englischsprachigen Dokumenten.
Für gemischte oder deutschsprachige Korpora empfehlen Practitioners nomic-embed-text als erste Wahl.
Ollama als Embedding-Backend einrichten
Ollama stellt seit Version 0.1.x eine dedizierte Embeddings-API bereit. Das Modell wird einmalig heruntergeladen:
ollama pull nomic-embed-text
Danach ist die Embedding-Generierung über eine lokale REST-API verfügbar:
curl http://localhost:11434/api/embeddings \
-d '{"model": "nomic-embed-text", "prompt": "Ihre Textpassage hier"}'
Kein API-Key, keine Netzwerkanfrage, keine Kosten pro Aufruf. Der Embedding-Dienst läuft auf demselben Mac-Hardware-Stack wie das Sprachmodell — kein separater Infrastrukturaufwand, kein zweiter Dienst. Mehr zu den Grundlagen des lokalen KI-Betriebs findet sich auf local-ai.html.
ChromaDB als lokale Vektordatenbank
ChromaDB ist eine Open-Source-Vektordatenbank, die lokal als Python-Bibliothek oder als Docker-Container betrieben wird. Für KMU-Setups mit Dokumentvolumina bis zu mehreren hunderttausend Chunks ist die In-Process-Variante ausreichend:
import chromadb
client = chromadb.Client()
collection = client.create_collection("firmen_dokumente")
Die Kombination Ollama (Embeddings + LLM) und ChromaDB (Vektorspeicher) bildet den Kern eines vollständig lokalen RAG-Systems. Aktive Community-Projekte auf GitHub — darunter mehrere Setups, die nomic-embed-text über Ollama mit ChromaDB koppeln — belegen, dass der Stack in der Praxis stabil läuft.
Chunking: Die unterschätzte Kernentscheidung
Die Qualität eines RAG-Systems hängt weniger vom Sprachmodell ab als davon, wie Dokumente aufgeteilt werden. Zu große Chunks enthalten zu viel irrelevante Information; zu kleine Chunks verlieren den Kontext.
Für typische Unternehmensdokumente (Verträge, SOPs, technische Dokumentation) haben sich folgende Richtwerte bewährt:
- Chunk-Größe: 400–800 Tokens (ca. 300–600 Wörter auf Deutsch)
- Überlappung: 50–100 Tokens, um Satzgrenzen nicht zu zerreißen
- Trennstrategie: Absatzgrenzen als primäre Trennpunkte statt fester Zeichenanzahl
Für Rechtsdokumente empfehlen Practitioners eine hierarchische Strategie: Paragraphen als übergeordnete Einheit, Absätze als abrufbarer Chunk, mit Paragraphennummer im Metadata-Feld. Das ermöglicht spätere Zitatgenauigkeit in der Antwort.
Re-Ranking: Relevanz nach der Suche verbessern
Vektorbasierte Ähnlichkeitssuche findet schnell Kandidaten — aber nicht immer die besten zuerst. Ein Cross-Encoder-Re-Ranker bewertet Frage und Dokument gemeinsam neu und verbessert die Reihenfolge spürbar.
Ein bewährtes lokales Pipeline-Schema:
- Retrieval: Top-20 Chunks via ChromaDB-Vektorsuche
- Re-Ranking: Top-5 via Cross-Encoder (z.B. ms-marco-MiniLM, lokal ausführbar)
- Generation: Nur die Top-5 Chunks werden dem LLM übergeben
Hybrid-Suche — BM25-Keyword-Matching kombiniert mit Dense-Embeddings — verbessert die Kandidatenqualität zusätzlich. Besonders wertvoll, wenn das Dokument-Korpus viele Produktnummern, Artikelcodes oder Fachbegriffe enthält, die rein semantische Suche schlecht handhabt.
Evaluation mit RAGAS
Ohne Evaluation produziert man blind. RAGAS ist ein Open-Source-Framework, das RAG-Systeme entlang vier Dimensionen misst:
- Faithfulness: Stimmt die Antwort mit den abgerufenen Dokumenten überein?
- Answer Relevance: Beantwortet die Antwort tatsächlich die gestellte Frage?
- Context Precision: Sind die abgerufenen Chunks tatsächlich relevant?
- Context Recall: Wurden alle relevanten Passagen gefunden?
RAGAS kann vollständig lokal betrieben werden — als Richtermodell dienen Llama 3.3, Qwen2.5 oder Gemma 3 via Ollama. Kein separater Cloud-API-Aufruf notwendig.
Eine Evaluation über 50–100 repräsentative Testfragen reicht aus, um Schwachstellen in Chunking oder Retrieval zu identifizieren, bevor das System produktiv geht.
Praxisvorteile für DSGVO-konforme KMU
Ein vollständig lokaler RAG-Stack hat einen wesentlichen Compliance-Vorteil: keine Anfrage, kein Dokument, keine generierte Antwort verlässt die eigene Infrastruktur. Für Kanzleien mit Mandantendaten, Handwerksbetriebe mit Kundenverträgen oder Fertigungsunternehmen mit Rezepturen bedeutet das konkret:
- Kein Auftragsverarbeitungsvertrag mit einem US-amerikanischen Cloud-Anbieter
- Keine Drittlandübermittlung unter DSGVO
- Keine Risiken aus internationalen Datentransfers nach US- oder chinesischem Recht
Zur Datensouveränität als Grundprinzip lokaler KI-Systeme gibt es einen vertiefenden Überblick unter data-sovereignty.html.
Die Hardware-Anforderungen sind überschaubar. Practitioners berichten, dass ein Mac Studio M3 Ultra mit 192 GB Unified Memory gleichzeitig ein 70B-Sprachmodell und einen Embedding-Dienst ohne Latenz-Engpässe betreibt. Ein Mac Mini M4 Pro mit 48 GB ist für Dokumentvolumina unter 500.000 Chunks ausreichend.
kAIra als vorkonfigurierter lokaler RAG-Stack
Die kAIra-Plattform von Freshlab integriert lokale Embeddings mit nomic-embed-text, ChromaDB und Ollama als produktionsreifen Stack — konfigurierbar ohne Programmierkenntnisse, mit automatischer Indexierung neuer Dokumente und einer Web-Oberfläche für Nutzerverwaltung.
Der WikiHub-Baustein indiziert interne Dokumente, SOPs und Vertragsarchive und macht sie per natürlichsprachlicher Suche zugänglich. Die Indexierung läuft automatisch bei neuen Uploads; Änderungen an bestehenden Dokumenten werden erkannt und der Vektorindex entsprechend aktualisiert.
Wenn Sie prüfen möchten, ob ein lokaler RAG-Stack zu Ihren Dokumenten und Prozessen passt, ist ein Pilotprojekt der schnellste Weg zu einer belastbaren Antwort: Pilotprojekt anfragen.