Open WebUI: ChatGPT-Alternative lokal selbst hosten

open-webui self-hosted lokale-ki

Wer im Unternehmen einen KI-Assistenten einführen möchte, stößt schnell auf ein Dilemma: ChatGPT und vergleichbare Cloud-Dienste sind komfortabel, schicken aber jede Anfrage – inklusive interner Dokumente, Kundendaten und strategischer Texte – an externe Server. Open WebUI löst dieses Problem. Die Plattform bietet dieselbe Chat-Oberfläche, dieselbe Dokumentenanalyse und denselben Mehrbenutzerbetrieb wie kommerzielle Dienste – vollständig lokal, ohne Cloud-Kontakt, ohne Abo-Kosten für Token-Nutzung.

Am 10. Mai 2026 erschien Version 0.9.5, die aktuelle stabile Version. Mit inzwischen über 138.000 Sternen auf GitHub ist Open WebUI das meistgenutzte Open-Source-Interface für lokale Sprachmodelle. Laut Community-Berichten erreicht Ollama, die am häufigsten kombinierte Modell-Laufzeitumgebung, inzwischen 52 Millionen monatliche Downloads – ein Hinweis darauf, dass lokale KI längst den Experimentier-Status verlassen hat.

Was ist Open WebUI und wie unterscheidet es sich von anderen Lösungen?

Open WebUI ist ein browserbasiertes Chat-Interface, das vollständig offline betrieben werden kann. Es verbindet sich mit dem lokal laufenden Modell-Backend – typischerweise Ollama – und stellt alle Anfragen direkt auf dem eigenen Rechner oder Server. Kein Einziges Ihrer Dokumente verlässt das Netzwerk.

Anders als LM Studio, das primär für Einzelnutzer konzipiert ist, bringt Open WebUI echten Mehrbenutzerbetrieb mit: Jeder Mitarbeitende hat ein eigenes Login, eine eigene Gesprächshistorie und einen definierten Rechtestatus. Administratoren können neue Modelle freischalten, Nutzer können lediglich die freigeschalteten Modelle verwenden. Das Ergebnis ist ein kontrollierter, auditierter KI-Zugang – ohne dass Mitarbeitende eigene Accounts bei externen Anbietern anlegen müssen.

Installation: ein einziger Docker-Befehl

Wer Docker auf dem Rechner hat, startet Open WebUI in unter fünf Minuten:

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Danach ist die Oberfläche unter http://localhost:3000 erreichbar. Das erste angelegte Konto erhält automatisch Administrator-Rechte. Wer Ollama bereits auf demselben Rechner betreibt, muss lediglich die Adresse http://host.docker.internal:11434 in den Verbindungseinstellungen eintragen – Open WebUI erkennt dann alle verfügbaren Modelle automatisch.

Für Produktionsumgebungen empfiehlt die Community den Einsatz von PostgreSQL statt der Standard-SQLite-Datenbank sowie Cloud-Speicher (S3, Azure Blob Storage oder Google Cloud Storage) für skalierbare Dateiablage. Kubernetes-Deployments via Helm sind ebenfalls dokumentiert – für Unternehmen, die ihre KI-Infrastruktur in vorhandene DevOps-Pipelines integrieren wollen.

Modellauswahl: Welches LLM für welchen Anwendungsfall?

Open WebUI unterstützt jeden Ollama-kompatiblen Dienst sowie alle OpenAI-kompatiblen Endpunkte – darunter vLLM, LocalAI und LM Studio. Damit ist die Plattform vollständig backend-agnostisch: Man kann das Modell wechseln, ohne die Oberfläche zu verändern.

Für den KMU-Alltag haben sich folgende Konfigurationen als praxistauglich erwiesen:

  • Llama 3.3 (70B, quantisiert): Starke Allround-Qualität für Texterstellung, Zusammenfassungen und interne Kommunikation. Benötigt einen Mac Studio M3 Ultra (192 GB Unified Memory) oder einen dedizierten GPU-Server – laut Nutzermessungen laufen auf dieser Hardware Inferenzraten von 20–40 tok/s, abhängig von Quantisierungsstufe und Anfragelänge.
  • Qwen 2.5 (32B): Besonders stark bei strukturierten Aufgaben, Code und mehrsprachigen Texten. Lauffähig auf Mac Studio M2 Ultra oder einem Rechner mit 64 GB RAM.
  • Gemma 4 (12B): Für Teams mit weniger Rechenleistung – Laptops ab 16 GB Unified Memory (Apple M3 Pro) oder ein Standard-Server mit 32 GB RAM. Geeignet für Zusammenfassungen, E-Mail-Entwürfe und einfache Recherchen.

RAG: Firmendokumente mit natürlicher Sprache erschließen

Einer der wichtigsten Unterschiede zu einfachen Chat-Oberflächen ist das integrierte RAG-System (Retrieval Augmented Generation). Nutzer können Dokumente – PDFs, Word-Dateien, Präsentationen – direkt in die Unterhaltung hochladen oder in einer persistenten Wissensdatenbank hinterlegen. Open WebUI zerlegt die Inhalte automatisch in Abschnitte, erzeugt Embeddings und speichert sie in einer lokalen Vektordatenbank.

Zur Auswahl stehen neun verschiedene Vektordatenbanken, darunter ChromaDB, Qdrant, PGVector, Milvus und Elasticsearch. Für die Inhaltsextraktion aus PDFs und gescannten Dokumenten unterstützt die Plattform Tika, Docling sowie optionale OCR-Backends. Alle diese Verarbeitungsschritte laufen lokal – weder Dokumentinhalte noch Embeddings verlassen das eigene Netzwerk.

Für KMU in der Rechts-, Steuer- oder Gesundheitsbranche bedeutet das: Vertragsdokumente, Patientenakten oder Finanzdaten können mit einem lokalen LLM analysiert werden, ohne dass externe Anbieter Kenntnis davon erhalten. Das entspricht dem Prinzip der Datensparsamkeit gemäß DSGVO und erleichtert die Rechenschaftspflicht gegenüber Aufsichtsbehörden.

Mehr zu datenschutzkonformem Einsatz lokaler KI erläutern wir auf unserer Seite zu Datensouveränität und lokaler KI.

Benutzerverwaltung und Zugriffskontrolle

Open WebUI implementiert ein dreistufiges Rechtemodell: Administratoren verwalten Modelle, Systemeinstellungen und Nutzerkonten; reguläre Nutzer arbeiten mit den freigegebenen Modellen und ihren eigenen Dokumenten; ausstehende Konten warten auf Admin-Freigabe, bevor sie aktiv werden.

Für größere Teams oder Unternehmen mit bestehenden Identity-Management-Systemen bietet v0.9 vollständige LDAP- und Active-Directory-Integration sowie SCIM 2.0 für automatisierte Nutzerbereitstellung – kompatibel mit Okta, Azure AD und Google Workspace. Neue Mitarbeitende erhalten damit automatisch die richtigen Berechtigungen, ausscheidende Mitarbeitende verlieren den Zugang ohne manuellen Eingriff.

Diese Funktion ist besonders relevant für Unternehmen, die im Rahmen der EU-KI-Verordnung (AI Act, Artikel 26) nachweisen müssen, wer auf welche KI-Systeme Zugriff hatte und welche Ausgaben erzeugt wurden.

Kosten und Förderung

Die Open-Source-Kernversion von Open WebUI ist kostenlos. Kosten entstehen ausschließlich für Hardware (einmalig), Strom und optional einen Enterprise-Support-Plan. Im Vergleich zu Team-Abonnements kommerzieller KI-Dienste amortisiert sich die Eigeninstallation für Teams ab fünf Nutzern typischerweise innerhalb von 12–18 Monaten – je nach Nutzungsintensität auch früher.

KMU in Deutschland können die Einführung lokaler KI-Infrastruktur im Rahmen von BAFA-Beratungsförderungen oder über die KfW-Digitalisierungskredite kofinanzieren lassen. Gemäß unserem Verständnis sind IT-Infrastrukturinvestitionen mit nachweisbarem Digitalisierungspfad grundsätzlich förderfähig – eine individuelle Prüfung durch einen Berater bleibt jedoch empfehlenswert.

Wie ein typisches Pilotprojekt mit lokaler KI in der Praxis aussieht und was es kostet, erläutern wir auf unserer Pilotprojekt-Seite.

Für wen lohnt sich Open WebUI?

Open WebUI eignet sich besonders für:

  • Teams ab 3 Personen, die einen gemeinsamen, strukturierten KI-Zugang ohne externe Accounts benötigen
  • Branchen mit sensiblen Daten: Recht, Medizin, Finanzen, HR, Fertigung
  • Unternehmen mit bestehenden IT-Richtlinien, die Cloud-KI untersagen oder einschränken
  • Organisationen, die KI intern skalieren wollen, ohne proportional steigende Abo-Kosten

Was Open WebUI nicht leistet: Es ersetzt nicht das Modell selbst – die Qualität der Antworten hängt vom gewählten LLM ab. Wer sehr spezifische Fachsprache oder unternehmenseigene Wissensdomänen braucht, sollte zusätzlich LoRA-Fine-Tuning oder strukturierte RAG-Pipelines einplanen.

Unsere Übersicht zu lokaler KI für Unternehmen gibt einen Einstieg in die gesamte Infrastruktur.


Sie möchten Open WebUI in Ihrem Unternehmen ausprobieren, sind sich aber unsicher, welche Hardware und welches Modell passen? Sprechen Sie uns an – wir begleiten KMU vom ersten Setup bis zum produktiven Einsatz.