Whisper lokal: Meeting-Protokolle automatisch ohne Cloud

whisper lokale-ki meetingprotokoll

Wer täglich in Meetings sitzt, kennt das Problem: Protokollieren kostet Zeit — und Cloud-Dienste wie Otter.ai oder Granola übertragen sensible Gesprächsinhalte auf fremde Server. Vertrauliche Verhandlungen, Personalentscheidungen, Produktstrategien: All das landet in einer Infrastruktur, die das Unternehmen nicht kontrolliert. Seit 2026 gibt es eine ausgereifte Alternative — Whisper lokal betreiben, Meetings vollautomatisch transkribieren, Zusammenfassungen mit Ollama erstellen, komplett offline, ohne API-Schlüssel, ohne laufende Kosten.

Praktiker berichten auf X zunehmend über fertige Pipelines, bei denen Whisper Large v3 und ein lokales Sprachmodell wie Llama 3.3 oder Gemma 3n das komplette Meeting-Protokoll ohne menschliches Zutun produzieren. Die Qualität ist für den täglichen Geschäftseinsatz ausgereift genug; der einmalige Einrichtungsaufwand liegt bei unter einer Stunde.

Warum lokale Transkription für KMU Pflicht ist

Jedes Meeting enthält potenziell schützenswerte Informationen. Gemäß unserem Verständnis der DSGVO Art. 5(1)(f) sind Unternehmen zu technischen Maßnahmen verpflichtet, die personenbezogene Daten vor unbefugter Verarbeitung schützen — dazu zählen auch Gesprächsmitschnitte von Mitarbeitenden und Kunden. Wer Audiodaten an externe Dienste sendet, muss Auftragsverarbeitungsverträge abschließen und kann nie vollständig ausschließen, dass Daten für Modelltraining genutzt werden.

Lokale Verarbeitung beseitigt dieses Risiko grundsätzlich: Audio und Transkript verlassen das Gerät nie. Das gilt besonders für Branchen mit hohem Schutzbedarf — Rechtsanwaltskanzleien, Arztpraxen, Finanzdienstleister, aber auch jedes KMU, das Kundengespräche aufnimmt und intern Protokoll führt.

Hinzu kommt der wirtschaftliche Aspekt: Cloud-Transkriptionsdienste kosten je nach Volumen 20–80 € pro Monat pro Nutzer. Eine lokale Whisper-Installation läuft dauerhaft kostenlos auf vorhandener Hardware.

Mehr zu datensouveräner KI-Infrastruktur: Freshlab: Datensouveränität.

Whisper: das Open-Source-Fundament

Whisper ist ein von OpenAI als Open Source veröffentlichtes Spracherkennungsmodell, das in mehreren Größenstufen verfügbar ist — von tiny (39 MB) bis large-v3 (~3 GB). Das Modell unterstützt rund 99 Sprachen inklusive Deutsch mit hoher Erkennungsgenauigkeit. Zwei optimierte Implementierungen dominieren den lokalen Praxiseinsatz:

  • faster-whisper: Python-Bibliothek auf Basis von CTranslate2. Laut Community-Messungen 2–4× schneller als die Originalimplementierung auf gleicher Hardware, bei identischer Modellqualität.
  • Whisper.cpp: C++-Port mit nativer Apple-Silicon-Optimierung via Metal. Läuft effizient auf Mac Studio M-Chips und MacBook Pro — auch ohne Python-Umgebung.

Beide Implementierungen sind kostenlos, werden aktiv weiterentwickelt und benötigen nach dem einmaligen Modell-Download keinerlei Internetzugang.

Die besten Open-Source-Tools 2026

Ownscribe: Meeting-Transkription als CLI für macOS

Ownscribe (GitHub: paberr/ownscribe) ist ein schlankes Kommandozeilenwerkzeug für macOS 14.2+. Es kombiniert WhisperX für Transkription und Sprecher-Diarisierung (wer hat wann gesprochen), Pyannote für Sprecheridentifikation und wahlweise Phi-4-mini (~2,4 GB) oder Ollama als Zusammenfassungs-Backend. Laut Projektdokumentation nutzt Ownscribe Metal Performance Shaders auf Apple Silicon und erreicht dadurch eine rund zehnfach schnellere Diarisierungsverarbeitung gegenüber reiner CPU-Ausführung.

Ein typischer Ablauf:

# Modelle einmalig vorladen
ownscribe warmup

# Meeting aufnehmen (System-Audio, stoppt mit Ctrl+C)
ownscribe record --model large-v3 --summarizer ollama --llm llama3.3

# Ausgabe: transcript.txt mit Zeitstempeln + summary.md mit Aktionspunkten

Meetily: grafische Oberfläche, kein Bot

Meetily bietet eine Desktop-Oberfläche und nutzt Whisper.cpp für lokale Transkription sowie Ollama für LLM-Zusammenfassungen. Besonderheit: Kein externer Bot tritt dem Meeting bei — die Aufnahme erfolgt direkt über das System-Audio ohne fremde Infrastruktur. Das macht Meetily zur datenschutzkonformen Alternative zu cloudbasierten Meeting-Assistenten, und laut Meetily-Blog gilt es als eines der vollständigsten Self-Hosted-Tools des Jahres 2026.

Pensieve: Desktop-App für lokale Workflows

Pensieve nimmt Meetings aus lokal laufenden Apps auf und verarbeitet Transkription sowie Zusammenfassung vollständig auf dem eigenen Rechner. Geeignet für Teams, die eine grafische Oberfläche bevorzugen und keine Kommandozeile einsetzen wollen.

n8n-Workflow: ohne Programmieraufwand automatisieren

Für Teams, die n8n bereits für interne Automatisierungen nutzen, existiert ein fertiges Workflow-Template: Video- oder Audiodatei rein, Whisper transkribiert, Ollama fasst zusammen, Ergebnis landet in Notion. Alles lokal, kein Cloud-Kontakt, keine Programmierkenntnisse nötig.

Hardware-Anforderungen: was läuft womit

Für Whisper large-v3 empfehlen Community-Mitglieder:

Hardware Eignung
Mac Studio M3 Ultra, 192 GB Optimal: Transkription + Ollama parallel, keine Wartezeit
Mac Mini M4 Pro, 24 GB Gut: Whisper large-v3 flüssig, Ollama-Modelle bis 14B
MacBook Pro M3, 16 GB Ausreichend: Whisper large-v3, kleines Summarizer-Modell
Windows + RTX 4060 Ti (8 GB VRAM) Gut: Whisper large-v3 via faster-whisper/CUDA
CPU-only (beliebig) Möglich mit tiny/base, Verarbeitung 2–5× Echtzeit

Für die meisten KMU-Szenarien reicht vorhandene Hardware. Ein Mac Mini M4 Pro (ab ca. 1.400 €) deckt den Bedarf eines kleinen Teams vollständig ab.

Qualität auf Deutsch: was man realistisch erwarten kann

Whisper large-v3 gehört nach gemeinschaftlichen Benchmarks zu den genauesten frei verfügbaren Spracherkennungsmodellen für Deutsch. Laut Community-Messungen liegen die Wortfehlerraten (WER) bei klarer Sprache in ruhiger Umgebung im Bereich von 5–10 %. Bei Fachvokabular oder starken Dialekten empfiehlt sich ein leichtes Prompt-Priming via faster-whisper, das Begriffe aus dem Unternehmenskontext vorgibt.

WhisperX ergänzt die Basistranskription um Sprecher-Diarisierung: Das Ergebnisdokument zeigt dann, wer wann gesprochen hat — die Voraussetzung für echte strukturierte Protokolle statt reiner Textblöcke.

Integration in den Freshlab-Workflow

Freshlab integriert Whisper-Transkription in die kAIra Toolkit-Plattform: Aufzeichnungen aus Kundengesprächen werden lokal transkribiert, mit einem lokalen LLM in strukturierte Aktionspunkte umgewandelt und direkt in interne Dokumentensysteme übernommen — ohne Cloud-Kontakt, ohne AVV-Aufwand, ohne Lizenzkosten. Der manuelle Nachbereitungsaufwand nach Meetings reduziert sich nach unserer Erfahrung aus Pilotprojekten erheblich.

Mehr zu lokaler KI-Infrastruktur: Freshlab Local AI.

Lohnt sich die Einrichtung?

Der Setup-Aufwand liegt bei 30–60 Minuten. Danach läuft die Transkription automatisch. Für ein Team mit täglich drei Stunden Meetings und 15–20 Minuten manueller Protokollierung pro Meeting summieren sich die Ersparnisse schnell auf mehrere Stunden pro Woche — bei null laufenden Lizenzkosten und vollem Datenschutz.

Bereit für den ersten Piloten? Kontaktieren Sie uns — wir begleiten die Einrichtung vom Hardware-Check bis zum produktiven Einsatz, inklusive DSGVO-konformer Dokumentation.