Cada reunión de empresa contiene información que debería quedarse dentro de la empresa: negociaciones con clientes, decisiones de personal, estrategia de producto. Los servicios de transcripción en la nube como Otter.ai procesan ese audio en servidores externos, obligan a firmar acuerdos de encargado del tratamiento y no pueden garantizar que las grabaciones no se usen para entrenar modelos. En 2026, la alternativa de código abierto ha madurado lo suficiente para ser una opción superior en muchos aspectos: más rápida en Apple Silicon, sin coste recurrente y con los datos siempre en local.
Según nuestra interpretación del panorama actual, la combinación de Whisper Large v3 con un modelo de resumen local como Gemma 3n, Llama 3.3 o Mistral Small produce actas de reunión estructuradas completamente sin conexión. Esta guía explica las mejores herramientas, los requisitos de hardware realistas y los pasos concretos para empezar.
Por qué la transcripción local es una obligación de cumplimiento
La base legal es clara. Según nuestra interpretación del RGPD (artículo 5.1.f), las organizaciones deben aplicar medidas técnicas para proteger los datos personales, y las grabaciones de reuniones casi siempre contienen datos personales: nombres, evaluaciones de rendimiento, datos de clientes, conversaciones salariales. Enviar audio a un servicio en la nube de terceros implica aceptar sus condiciones de subcontratación y perder el control directo sobre los datos.
El procesamiento local elimina completamente esta exposición: el audio nunca sale del dispositivo, no se necesita ningún acuerdo de encargado del tratamiento y no hay riesgo de divulgación accidental. Esto importa especialmente en sectores con conversaciones sensibles — despachos de abogados, clínicas, asesores financieros — pero también para cualquier pyme con relaciones confidenciales con clientes.
Además, el argumento económico es sólido. Los servicios de transcripción en la nube cuestan entre 20 y 80 € por usuario y mes en planes de empresa. Una instalación local de Whisper funciona indefinidamente sin coste marginal tras la inversión inicial en hardware.
Más sobre infraestructura de IA soberana: Freshlab: Soberanía de datos.
Whisper: el fundamento de código abierto
Whisper es un modelo de reconocimiento de voz publicado como código abierto. Está disponible en varios tamaños, desde tiny (39 MB) hasta large-v3 (~3 GB), y soporta alrededor de 99 idiomas incluyendo español, alemán, inglés y francés con alta precisión. Dos implementaciones optimizadas dominan el uso práctico en local:
- faster-whisper: biblioteca Python basada en CTranslate2. Según mediciones reportadas por la comunidad, es 2–4× más rápida que la implementación original en el mismo hardware, con calidad de transcripción idéntica.
- Whisper.cpp: versión en C++ con aceleración nativa en Apple Silicon via Metal. Funciona de forma eficiente en Mac Studio con chips M y MacBook Pro, sin necesidad de entorno Python.
Ambas son gratuitas, se mantienen activamente y funcionan completamente sin conexión una vez descargados los modelos.
Las mejores herramientas de código abierto en 2026
Ownscribe: CLI para macOS
Ownscribe (GitHub: paberr/ownscribe) es una herramienta de línea de comandos para macOS 14.2+ que combina la transcripción de WhisperX con diarización de hablantes: la transcripción indica quién dijo qué y cuándo. Para el resumen admite Phi-4-mini (~2,4 GB, se descarga automáticamente), Ollama, LM Studio o cualquier servidor compatible con la API de OpenAI. Según la documentación del proyecto, utiliza Metal Performance Shaders en Apple Silicon, lo que proporciona alrededor de 10× más velocidad en la diarización respecto a la ejecución solo en CPU.
Flujo de trabajo básico:
# Precargar modelos (una sola vez)
ownscribe warmup
# Grabar reunión (audio del sistema; detener con Ctrl+C)
ownscribe record --model large-v3 --summarizer ollama --llm llama3.3
# Resultado: transcript.txt con marcas de tiempo + summary.md con puntos de acción
Meetily: interfaz gráfica, sin bot externo
Meetily ofrece una interfaz de escritorio y utiliza Whisper.cpp para la transcripción local y Ollama para los resúmenes con IA. Un diferenciador clave: ningún bot externo se une a la llamada — la grabación se realiza directamente a través del audio del sistema, sin infraestructura externa. El blog de Meetily lo identifica como una de las soluciones de transcripción autoalojada más completas de 2026.
Pensieve: aplicación de escritorio totalmente local
Pensieve graba reuniones desde aplicaciones que se ejecutan localmente, luego transcribe y resume con un LLM local, todo en el propio dispositivo. Adecuado para equipos que prefieren una interfaz gráfica a la línea de comandos.
n8n + Whisper + Ollama: flujo automatizado sin código
Para equipos que ya utilizan n8n para automatizaciones internas, existe una plantilla de workflow lista para usar: se introduce un archivo de vídeo o audio, Whisper lo transcribe, Ollama genera el resumen y el resultado llega a Notion. Sin nube, sin API key, sin programación.
Hardware: qué funciona con qué
Para Whisper large-v3, la experiencia de la comunidad sugiere:
| Hardware | Adecuación |
|---|---|
| Mac Studio M3 Ultra, 192 GB | Óptimo: transcripción + resumen Ollama en paralelo, sin esperas |
| Mac Mini M4 Pro, 24 GB | Bueno: Whisper large-v3 fluido, modelos Ollama hasta 14B |
| MacBook Pro M3, 16 GB | Suficiente: Whisper large-v3, modelo de resumen compacto |
| Windows + RTX 4060 Ti (8 GB VRAM) | Bueno: Whisper large-v3 via faster-whisper/CUDA |
| Solo CPU (cualquier equipo) | Posible con tiny/base; velocidad 2–5× tiempo real |
Para la mayoría de escenarios en pymes, un Mac Mini M4 Pro o un PC de sobremesa con GPU reciente cubre perfectamente la necesidad. No se requiere hardware especializado de IA.
Calidad de transcripción en español: expectativas realistas
Whisper large-v3 se sitúa entre los modelos de reconocimiento de voz gratuitos más precisos según benchmarks de la comunidad. Las tasas de error de palabras (WER) para voz clara en entornos tranquilos se sitúan, según mediciones reportadas por la comunidad, en el rango del 5–10% para español estándar y principales variantes latinoamericanas. El vocabulario técnico y los nombres propios se benefician del prompt priming: faster-whisper permite inyectar términos del contexto empresarial como indicación inicial, reduciendo errores en jerga sectorial.
WhisperX añade diarización de hablantes sobre la transcripción base: el documento de salida atribuye cada frase al hablante correcto — requisito previo para actas verdaderamente útiles en lugar de bloques de texto sin estructura.
Integración con Kit Digital y herramientas Freshlab
Para pymes españolas, la implementación de herramientas de IA local puede estar financiada parcialmente mediante el programa Kit Digital en las categorías de gestión de procesos o soluciones de oficina virtual, según nuestra interpretación de los segmentos elegibles. La instalación de una pipeline de transcripción local forma parte de la digitalización de flujos de trabajo internos.
Freshlab integra la transcripción con Whisper en la plataforma kAIra Toolkit: las grabaciones de llamadas con clientes se transcriben localmente, se convierten en puntos de acción estructurados mediante un LLM local y se introducen directamente en los sistemas de documentación internos. Sin contacto con la nube, sin trámites de encargado del tratamiento, sin costes de licencia.
Más sobre infraestructura de IA local: Freshlab IA Local.
¿Vale la pena la configuración?
El tiempo de configuración inicial es de 30–60 minutos. Después, la transcripción se ejecuta automáticamente en segundo plano. Para un equipo que pasa tres horas al día en reuniones y dedica 15–20 minutos por reunión a levantar actas manualmente, el ahorro de tiempo se acumula rápidamente — a coste recurrente cero y con control total de los datos.
¿Listo para un piloto? Contáctenos — acompañamos la puesta en marcha desde la verificación de hardware hasta el despliegue en producción, con documentación conforme al RGPD.