Stack de IA Local Gratuito 2026: Ollama, LangGraph y ChromaDB

22. may 2026 Español 7 min de lectura También en: Deutsch, English

lokale-ki ollama llm-stack

Desarrolladores y especialistas en IA comparten en X que en 2026 es posible construir un sistema de IA completamente operativo en producción sin pagar ni un euro en servicios de nube o suscripciones de API. La arquitectura que describen combina Ollama como motor de inferencia local, modelos de lenguaje abiertos como Llama 3.3 o Gemma 3, un framework de orquestación como LangGraph o CrewAI, y una base de datos vectorial local como ChromaDB o Qdrant.

Para las pymes españolas, esta arquitectura tiene una dimensión adicional: la posibilidad de acogerse a las subvenciones del Kit Digital para sufragar los costes de implantación, mientras se elimina la dependencia permanente de proveedores de nube externos y se garantiza el cumplimiento del RGPD desde el primer día.

Por qué 2026 marca un punto de inflexión

Tres tendencias han convergido al mismo tiempo. Los modelos abiertos, Llama 3.3 70B, Gemma 3 27B, Qwen 2.5 72B, han alcanzado una calidad que hasta hace poco estaba reservada a las APIs de pago para tareas empresariales estándar: análisis de documentos, clasificación, extracción estructurada de datos. Ollama ha simplificado el despliegue local a un único comando. Y los frameworks de orquestación LangGraph y CrewAI son ya herramientas de producción mantenidas activamente.

Para empresas que manejan datos sensibles de clientes, empleados o expedientes legales, esto no es un experimento: es la decisión de infraestructura más razonable.

Capa 1: Ollama como motor LLM

Ollama es el estándar para ejecutar modelos de lenguaje en local. Un solo comando descarga el modelo e inicia un servidor REST compatible con la API de OpenAI:

ollama pull llama3.3:70b
# servidor en http://localhost:11434, compatible con OpenAI

Esta compatibilidad es clave: cualquier librería que funcione con la API de OpenAI, LangChain, LangGraph, LlamaIndex, CrewAI, trabaja con Ollama sin cambiar una sola línea de código.

En Apple Silicon, Ollama usa el framework MLX para aceleración hardware. En Linux, es compatible con CUDA y ROCm. Según mediciones reportadas por la comunidad, Gemma 3 12B funciona con fluidez en MacBook Pro M3 Pro (24 GB), y Llama 3.3 70B ofrece tiempos de respuesta útiles en Mac Studio M3 Max (64-96 GB de memoria unificada).

Modelos recomendados por caso de uso

Modelo	Parámetros	Fortaleza
Llama 3.3 70B	70B	Uso general, razonamiento
Gemma 3 27B	27B	Rápido en hardware de consumo
Qwen 2.5 72B	72B	Multilingüe, muy bueno en español
Mistral Small	22B	Respuestas rápidas, clasificación

El repositorio de modelos de Ollama en ollama.com recoge las versiones y opciones de cuantización disponibles.

Capa 2: Orquestación con LangGraph o CrewAI

Un modelo de lenguaje por sí solo es una herramienta, no un sistema. Los flujos de trabajo reales requieren pasos múltiples: llamadas a herramientas externas, ramificaciones condicionales, gestión de estado, reintentos y, en muchos procesos empresariales, aprobaciones humanas antes de ejecutar una acción.

LangGraph modela los flujos como grafos dirigidos. Cada nodo es una función; los arcos transportan el estado entre pasos. Esto hace los pipelines auditables: es posible inspeccionar exactamente qué camino tomó un documento, qué herramienta se invocó y qué decidió el modelo en cada punto. Para empresas que necesitan documentar sus sistemas de IA conforme al Reglamento de IA de la UE, un grafo explícito es una ventaja práctica.

CrewAI sigue un enfoque basado en roles: se definen agentes (Investigador, Analista, Redactor) con tareas y herramientas asignadas. La configuración es declarativa y accesible para equipos sin experiencia profunda en Python.

Ambos se conectan a Ollama sin ninguna clave de API ni llamada externa:

from langchain_ollama import ChatOllama
llm = ChatOllama(model="llama3.3:70b", base_url="http://localhost:11434")

Ningún dato sale de la red de la empresa.

Capa 3: Base de datos vectorial local para RAG

La Generación Aumentada con Recuperación (RAG) es el núcleo de la mayoría de las aplicaciones de IA empresarial: el modelo responde a partir de los documentos de la empresa, no de su conocimiento de entrenamiento. Para ello se necesitan embeddings locales y una base de datos vectorial.

Embeddings locales funcionan también a través de Ollama: nomic-embed-text y mxbai-embed-large generan vectores de alta calidad completamente en local.

ChromaDB en modo embebido corre dentro del propio proceso Python, sin servidor separado, ideal para proyectos y despliegues medianos. Qdrant como contenedor Docker ofrece mejor rendimiento con alto volumen de consultas y varios usuarios simultáneos.

El ciclo RAG completo, embedding, almacenamiento, recuperación, generación, se ejecuta íntegramente en las instalaciones de la empresa. Para más detalles sobre arquitectura de IA local para empresas.

Casos de uso habituales para pymes

Con este stack, las siguientes aplicaciones funcionan sin ninguna dependencia de servicios externos:

Búsqueda interna de documentos: Contratos, procedimientos, correos electrónicos y manuales consultados en lenguaje natural
Bot de preguntas frecuentes interno: Las consultas de empleados se responden automáticamente desde la base de conocimiento interna
Extracción de datos de PDFs: Facturas, formularios de proveedores y solicitudes procesadas de forma estructurada
Resúmenes de reuniones: Combinado con Whisper en local para transcripción y resumen automáticos
Asistente de código privado: Autocompletado y revisión de código sin compartir código fuente con terceros

El kit kAIra Tools de Freshlab integra estos casos de uso en una plataforma gestionable para pymes.

RGPD y soberanía de datos incorporados

Con una arquitectura local, no existe un tercero que procese los datos de la empresa. Ningún proveedor estadounidense almacena o analiza información de clientes, empleados o expedientes. No se requieren Acuerdos de Tratamiento de Datos (ATD) con subproveedores de terceros países. No hay riesgo de filtración por incidentes de seguridad en el lado del proveedor.

Para empresas que tratan datos especialmente protegidos según el RGPD, datos de salud, datos de recursos humanos, información de procedimientos legales, la arquitectura local no es solo más económica: según nuestra interpretación del reglamento, es en muchos casos la única opción que garantiza la conformidad estructural. Más información en nuestro apartado sobre soberanía de datos e IA local.

Costes, retorno y Kit Digital

El software es completamente gratuito y de código abierto. Los costes se concentran en:

Hardware: Mac Studio M3 Max (96 GB) desde aproximadamente 4.500 €; suficiente para modelos de 70B con varios usuarios concurrentes. Para cargas más exigentes, Mac Studio M3 Ultra (192 GB) o un servidor Linux con GPU de 64 GB o más.
Integración: Entre 2 y 8 días de trabajo de implantación según la complejidad de los sistemas existentes.
Electricidad: ~20-30 W en reposo, marginal frente a los costes de API en nube con uso habitual.

Kit Digital: Según nuestra interpretación de las bases vigentes, los costes de implantación de herramientas de IA y analítica avanzada en pymes pueden ser elegibles en las categorías de Gestión de Procesos e Inteligencia Artificial del programa Kit Digital. Cada caso debe evaluarse individualmente con un agente digitalizador acreditado. Más información en nuestra página de Kit Digital para pymes.

Tomando como referencia perfiles de uso habituales en pymes, y según nuestros cálculos, la amortización frente a una suscripción de API en nube se sitúa con frecuencia por debajo de los 18 meses. El stack deja además de crecer en coste a medida que aumenta el uso, a diferencia de los modelos de pago por token.

Formación del equipo

Freshlab ofrece formaciones compactas en Ollama, LangGraph e implementación RAG para que los equipos puedan operar y evolucionar el stack de forma autónoma: Formación en IA para empresas.

El punto de partida más efectivo es siempre un proyecto piloto acotado: un caso de uso concreto, métricas claras, alcance limitado. Freshlab acompaña a pymes y medianas empresas desde la decisión de arquitectura hasta el sistema en producción.

Solicitar proyecto piloto