Google lanzó Gemma 4 el 2 de abril de 2026 bajo la licencia Apache 2.0, y en pocas semanas los desarrolladores de toda la comunidad ya construían agentes de programación completamente locales con él. La combinación de la llamada nativa a funciones de Gemma 4, la API compatible con OpenAI de Ollama y la optimización MLX para Apple Silicon ha hecho que la asistencia de código privada y sin nube sea una opción real para las PYMES europeas.
Desarrolladores en X relatan sus experiencias con estas configuraciones completamente locales. El educador y desarrollador Patrick Loeber (@patloeber) describe su stack para "running coding agents fully locally": Gemma 4 26B como modelo, Pi agent como framework de agente y Ollama o LM Studio como servidor de inferencia local. El resultado: un asistente de código que funciona íntegramente en la propia infraestructura, sin conexión a la nube.
Qué es Gemma 4
Gemma 4 es la familia de modelos open-weight de Google, disponible en cuatro variantes pensadas para distintos presupuestos de hardware:
| Variante | Parámetros totales | Parámetros activos | VRAM (Q4) | Hardware objetivo |
|---|---|---|---|---|
| E2B | 2.000 M | 2.000 M | ~5 GB | Portátil, edge |
| E4B | 4.000 M | 4.000 M | ~5 GB | Portátil, workstation |
| 26B MoE | 26.000 M | ~3.800 M | ~16 GB | GPU workstation, Mac |
| 31B Dense | 31.000 M | 31.000 M | ~24 GB (Q4) | Mac Studio, servidor |
La variante más interesante para las PYMES es la 26B Mixture of Experts (MoE): en cada inferencia activa solo 3.800 millones de sus 26.000 millones de parámetros. Esto se traduce en una velocidad de generación similar a la de un modelo de 4B, mientras el modelo accede al conocimiento codificado en los 26B completos — la combinación ideal para asistencia de código interactiva.
Todas las variantes incluyen llamada nativa a funciones (imprescindible para que los agentes usen herramientas y accedan a archivos), entrada multimodal (texto e imágenes) y una ventana de contexto de 128.000 tokens, suficiente para repositorios de código de tamaño real.
Agentes de programación IA local: qué ya funciona
Desde abril de 2026 existen varios setups listos para producción:
Pi agent + Gemma 4 26B
Pi agent se conecta al endpoint compatible con OpenAI de Ollama (http://localhost:11434/v1) y utiliza Gemma 4 como motor de razonamiento. El agente lee y escribe archivos, ejecuta comandos del sistema y lleva a cabo tareas de programación en varios pasos de forma autónoma — completamente sin conexión. El código fuente, los registros de errores y los commits nunca salen del servidor local.
OpenClaw + Gemma 4
OpenClaw, un framework de agente de código abierto con más de 250.000 estrellas en GitHub según fuentes de la comunidad, se integra con Ollama en menos de diez minutos según su documentación publicada. El resultado es un asistente de código local completo con acceso a archivos y ejecución de comandos, sin coste marginal tras la inversión inicial en hardware.
Android Studio — respaldo oficial de Google
Google integró soporte oficial de Gemma 4 en Android Studio para coding agéntico, según documenta el Android Developers Blog. Que un entorno de desarrollo tan consolidado adopte oficialmente un modelo open-weight local para flujos de trabajo con agentes confirma que la asistencia de código IA local ha dejado de ser experimental.
Claude Code y OpenCode en Apple Silicon
Ollama indica en X que su nuevo backend MLX para Apple Silicon beneficia directamente a agentes de código como Claude Code y OpenCode que usan Ollama como servidor local, ya que el stack actualizado desbloquea un mayor rendimiento en macOS.
Rendimiento y requisitos de hardware
Para las PYMES existen tres escenarios prácticos según el presupuesto:
Nivel entrada: portátil gaming o workstation (8–12 GB VRAM) Gemma 4 E4B en cuantización Q4KM funciona en la mayoría de portátiles modernos con GPU discreta. Según mediciones reportadas por la comunidad, el modelo alcanza 15–25 tok/s con inferencia GPU — suficiente para uso interactivo, limitado para generación de código en lote.
Nivel medio: NVIDIA RTX 3090 / RTX 4080 (16–24 GB VRAM) El modelo 26B MoE alcanza 35–45 tok/s en una RTX 3090 con cuantización Q4 según benchmarks reportados — comparable a un asistente cloud ágil, sin latencia de red y sin coste por token después de la inversión inicial.
Nivel alto: Mac Studio M3 Ultra (192–512 GB de memoria unificada) Ollama ha optimizado su stack para el framework MLX de Apple, lo que según informes de la comunidad aporta un 15–25 % de rendimiento adicional en hardware Mac Studio. El modelo 31B Dense cabe por completo en la memoria unificada de un Mac Studio M3 Ultra. Para equipos que quieran ejecutar varios modelos en paralelo, esta arquitectura es especialmente eficiente — más información en nuestra página de IA local.
Todas las cifras de rendimiento provienen de mediciones reportadas por la comunidad y varían según el nivel de cuantización, la longitud del contexto y la configuración de hardware.
RGPD y soberanía del dato: la ventaja estructural
Para las PYMES españolas, el argumento del RGPD a favor de la IA de programación local es directo y concreto.
Los asistentes de código en la nube envían, según el proveedor y la configuración, fragmentos de código, mensajes de error, comentarios y archivos de contexto a servidores externos. Cuando el código fuente contiene lógica empresarial propietaria, identificadores de clientes en scripts de migración de bases de datos o valores de configuración sensibles, eso genera una exposición real al RGPD. Según nuestra interpretación del marco normativo vigente, utilizar un procesador externo para el código requeriría un Acuerdo de Procesamiento de Datos, una entrada en el Registro de Actividades de Tratamiento y, potencialmente, una Evaluación de Impacto en la Transferencia si el proveedor opera fuera del EEE.
Gemma 4 corriendo localmente vía Ollama no tiene conexión de red externa. No es una promesa de privacidad ni una configuración — es una propiedad arquitectónica. Ningún byte sale de la propia infraestructura.
Este enfoque simplifica enormemente la documentación de cumplimiento del RGPD y elimina la brecha más común: datos sensibles procesados en infraestructura externa que la empresa no controla ni puede auditar. Más información en nuestra guía sobre soberanía del dato con IA local.
Kit Digital: cómo financiar la infraestructura IA local
Para las PYMES españolas elegibles, el bono de Kit Digital puede cubrir parte de la inversión inicial en infraestructura IA local. Según nuestra interpretación del catálogo de soluciones vigente, los servicios de implantación de IA y automatización inteligente de procesos están entre las categorías elegibles para Segmento I (hasta 12.000 €), lo que puede incluir hardware de inferencia local y la integración inicial del stack.
Esto significa que la amortización del stack local puede producirse considerablemente antes del período de 12–18 meses estimado sin subvención: parte o la totalidad de la inversión en hardware puede financiarse con fondos públicos, mientras los ahorros en API de nube se acumulan desde el primer día.
Consulte los detalles actualizados de las categorías y requisitos en nuestra página de Kit Digital. Le recomendamos verificar la elegibilidad de cada caso concreto con un agente digitalizador acreditado, ya que las condiciones del programa se actualizan periódicamente.
Costes: stack local frente a API en la nube
Un equipo de cinco desarrolladores con uso activo de asistente IA genera entre 1 y 5 millones de tokens diarios según patrones de uso típicos. A los precios de API cloud habituales para asistencia de código, eso equivale, según nuestra estimación, a €30–80 por usuario y mes con uso intensivo — un coste recurrente que no genera infraestructura propia.
Un stack local con una tarjeta RTX 3090 de segunda mano (precio de mercado aproximado €600–900 en el momento de escribir estas líneas) se amortiza frente a esos costes recurrentes en un plazo estimado de 12–18 meses sin subvención, o antes con financiación Kit Digital. A partir de ese punto, el único coste operativo es la electricidad: una RTX 3090 consume unos 350 W bajo carga, lo que equivale a unos €25 al mes con ocho horas de uso activo diario a €0,30/kWh.
El hardware Apple Silicon tiene costes operativos aún más bajos gracias a su rendimiento por vatio.
Primeros pasos: Gemma 4 en diez minutos
# Instalar Ollama (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Descargar Gemma 4 26B MoE (~17 GB)
ollama pull gemma4:26b
# Alternativa ligera para dispositivos con 8 GB VRAM
ollama pull gemma4:4b
# Endpoint compatible con OpenAI para cualquier agente de código
# http://localhost:11434/v1
Cualquier agente de código que soporte una API compatible con OpenAI — Pi agent, OpenClaw, la extensión Continue para VS Code o el Kaira Toolkit de Freshlab — se conecta directamente a este endpoint. Sin clave de API, sin conexión a internet.
Empieza tu proyecto piloto
Gemma 4 cambia la ecuación coste-beneficio de los asistentes de código IA a favor de la infraestructura local. La variante 26B MoE ofrece una velocidad de inferencia competitiva con las alternativas en la nube, bajo licencia abierta, sin costes recurrentes por token y sin que ningún dato salga de la red de la empresa.
Para equipos de desarrollo de PYMES europeas, el argumento del RGPD refuerza aún más el caso: la contención de datos por arquitectura supera a las promesas contractuales, y la carga de documentación de cumplimiento se reduce sustancialmente cuando no interviene ningún procesador externo.
Si quieres evaluar un stack de código IA local para tu equipo sin comprometerte de entrada con infraestructura, Freshlab ofrece proyectos piloto estructurados que te acompañan desde la selección del modelo hasta la integración y la documentación del RGPD. Empieza hoy.