Gemma 4 QAT: IA local de 26B en hardware de 16 GB

gemma4 quantization lokale-ki

El 5 de junio de 2026, Google DeepMind publicó en Hugging Face un nuevo conjunto de checkpoints para toda la familia de modelos Gemma 4, entrenados con Quantization-Aware Training (QAT). Según Google DeepMind, esta técnica reduce los requisitos de memoria en torno al 72 % respecto al formato BF16 original, manteniendo una calidad de salida muy próxima a la del modelo sin comprimir.

Para las empresas que quieren ejecutar IA local en su hardware existente sin comprar infraestructura nueva, este avance redefine lo que es posible.

Qué es QAT y por qué supera a la cuantización estándar

La cuantización estándar (Post-Training Quantization, PTQ) se aplica una vez que el modelo ya está entrenado: se comprime a 4 bits de forma retrospectiva, con la consiguiente pérdida de calidad. El modelo nunca aprendió a compensar esos errores de redondeo.

El enfoque QAT es diferente. Durante el propio entrenamiento se simulan los efectos de la cuantización, de modo que el modelo aprende a manejar esas limitaciones antes de que sus pesos queden fijados. El resultado es un modelo de 4 bits que se comporta de manera mucho más parecida a su versión de precisión completa.

El equipo de Unsloth, que documentó comparativas detalladas de Gemma 4 QAT, reporta mejoras de más del 15 % en precisión respecto a PTQ estándar con el mismo nivel de compresión. En la práctica: menos alucinaciones, mejor seguimiento de instrucciones y respuestas más consistentes en conversaciones largas.

Tamaños disponibles y requisitos de memoria

La familia Gemma 4 QAT incluye cinco variantes. Usando el formato GGUF recomendado UD-Q4\K\XL (según la documentación de Unsloth), los requisitos de memoria aproximados son los siguientes:

Modelo Características Memoria (~)
Gemma 4 E2B Ultraligero ~3 GB
Gemma 4 E4B Óptimo para 8 GB ~5 GB
Gemma 4 12B Balance calidad/rendimiento ~7 GB
Gemma 4 26B-A4B MoE, 3,8B activos/token ~15 GB
Gemma 4 31B Máxima calidad ~18 GB

La variante 26B-A4B es la más destacada. Utiliza una arquitectura Mixture-of-Experts (MoE) que activa únicamente 3.800 millones de parámetros por token. Esto significa que su velocidad de inferencia y consumo de recursos se acercan a los de un modelo de 4B, mientras que la calidad de salida refleja la capacidad de 26B parámetros. Según mediciones reportadas por la comunidad, el modelo carga en aproximadamente 15 GB a Q4\K\XL, lo que le permite funcionar en un Mac Apple Silicon de 16 GB o en una GPU de 16 GB como la RTX 4060 Ti.

Tres formas de ponerlo en marcha

Con Ollama (recomendado para el inicio rápido)

Ollama 0.24.0 da soporte a los modelos Gemma 4 QAT. Los nombres exactos de los tags están disponibles en el Ollama Model Hub. Un ejemplo típico:

# Para sistemas con 16 GB (variante 26B-A4B QAT):
ollama pull gemma4:27b-a4b-q4_k_m

# Para sistemas con 8 GB (variante E4B QAT):
ollama pull gemma4:e4b-q4_k_m

Una vez descargado, el modelo funciona completamente sin conexión. Sin claves API, sin datos que salgan de la red corporativa.

Con llama.cpp

llama.cpp tiene soporte completo para los GGUFs QAT. Los archivos UD-Q4\K\XL están disponibles en el repositorio UnslothAI en Hugging Face:

./llama-cli -m gemma4-26b-a4b-UD-Q4_K_XL.gguf \
  --ctx-size 8192 \
  --n-gpu-layers 999

El parámetro --n-gpu-layers 999 descarga todas las capas en el Metal GPU, lo que mejora notablemente la velocidad en Apple Silicon.

Con vLLM (para servidor compartido del equipo)

Para organizaciones donde varios usuarios necesitan acceso simultáneo, vLLM ≥ 0.22.0 admite los checkpoints QAT en formato HuggingFace:

vllm serve google/gemma-4-27b-a4b-qat \
  --quantization bitsandbytes \
  --max-model-len 8192

Un único servidor con 16 GB de VRAM es suficiente para equipos de 5 a 20 usuarios con cargas de trabajo típicas de oficina.

Por qué esto es relevante para las pymes españolas

Hasta ahora, la IA local planteaba un dilema claro. Los modelos pequeños (3B–8B) corrían bien en hardware doméstico pero resultaban insuficientes para tareas complejas. Los modelos grandes (70B+) ofrecían calidad de nivel empresarial pero requerían 80–128 GB de RAM y hardware de servidor.

Gemma 4 QAT 26B-A4B ocupa el espacio entre esas dos opciones.

Para casos de uso sensibles en datos, las implicaciones son directas:

  • Cumplimiento del RGPD: Los datos de los usuarios no se envían a ninguna API de terceros. Las consultas permanecen dentro de la red corporativa, eliminando la necesidad de contratos de tratamiento de datos con proveedores de IA.
  • Confidencialidad: Documentos internos, correspondencia con clientes, datos financieros — ningún dato toca un servidor externo.
  • Previsibilidad de costes: Sin facturación por token. Los costes de hardware son fijos; el uso solo consume electricidad.
  • Operación sin conexión: El modelo funciona sin internet, adecuado para entornos con conectividad limitada o donde la seguridad exige aislamiento.

Posibilidades del Kit Digital

Las pymes que dispongan de crédito activo del Kit Digital pueden contemplar la adquisición de hardware compatible como parte de su hoja de ruta de IA local, dentro de las categorías de gestión avanzada y digitalización empresarial. Según nuestra interpretación de la normativa vigente, los proyectos de IA local orientados a la automatización de procesos internos pueden encajar en varias categorías elegibles. Recomendamos consultar a un agente digitalizador certificado para validar la aplicabilidad en cada caso concreto.

Más información en nuestra guía sobre Kit Digital e IA local.

Escenarios reales en empresas

Gestoría (15 empleados): Análisis de documentación fiscal y resúmenes de correspondencia con clientes usando Gemma 4 QAT 26B-A4B en un Mac Studio M2 Ultra (64 GB) existente. Los datos de los clientes no salen del despacho.

Agencia de desarrollo (8 personas): Revisión de código, generación de documentación y clasificación de tickets. En un MacBook Pro M4 con 16 GB, según mediciones reportadas por la comunidad para configuraciones MoE similares, el modelo genera respuestas a velocidades próximas a las de un modelo de 4B — suficiente para asistencia en tiempo real.

Empresa de distribución (35 empleados): Resúmenes automáticos de correspondencia con proveedores en español, inglés y alemán. Funciona en los ordenadores de oficina existentes, sin integración en la nube.

Qué cambia respecto a los modelos Gemma 4 anteriores

Los checkpoints originales de Gemma 4, publicados a principios de 2026, ya eran modelos competentes. Las versiones QAT no son arquitecturas nuevas — son la misma familia Gemma 4, pero el proceso de cuantización se integró en el entrenamiento en lugar de aplicarse después.

La diferencia práctica: la conversión estándar a 4 bits del Gemma 4 original mostraba la degradación de calidad habitual en PTQ. Las versiones QAT no. Esa es la mejora que importa.

Cómo empezar

Si su equipo ha estado esperando que la calidad de la IA local alcance un nivel adecuado para uso en producción — análisis de contratos, redacción de comunicaciones con clientes, búsqueda en documentación interna — Gemma 4 QAT 26B-A4B es una opción sólida en hardware que probablemente ya existe en su empresa.

Una evaluación piloto bien estructurada requiere una tarde para configurar el entorno y una semana para evaluar resultados con datos reales. Ayudamos a las organizaciones a diseñar esa prueba, identificar el caso de uso más adecuado y valorar el encaje con los flujos de trabajo existentes.

Solicitar un proyecto piloto →


Más información: IA local para empresas · Soberanía de datos · kAIra Toolkit · Kit Digital