LLM Local con Contexto Largo: Qwen3, Llama 4 y Gemma 4

12. jun 2026 Español 7 min de lectura

local-llm context-window ollama

La ventana de contexto determina cuánto texto puede procesar un modelo de lenguaje de una sola vez: desde un mensaje corto hasta un contrato de 400 páginas. Durante años esto fue una línea divisoria entre la nube y la IA local: los modelos ejecutables on-premise se limitaban a 4k–8k tokens mientras las APIs en la nube anunciaban 128k. En 2026, esa brecha prácticamente ha desaparecido. Qwen3.6 entrega 256k tokens de forma nativa en hardware propio. Llama 4 Scout alcanza teóricamente 10 millones de tokens, con un rango práctico de 256k–1M en hardware de consumo según reportan desarrolladores de la comunidad. Gemma 4 ofrece 128k sólidos. Para las PYMEs que procesan contratos, bases de código o largos hilos de correo electrónico, esto abre posibilidades que antes requerían una suscripción a la nube — todo sin que un solo byte salga de su propia red.

Por qué importa el tamaño del contexto en el día a día

Un token equivale aproximadamente a un cuarto de palabra en español; 256.000 tokens corresponden a unos 192.000 palabras, o alrededor de 384 páginas A4 estándar. Eso es suficiente para:

un informe anual completo con anexos (típicamente 80–120 páginas)
un proyecto Python o Node.js de tamaño medio con todos sus módulos
15 horas de transcripciones de reuniones generadas con una instalación local de Whisper
un pliego de condiciones técnicas completo

El comportamiento por defecto de las herramientas de despliegue locales más habituales crea una trampa oculta: Ollama limita el contexto a 2.048 tokens de forma predeterminada, independientemente de lo que el modelo subyacente soporte técnicamente. Sin una configuración explícita, los turnos anteriores de la conversación se truncan en silencio — sin advertencia y sin indicación de que se ha perdido información.

Modelos con soporte de contexto largo (junio 2026)

Llama 4 Scout (Meta, Llama Community Licence)

Máximo teórico: 10 millones de tokens. Según informan desarrolladores de la comunidad, el rango práctico en hardware de consumo se sitúa entre 256k y 1M tokens, dependiendo de la memoria unificada disponible. Recomendación mínima: 80–128 GB de RAM para inferencia fluida en contextos largos.

Qwen3.6 (Alibaba, Apache 2.0)

256k tokens de forma nativa. Ampliable hasta 1M tokens mediante extrapolación YaRN. Dos variantes: Qwen3.6-27B (denso) y Qwen3.6-35B-A3B (Mixture-of-Experts). Según mediciones reportadas por la comunidad, el modelo 27B requiere aproximadamente 22 GB de RAM con 128k de contexto. Calidad multilingüe excelente, incluido el español.

Qwen3.5 (Alibaba, Apache 2.0)

El modelo de 9B parámetros soporta hasta 262k tokens de forma nativa según la documentación del fabricante — ideal para sistemas con 16–24 GB de RAM que necesitan procesar documentos largos.

Qwen3-Coder (Alibaba, Apache 2.0)

Especializado en código y escritura técnica; 256k tokens de forma nativa, hasta 1M mediante extrapolación. Especialmente adecuado para revisiones automatizadas de código fuente y generación de documentación técnica.

Gemma 4 (Google, Gemma Terms of Use)

128k de contexto. Opción práctica para sistemas con 16 GB de RAM (variante 12B). Amplio soporte de idiomas y salida estructurada fiable. Menos capacidad de contexto que la familia Qwen3, pero más eficiente en recursos y adecuado para portátiles o estaciones de trabajo compactas.

Requisitos de hardware: qué funciona en cada máquina

El KV cache — la memoria en la que el modelo mantiene el contexto — crece con la longitud del mismo. Según mediciones reportadas por la comunidad con un modelo 7B a cuantización Q4\K\M:

Longitud de contexto	RAM aproximada
4k tokens	~6 GB
32k tokens	~8–9 GB
128k tokens	~12–16 GB

Para modelos más grandes, según reportan desarrolladores:

Qwen3.5-9B con 128k de contexto: ~14–18 GB — compatible con Mac Mini M4 Pro (24 o 48 GB)
Qwen3.6-27B con 128k de contexto: ~22 GB — cómodo en Mac Studio M4 Max (128 GB) o Mac Studio M3 Ultra (192 GB)
Llama 4 Scout con 256k de contexto: ~80–96 GB — diseñado para Mac Studio M3 Ultra (192 GB) o hardware servidor equivalente
Qwen3.6-27B con 1M de contexto: ~65 GB — al alcance de un Mac Studio M3 Ultra o un servidor de inferencia dedicado

Nuestra guía de infraestructura de IA local detalla qué configuraciones de hardware son adecuadas para cada perfil de carga de trabajo. Como regla práctica: planifique con más RAM de la que cree necesitar hoy; los requisitos de contexto tienden a crecer una vez que los equipos empiezan a usar contextos largos en producción.

Configurar Ollama para contextos largos

Ollama establece num_ctx en 2.048 tokens por defecto. Tres formas de cambiarlo:

Opción 1 — Directamente en la petición a la API:

{
  "model": "qwen3.6:27b",
  "prompt": "...",
  "options": { "num_ctx": 65536 }
}

Opción 2 — En el terminal al arrancar el modelo:

ollama run qwen3.6:27b --num_ctx 65536

Opción 3 — Mediante Modelfile (recomendado para despliegue permanente):

FROM qwen3.6:27b
PARAMETER num_ctx 65536

Ejecute ollama create mi-qwen3 -f Modelfile para registrarlo. Este método es estable entre reinicios y funciona directamente con Open WebUI y cualquier otro frontend.

Para contextos superiores a 64k, la documentación de Ollama sobre longitud de contexto recomienda activar Flash Attention para reducir la presión sobre el KV cache. La cuantización del KV cache es otra opción: Q80 reduce a la mitad la memoria del cache según informes de la comunidad; Q40 la reduce a aproximadamente un tercio, con alguna merma de calidad en contextos muy largos.

Casos de uso reales para PYMEs

Análisis de contratos sin fragmentación

Cargar un contrato de 80 páginas junto con tres addendas en un solo prompt, identificar cláusulas contradictorias y extraer un resumen estructurado. Sin fragmentar documentos, sin pérdida de información en los límites del contexto — el modelo ve el documento completo como un todo coherente.

Revisión de bases de código

Qwen3-Coder puede analizar un repositorio backend completo en un solo contexto, entender dependencias entre archivos y sugerir refactorizaciones concretas. Sin necesidad de pipeline RAG, sin decisiones de chunking que ajustar.

Análisis de hilos de correo electrónico

Meses de intercambios de correo electrónico exportados desde Outlook (PST → EML) estructurados en un solo prompt: identificar puntos de decisión críticos, compromisos pendientes y generar un informe de traspaso.

Actas de reunión a partir de transcripciones

Combinado con una instalación local de Whisper (Faster-Whisper), las transcripciones de reuniones de varias horas se pueden procesar en un solo paso: convertidas en actas estructuradas y consultadas con preguntas de seguimiento específicas. El kit de herramientas kAIra ofrece flujos de trabajo preconfigurados que conectan transcripción y resumen en una sola automatización.

Para PYMEs españolas que valoran la financiación disponible para proyectos de IA local, el programa Kit Digital puede cubrir parte del coste de implantación de estas soluciones en la categoría de inteligencia artificial y analítica avanzada. Consulte nuestra sección de formación y talleres para conocer los próximos programas disponibles.

Cuándo sigue siendo RAG la arquitectura correcta

Las ventanas de contexto largas no reemplazan los pipelines RAG en todos los escenarios:

Base de conocimiento superior a 1M de tokens: Miles de documentos — wikis internas, archivos documentales completos — no caben en ningún prompt práctico aunque el contexto sea generoso. RAG sigue siendo la arquitectura adecuada aquí.
Contenido que se actualiza con frecuencia: RAG mantiene la base de conocimiento actualizada sin reconstruir el contexto en cada consulta.
Latencia en consultas sencillas: La fase de pre-fill (procesamiento del contexto completo antes de generar la respuesta) añade latencia considerable en contextos muy largos. Para preguntas sencillas sobre grandes conjuntos de datos, RAG es más rápido.

Para conjuntos de documentos de hasta unas 300 páginas, o bases de código de tamaño medio, el contexto largo directo suele ser hoy la solución más elegante: menos infraestructura, ninguna decisión de chunking que debatir, y acceso completo a la información en un único paso de inferencia.

Planificación antes del piloto

La elección del contexto y del modelo es una decisión de arquitectura que debe tomarse al inicio de un proyecto, no tras la primera iteración. Si quiere saber qué modelo, qué hardware y qué configuración de contexto se adapta mejor a sus documentos, idioma y presupuesto, contacte con nosotros. Le mostraremos qué es realista conseguir en su propia infraestructura — sin dependencia de ningún proveedor ni suscripción obligatoria a la nube.