La ventana de contexto determina cuánto texto puede procesar un modelo de lenguaje de una sola vez: desde un mensaje corto hasta un contrato de 400 páginas. Durante años esto fue una línea divisoria entre la nube y la IA local: los modelos ejecutables on-premise se limitaban a 4k–8k tokens mientras las APIs en la nube anunciaban 128k. En 2026, esa brecha prácticamente ha desaparecido. Qwen3.6 entrega 256k tokens de forma nativa en hardware propio. Llama 4 Scout alcanza teóricamente 10 millones de tokens, con un rango práctico de 256k–1M en hardware de consumo según reportan desarrolladores de la comunidad. Gemma 4 ofrece 128k sólidos. Para las PYMEs que procesan contratos, bases de código o largos hilos de correo electrónico, esto abre posibilidades que antes requerían una suscripción a la nube — todo sin que un solo byte salga de su propia red.
Por qué importa el tamaño del contexto en el día a día
Un token equivale aproximadamente a un cuarto de palabra en español; 256.000 tokens corresponden a unos 192.000 palabras, o alrededor de 384 páginas A4 estándar. Eso es suficiente para:
- un informe anual completo con anexos (típicamente 80–120 páginas)
- un proyecto Python o Node.js de tamaño medio con todos sus módulos
- 15 horas de transcripciones de reuniones generadas con una instalación local de Whisper
- un pliego de condiciones técnicas completo
El comportamiento por defecto de las herramientas de despliegue locales más habituales crea una trampa oculta: Ollama limita el contexto a 2.048 tokens de forma predeterminada, independientemente de lo que el modelo subyacente soporte técnicamente. Sin una configuración explícita, los turnos anteriores de la conversación se truncan en silencio — sin advertencia y sin indicación de que se ha perdido información.
Modelos con soporte de contexto largo (junio 2026)
Llama 4 Scout (Meta, Llama Community Licence)
Máximo teórico: 10 millones de tokens. Según informan desarrolladores de la comunidad, el rango práctico en hardware de consumo se sitúa entre 256k y 1M tokens, dependiendo de la memoria unificada disponible. Recomendación mínima: 80–128 GB de RAM para inferencia fluida en contextos largos.
Qwen3.6 (Alibaba, Apache 2.0)
256k tokens de forma nativa. Ampliable hasta 1M tokens mediante extrapolación YaRN. Dos variantes: Qwen3.6-27B (denso) y Qwen3.6-35B-A3B (Mixture-of-Experts). Según mediciones reportadas por la comunidad, el modelo 27B requiere aproximadamente 22 GB de RAM con 128k de contexto. Calidad multilingüe excelente, incluido el español.
Qwen3.5 (Alibaba, Apache 2.0)
El modelo de 9B parámetros soporta hasta 262k tokens de forma nativa según la documentación del fabricante — ideal para sistemas con 16–24 GB de RAM que necesitan procesar documentos largos.
Qwen3-Coder (Alibaba, Apache 2.0)
Especializado en código y escritura técnica; 256k tokens de forma nativa, hasta 1M mediante extrapolación. Especialmente adecuado para revisiones automatizadas de código fuente y generación de documentación técnica.
Gemma 4 (Google, Gemma Terms of Use)
128k de contexto. Opción práctica para sistemas con 16 GB de RAM (variante 12B). Amplio soporte de idiomas y salida estructurada fiable. Menos capacidad de contexto que la familia Qwen3, pero más eficiente en recursos y adecuado para portátiles o estaciones de trabajo compactas.
Requisitos de hardware: qué funciona en cada máquina
El KV cache — la memoria en la que el modelo mantiene el contexto — crece con la longitud del mismo. Según mediciones reportadas por la comunidad con un modelo 7B a cuantización Q4\K\M:
| Longitud de contexto | RAM aproximada |
|---|---|
| 4k tokens | ~6 GB |
| 32k tokens | ~8–9 GB |
| 128k tokens | ~12–16 GB |
Para modelos más grandes, según reportan desarrolladores:
- Qwen3.5-9B con 128k de contexto: ~14–18 GB — compatible con Mac Mini M4 Pro (24 o 48 GB)
- Qwen3.6-27B con 128k de contexto: ~22 GB — cómodo en Mac Studio M4 Max (128 GB) o Mac Studio M3 Ultra (192 GB)
- Llama 4 Scout con 256k de contexto: ~80–96 GB — diseñado para Mac Studio M3 Ultra (192 GB) o hardware servidor equivalente
- Qwen3.6-27B con 1M de contexto: ~65 GB — al alcance de un Mac Studio M3 Ultra o un servidor de inferencia dedicado
Nuestra guía de infraestructura de IA local detalla qué configuraciones de hardware son adecuadas para cada perfil de carga de trabajo. Como regla práctica: planifique con más RAM de la que cree necesitar hoy; los requisitos de contexto tienden a crecer una vez que los equipos empiezan a usar contextos largos en producción.
Configurar Ollama para contextos largos
Ollama establece num_ctx en 2.048 tokens por defecto. Tres formas de cambiarlo:
Opción 1 — Directamente en la petición a la API:
{
"model": "qwen3.6:27b",
"prompt": "...",
"options": { "num_ctx": 65536 }
}
Opción 2 — En el terminal al arrancar el modelo:
ollama run qwen3.6:27b --num_ctx 65536
Opción 3 — Mediante Modelfile (recomendado para despliegue permanente):
FROM qwen3.6:27b
PARAMETER num_ctx 65536
Ejecute ollama create mi-qwen3 -f Modelfile para registrarlo. Este método es estable entre reinicios y funciona directamente con Open WebUI y cualquier otro frontend.
Para contextos superiores a 64k, la documentación de Ollama sobre longitud de contexto recomienda activar Flash Attention para reducir la presión sobre el KV cache. La cuantización del KV cache es otra opción: Q80 reduce a la mitad la memoria del cache según informes de la comunidad; Q40 la reduce a aproximadamente un tercio, con alguna merma de calidad en contextos muy largos.
Casos de uso reales para PYMEs
Análisis de contratos sin fragmentación
Cargar un contrato de 80 páginas junto con tres addendas en un solo prompt, identificar cláusulas contradictorias y extraer un resumen estructurado. Sin fragmentar documentos, sin pérdida de información en los límites del contexto — el modelo ve el documento completo como un todo coherente.
Revisión de bases de código
Qwen3-Coder puede analizar un repositorio backend completo en un solo contexto, entender dependencias entre archivos y sugerir refactorizaciones concretas. Sin necesidad de pipeline RAG, sin decisiones de chunking que ajustar.
Análisis de hilos de correo electrónico
Meses de intercambios de correo electrónico exportados desde Outlook (PST → EML) estructurados en un solo prompt: identificar puntos de decisión críticos, compromisos pendientes y generar un informe de traspaso.
Actas de reunión a partir de transcripciones
Combinado con una instalación local de Whisper (Faster-Whisper), las transcripciones de reuniones de varias horas se pueden procesar en un solo paso: convertidas en actas estructuradas y consultadas con preguntas de seguimiento específicas. El kit de herramientas kAIra ofrece flujos de trabajo preconfigurados que conectan transcripción y resumen en una sola automatización.
Para PYMEs españolas que valoran la financiación disponible para proyectos de IA local, el programa Kit Digital puede cubrir parte del coste de implantación de estas soluciones en la categoría de inteligencia artificial y analítica avanzada. Consulte nuestra sección de formación y talleres para conocer los próximos programas disponibles.
Cuándo sigue siendo RAG la arquitectura correcta
Las ventanas de contexto largas no reemplazan los pipelines RAG en todos los escenarios:
- Base de conocimiento superior a 1M de tokens: Miles de documentos — wikis internas, archivos documentales completos — no caben en ningún prompt práctico aunque el contexto sea generoso. RAG sigue siendo la arquitectura adecuada aquí.
- Contenido que se actualiza con frecuencia: RAG mantiene la base de conocimiento actualizada sin reconstruir el contexto en cada consulta.
- Latencia en consultas sencillas: La fase de pre-fill (procesamiento del contexto completo antes de generar la respuesta) añade latencia considerable en contextos muy largos. Para preguntas sencillas sobre grandes conjuntos de datos, RAG es más rápido.
Para conjuntos de documentos de hasta unas 300 páginas, o bases de código de tamaño medio, el contexto largo directo suele ser hoy la solución más elegante: menos infraestructura, ninguna decisión de chunking que debatir, y acceso completo a la información en un único paso de inferencia.
Planificación antes del piloto
La elección del contexto y del modelo es una decisión de arquitectura que debe tomarse al inicio de un proyecto, no tras la primera iteración. Si quiere saber qué modelo, qué hardware y qué configuración de contexto se adapta mejor a sus documentos, idioma y presupuesto, contacte con nosotros. Le mostraremos qué es realista conseguir en su propia infraestructura — sin dependencia de ningún proveedor ni suscripción obligatoria a la nube.