Qwen3.6 y DeepSeek V4: LLM Local en Abril de 2026

local-ai open-weight deepseek

La semana del 21 al 27 de abril de 2026 trajo dos lanzamientos importantes de modelos open-weight con pocos días de diferencia: Qwen3.6-35B-A3B del equipo Qwen de Alibaba (publicado el 16 de abril) y DeepSeek V4-Flash de DeepSeek AI (publicado el 24 de abril). Ambos tienen licencia MIT, ambos pueden alojarse en infraestructura propia, y juntos marcan un cambio significativo en lo que las pymes europeas pueden ejecutar localmente — sin enviar datos a APIs externas en la nube.

Qwen3.6-35B-A3B: Rendimiento de frontera en un Mac de 24 GB

El lanzamiento más relevante de la semana para las pymes es Qwen3.6-35B-A3B. El sufijo "A3B" significa "3.000 millones de parámetros activos", la característica central de su arquitectura Mixture-of-Experts (MoE). El modelo tiene 35.000 millones de parámetros en total, pero en cada pasada de inferencia solo se activan aproximadamente 3.000 millones. El coste de inferencia equivale al de un modelo de 3B; el conocimiento codificado en los 35.000 millones de parámetros sigue siendo accesible.

La consecuencia práctica: Qwen3.6-35B-A3B funciona con comodidad en un Mac con 24 GB de memoria unificada. Eso incluye el MacBook Pro M4, el Mac Mini M4 Pro y modelos superiores. No se necesita sala de servidores ni GPU especializada para ejecutar un modelo que, según los benchmarks publicados, alcanza un 73,4 % en SWE-bench Verified.

Qué significa un 73 % en SWE-bench Verified

SWE-bench Verified presenta al modelo issues reales de GitHub y le pide que produzca un parche funcional. Un score de 73,4 % significa que casi tres de cada cuatro tareas de ingeniería de software se resuelven de forma autónoma. En el uso cotidiano empresarial, esto se traduce en revisión de código con calidad de producción, análisis de documentos estructurados y razonamiento complejo — tareas que hasta hace poco requerían APIs propietarias o hardware GPU dedicado caro.

En un Mac Studio M3 Ultra con 192 GB de memoria unificada, los benchmarks reportados por la comunidad muestran 50–60 tok/s para Qwen3.6-35B-A3B — suficiente para uso interactivo y flujos de trabajo automatizados de documentos. En modelos M5 Max, los profesionales reportan velocidades cercanas a 55 tok/s con configuraciones de cuantización comparables.

Cómo ejecutarlo localmente

Con Ollama instalado, el inicio es inmediato:

ollama pull qwen3.6:35b-a3b
ollama run qwen3.6:35b-a3b

Para usuarios de Apple Silicon que quieran maximizar el rendimiento, mlx-lm (v0.24.0+) ofrece soporte nativo del backend MLX. Los modelos están disponibles en Hugging Face con el sufijo "-MLX" y funcionan sin conversión de formato adicional.

El modelo admite una ventana de contexto de 256.000 tokens — suficiente para análisis de documentos extensos, repositorios de código largos o cadenas de razonamiento en múltiples pasos. Para la mayoría de los flujos de trabajo documentales de una pyme, esto es efectivamente ilimitado.

Por qué importa más allá de los benchmarks

Los benchmarks de rendimiento son una fotografía. Lo que importa operativamente es que Qwen3.6-35B-A3B representa la primera generación donde el modelo local recomendado por defecto para un Mac estándar compite en calidad con modelos que hace 18 meses requerían contratos de API con grandes proveedores de nube. La barra del hardware no ha bajado — la calidad del modelo ha subido hasta igualar el hardware que muchas empresas ya tienen.


DeepSeek V4-Flash: Autoalojamiento para Infraestructura GPU

Mientras Qwen3.6 está optimizado para Apple Silicon, DeepSeek V4-Flash está diseñado para organizaciones que operan infraestructura GPU, ya sea propia o a través de proveedores con servidores en la UE.

El 24 de abril de 2026, DeepSeek publicó simultáneamente dos modelos:

  • V4-Pro: 1,6 billones de parámetros totales, 49.000 millones activos por pasada
  • V4-Flash: 284.000 millones de parámetros totales, 13.000 millones activos por pasada

Ambos se publican como modelos open-weight bajo licencia MIT, que permite el uso comercial sin licencias por despliegue. El blogger técnico Simon Willison resumió el lanzamiento en simonwillison.net: "almost on the frontier, a fraction of the price".

V4-Flash: especificaciones clave

  • Aproximadamente 160 GB en Hugging Face (precisión mixta FP4+FP8)
  • Ventana de contexto de 1 millón de tokens, hasta 384.000 tokens de salida
  • Framework de inferencia recomendado: vLLM con paralelismo de expertos MoE
  • Mínimo de hardware: 1× NVIDIA H200 (141 GB HBM3e) o 2× A100 80 GB

Según la documentación del lanzamiento de DeepSeek, la arquitectura V4 logra una reducción del 73 % en FLOPs por token y una reducción del 90 % en memoria KV cache respecto a DeepSeek-V3.2. Para organizaciones que procesan grandes volúmenes de consultas, estas cifras se traducen directamente en coste operativo.

Precio de la API como punto de referencia

Si quieres probar V4-Flash antes de comprometerte con infraestructura: la API de DeepSeek tiene un precio de 0,14 USD por millón de tokens de entrada para Flash. Eso está muy por debajo de modelos cloud comparables en la frontera y permite un proof-of-concept de bajo coste antes de cualquier decisión de hardware. Para empresas europeas con requisitos de residencia de datos, el despliegue propio en servidor con sede en la UE es el camino en producción — pero la API permite iterar rápidamente primero sobre los flujos de trabajo.


Por qué importa para las pymes europeas

Dos lanzamientos significativos en la misma semana desplazan la conversación sobre IA local de "¿es suficientemente buena el open-weight?" a "¿qué nivel de hardware necesito realmente?".

El nivel de calidad accesible desde Mac se ha ampliado. Qwen3.6-35B-A3B con 24 GB de memoria unificada no es un compromiso mínimo viable: es la recomendación por defecto de la comunidad por una razón sólida. En Apple Silicon de gama media, ofrece una calidad que hace 18 meses habría requerido un contrato de API propietaria con precios variables.

Soberanía de datos por arquitectura. Ejecutar inferencia localmente significa que las consultas y respuestas nunca salen de tu red. Esto es estructuralmente diferente a la política de privacidad de un proveedor: se puede auditar con una captura de tráfico en tiempo real que confirme cero comunicaciones salientes durante la inferencia. Para empresas europeas con obligaciones bajo el RGPD — especialmente las que procesan contratos de clientes, datos de empleados o documentos legalmente privilegiados — la garantía arquitectónica importa tanto como los benchmarks. Más información en nuestra sección de soberanía de datos e IA local.

Niveles de hardware para IA local en 2026:

Dispositivo RAM Modelo Adecuado para
Mac Mini M4 Pro 48 GB Qwen3.6-35B-A3B Usuario individual, oficina
Mac Studio M4 Max 128 GB Varios modelos en paralelo Equipo pequeño (3–5 usuarios)
Servidor GPU (UE) H200 DeepSeek V4-Flash Cargas de alto rendimiento

Casos de uso prácticos en esta clase de calidad

La generación de modelos de abril de 2026 está lista para producción en:

  • Revisión y resumen de contratos — los documentos permanecen en tu propio hardware
  • Asistencia y revisión de código — un 73 % en SWE-bench es viable en producción
  • Salida multilingüe (DE/EN/ES) sin degradación de calidad
  • Q&A sobre documentos internos — respuestas fundamentadas en tu propia base de conocimiento, no en datos de entrenamiento de Internet
  • Comprobaciones de cumplimiento — modelos con capacidad de razonamiento que se ejecutan localmente con trazabilidad completa

Kit Digital y la IA local

Las pymes españolas que contemplan implantar IA local pueden encuadrar parte de esta inversión dentro del programa Kit Digital. Las soluciones basadas en modelos open-weight autoalojados entran potencialmente en categorías como "Gestión de procesos" o "Inteligencia empresarial y analítica", según nuestra interpretación del catálogo de soluciones vigente. La clave está en que el agente digitalizador pueda certificar el componente de transformación digital y de mejora de la productividad. Consulta nuestra guía actualizada sobre Kit Digital e IA local para pymes.

Marco regulatorio europeo

Optar por la inferencia local no resuelve automáticamente todos los aspectos del RGPD — siguen siendo necesarios los controles de acceso, los plazos de retención de datos y el registro de actividades de tratamiento. Pero sí cierra la brecha más habitual: datos personales tratados en infraestructura que la empresa no controla y en una jurisdicción que no puede verificar. Según nuestra interpretación del marco regulatorio vigente, la inferencia on-premise es una de las bases más sólidas para despliegues de IA conformes con el RGPD en el entorno de las pymes europeas.


Próximos pasos

Un Mac Mini M4 Pro y un caso de uso bien definido es suficiente para un piloto significativo. El punto de partida más habitual: automatizar un documento que se resume de forma recurrente, o construir una herramienta de generación de borradores sobre una base de conocimiento interna.

Si quieres un marco de evaluación estructurado antes de comprometerte con hardware, Freshlab ofrece proyectos piloto en los que trabajamos junto a tu equipo en la selección del modelo, la configuración del hardware y la validación del caso de uso.

Más sobre la estrategia de IA local para empresas europeas: IA Local para Pymes