IA Local con 1 Millón de Tokens: MiniMax M3 ya es Open Weight

minimax-m3 local-llm open-weight

El límite práctico de un modelo de lenguaje autoalojado ha sido, durante los últimos dos años, alrededor de 128.000 tokens de contexto. Suficiente para la mayoría de las tareas, pero insuficiente cuando se necesita analizar un archivo completo de contratos, un año de historiales de soporte o toda una base de código en una sola sesión. MiniMax M3, que publicó sus pesos en HuggingFace alrededor del 13 de junio de 2026, desplaza ese límite a 1 millón de tokens y, por primera vez, permite su despliegue completamente local.

Qué es MiniMax M3

M3 se lanzó como API el 1 de junio de 2026, con el compromiso de publicar los pesos en un plazo de diez días. Esos pesos están ahora disponibles bajo MiniMaxAI/MiniMax-M3 en HuggingFace, junto con cuantizaciones GGUF a través de unsloth/MiniMax-M3-GGUF.

El modelo utiliza una arquitectura Mixture-of-Experts. Según la documentación técnica de MiniMax, cuenta con aproximadamente 428.000 millones de parámetros en total y unos 23.000 millones activos por token. Gracias al diseño MoE, el coste computacional por token se asemeja más a un modelo de 23B que a uno de 428B, aunque los requisitos de memoria siguen siendo considerables.

La ventana de contexto es de 1 millón de tokens, habilitada por la arquitectura propietaria MSA (MiniMax Sparse Attention). El mínimo garantizado que indica MiniMax es de 512.000 tokens — ocho veces el contexto de la mayoría de los modelos disponibles en Ollama hace un año.

La multimodalidad nativa es una característica central: M3 acepta imágenes y vídeo junto con texto. Una sola llamada al modelo puede procesar una factura escaneada, un PDF con diagramas y una pregunta de texto, sin necesitar un modelo de visión separado.

En SWE-Bench Pro, MiniMax reporta una puntuación del 59 %. Según estas cifras publicadas por MiniMax, M3 se sitúa entre los modelos open-weight de codificación más potentes disponibles a mediados de 2026; las validaciones independientes en la comunidad siguen en curso.

El precio de la API, según la plataforma de MiniMax, es de 0,60 dólares por millón de tokens de entrada y 2,40 dólares por millón de salida. Un equipo con 200 solicitudes diarias de 10.000 tokens de entrada y 2.000 de salida gastaría aproximadamente 40–50 dólares al mes.

La publicación de pesos abiertos: lo que cambia

La disponibilidad de los pesos importa, sobre todo, por una razón que va más allá de los rankings de rendimiento: con pesos propios, ningún dato tiene que salir de la infraestructura de la organización. Antes del 13 de junio, usar M3 implicaba enviar prompts a los servidores de MiniMax. Ahora, las organizaciones con el hardware adecuado pueden ejecutar el modelo completamente dentro de su red.

Para las empresas europeas, esta no es una diferencia menor. Según nuestra interpretación del RGPD, enviar datos personales — nombres de empleados, información de clientes, contenido de casos legales — a una API de terceros crea una relación de encargo de tratamiento que exige un contrato de encargo de tratamiento y, posiblemente, un mecanismo de transferencia internacional si el servidor está fuera del EEE. Ejecutar los pesos localmente elimina esa obligación por completo.

MiniMax también ofrece M3 a través de la capa cloud de Ollama (ollama run minimax-m3:cloud), con una política declarada de retención cero de datos en la infraestructura de Ollama. Ese compromiso es relevante, pero insuficiente para muchas cargas de trabajo reguladas: los servidores están en Estados Unidos, y la jurisdicción legal estadounidense aplica independientemente de las políticas de retención. Nuestra guía de soberanía del dato analiza este equilibrio en detalle.

Hardware: lo que realmente requiere el autoalojamiento

MiniMax M3 no es un modelo que se ejecuta en un portátil de desarrollo. Los requisitos de memoria, según lo reportado por desarrolladores en HuggingFace y los foros de NVIDIA:

  • FP16 (precisión completa): aproximadamente 931 GB de VRAM
  • Cuantización INT4: aproximadamente 233 GB
  • UD-IQ1_M GGUF (compresión más agresiva): aproximadamente 128–133 GB de RAM

La cifra UD-IQ1_M es la relevante para quienes evalúan hardware Apple. Un Mac Studio M3 Ultra con 192 GB de memoria unificada puede cargar esta variante a través de la capa llama.cpp de Ollama — el modelo cabe en memoria, aunque con una reducción notable de calidad frente a variantes de mayor precisión. Mediciones reportadas por la comunidad apuntan a 8–18 tokens por segundo en esta cuantización sobre hardware Apple Silicon.

Para mejor calidad de inferencia, la variante INT4 necesita alrededor de 233 GB — más de lo que ofrece un único Mac Studio M3 Ultra, pero alcanzable con un clúster multi-nodo usando exo. Un NVIDIA DGX Spark (128 GB de VRAM) se encuentra en el límite de la variante más comprimida; desarrolladores reportan que es viable con una gestión cuidadosa de la memoria. El serving INT4 cómodo está documentado en configuraciones de 4× H100 80 GB usando vLLM con paralelismo de tensores.

En resumen: autoalojar MiniMax M3 requiere un clúster Apple Silicon de alto rendimiento, un DGX Spark o un servidor multi-GPU — no el setup de un único Mac Studio que funciona bien para modelos de 70B.

Cuándo conviene más la API

A pesar del argumento de privacidad, la API es el punto de partida correcto para la mayoría de las organizaciones:

Validar antes de invertir. Probar si el contexto de 1M mejora realmente la revisión legal o el análisis de código cuesta céntimos en tokens de API. Las decisiones de hardware deben seguir a casos de uso probados, no anticiparlos.

El volumen moderado sigue siendo asequible. Por debajo de unos 300–400 euros mensuales en gasto de tokens, la economía de una API cloud supera los costes de capital de un servidor multi-GPU, incluyendo energía y mantenimiento.

No todos los datos son sensibles en términos de RGPD. Documentos estratégicos internos, textos regulatorios públicos, código abierto — estos pueden procesarse vía API sin activar obligaciones del RGPD sobre datos personales.

El punto de inflexión para migrar a on-premise suele llegar cuando el gasto mensual en API supera los 400–600 euros, cuando el equipo legal confirma que los prompts contienen habitualmente datos personales, o cuando la latencia de la nube afecta la experiencia de uso.

Los tres casos de uso que vale la pena probar primero

Análisis de archivos completos de documentos

El argumento más claro para el contexto de 1M es la posibilidad de eliminar el chunking en grandes corpus documentales. Un equipo de cumplimiento puede cargar un histórico regulatorio completo. Un departamento de compras puede analizar tres años de contratos con proveedores en una sola sesión. Las preguntas de seguimiento se responden de forma coherente sobre todo el corpus — sin paso de recuperación, sin artefactos de límites de fragmento.

Procesamiento multimodal de documentos

La capacidad de visión de M3 permite que un único modelo procese facturas escaneadas, planos técnicos y anotaciones manuscritas sin preprocesamiento. Para empresas manufactureras o de logística con tipos de documentos mixtos, esto reduce considerablemente la complejidad del pipeline.

Revisión de código a escala de proyecto

Con 1M de contexto, una aplicación de tamaño mediano — frontend, backend, tests, configuración — cabe en una sola llamada. Las revisiones de calidad del código, las auditorías de seguridad y la documentación de incorporación pueden tratar la base de código como un objeto unificado en lugar de una serie de consultas archivo por archivo.

Esto resulta especialmente valioso para pymes con equipos técnicos pequeños que necesitan revisiones rápidas antes de despliegues críticos.

Por dónde empezar

Para la mayoría de las pymes que evalúan MiniMax M3:

  1. Empezar con ollama run minimax-m3:cloud para probar el flujo de trabajo propio — sin inversión en hardware, resultados en minutos
  2. Registrar el gasto mensual en tokens durante 30 días; si se acerca a los 400 euros, hacer el cálculo de TCO para hardware on-premise
  3. Para cualquier flujo de trabajo que maneje datos personales bajo el RGPD, planificar el hardware on-premise desde el inicio, no como migración posterior

Nuestra página de IA local incluye orientaciones sobre dimensionamiento de hardware para diferentes escalas de modelo, con la ubicación de M3 frente a Llama 4, Qwen 3 y DeepSeek V3.

Si quiere una valoración independiente de si MiniMax M3 — o un modelo más pequeño y fácil de autoalojar — encaja con sus requisitos de cumplimiento y presupuesto, contáctenos para una sesión de scoping de piloto. Las pymes españolas que dispongan del Kit Digital pueden cubrir parte de los costes de implementación de IA local con esa subvención.