La objeción más repetida contra la IA local sigue siendo la velocidad: los modelos en la nube responden más rápido; ejecutar un LLM en tu propio hardware se percibe como lento. En 2026, ese argumento se está desmoronando.
Lucebox — un servidor de inferencia de código abierto bajo licencia Apache 2.0 — está generando un debate activo entre desarrolladores de IA. Según las mediciones reportadas por los propios desarrolladores en su repositorio de GitHub, Qwen 3.6-27B en una RTX 5090 con decodificación especulativa DDTree alcanza 205 tokens por segundo. En una RTX 2080 Ti — tarjeta disponible en el mercado de segunda mano por menos de 300 € — el proyecto reporta 53 tok/s con la optimización DFlash. Esos números sitúan la inferencia local dentro, y en muchas configuraciones por encima, de la latencia típica de las APIs en la nube.
Qué es la decodificación especulativa
Los motores de inferencia convencionales generan tokens de forma estrictamente secuencial: un token, luego el siguiente, luego el siguiente. Cada paso requiere un pase completo hacia adelante a través del modelo grande.
La decodificación especulativa rompe ese cuello de botella. Un modelo pequeño y rápido propone varios tokens en paralelo. El modelo grande los verifica todos en un único pase, aceptando los correctos. Para patrones de texto predecibles — código, listas, frases de estructura fija, respuestas formulaicas — la tasa de aceptación es alta. El resultado es más tokens de salida por unidad de tiempo, sin pérdida medible de calidad.
Lucebox implementa este principio en varias variantes especializadas, ajustadas a arquitecturas de modelos y características de hardware concretas.
Las cinco capas de optimización
La ventaja de rendimiento sobre herramientas estándar como Ollama o llama.cpp surge de combinar cinco estrategias de optimización:
DDTree Decodificación Especulativa: Un algoritmo de árbol de decodificación propio impulsa la aceleración de 4,84× reportada para Qwen 3.6-27B frente a llama.cpp. El modelo borrador y el pase de verificación están codiseñados para minimizar la latencia conjunta.
PFlash Prefill Especulativo: Reduce el tiempo hasta el primer token (TTFT) en contextos largos. Para Laguna-XS.2 33B a 128 000 tokens de contexto, los desarrolladores reportan una aceleración de 5,4× — especialmente relevante para aplicaciones RAG que procesan documentos extensos antes de responder.
Megakernels CUDA fusionados: La fusión de kernels reduce las transferencias de memoria. Qwen 3.5-0.8B alcanza 413 tok/s de decodificación y más de 21 000 tok/s de prefill según la tabla de benchmarks oficial — cifras propias de servidores batch en una sola GPU de consumidor.
Spark Offload MoE: Modelos Mixture-of-Experts como Gemma 4 26B activan solo una fracción de sus parámetros por inferencia (aproximadamente 3,8B de 26B). Spark gestiona el enrutamiento de expertos eficientemente en memoria GPU.
KVFlash Caché KV Paginada: Gestión optimizada del caché clave-valor para secuencias largas, preservando el ancho de banda de memoria y permitiendo mayor concurrencia.
Rendimiento reportado por los desarrolladores
Todas las cifras siguientes provienen de la tabla de benchmarks del repositorio oficial en GitHub. Son mediciones reportadas por el equipo de desarrollo en sistemas de prueba específicos, no verificadas de forma independiente por Freshlab.
| Configuración | Velocidad decode | Aceleración vs. llama.cpp |
|---|---|---|
| Qwen 3.5-0.8B Megakernel (RTX 3090) | 413 tok/s | ~2× |
| Qwen 3.6-27B + DDTree (RTX 5090) | 205 tok/s | 4,84× |
| RTX 2080 Ti + DFlash | 53 tok/s | — |
| Ryzen AI MAX+ (AMD HIP) | 37 tok/s | — |
| Laguna-XS.2 33B + PFlash @128K | — | 5,4× |
Para contexto: llama.cpp en una RTX 3090 alcanza típicamente entre 30 y 55 tok/s para modelos de clase 27B según mediciones de la comunidad, dependiendo de la cuantización utilizada.
Modelos y hardware compatibles
Lucebox está optimizado para un conjunto enfocado de modelos con kernels dedicados:
- Qwen 3.5 / 3.6 (0.8B a 27B) — entre los modelos de peso abierto con mejor rendimiento en razonamiento y código en 2026
- Gemma 4 (26B MoE y 31B Dense) — especialmente eficiente por su arquitectura con activación dispersa
- Laguna — optimizado para contextos largos en la clase 33B
Los requisitos de hardware son más accesibles de lo esperado:
- NVIDIA: CUDA 12+, recomendada RTX 3090 (24 GB VRAM) o superior; RTX 2080 Ti (11 GB) funciona para modelos más pequeños o mayor cuantización
- AMD: ROCm 6+, probado en RX 7900 XTX y Ryzen AI MAX+ (Strix Halo)
- Apple Silicon: no está en el alcance oficial actual — Ollama con MLX sigue siendo la opción recomendada
El proyecto acumula más de 2 600 estrellas en GitHub, 241 bifurcaciones, y está bajo desarrollo activo con licencia Apache 2.0.
Instalación en tres comandos
La forma recomendada es Docker — sin conflictos de dependencias, reproducible en cualquier entorno:
docker pull ghcr.io/luce-org/lucebox-hub:cuda12
docker run --rm --gpus all -p 8000:8080 \
-v "$PWD/models:/opt/lucebox-hub/server/models" \
ghcr.io/luce-org/lucebox-hub:cuda12
Lucebox expone una API compatible con OpenAI en el puerto 8000. Cualquier integración existente construida sobre la API de OpenAI — pipelines de LangChain, Open WebUI, frameworks de agentes — funciona sin modificaciones. Los modelos se descargan desde Hugging Face y se colocan en el directorio de volumen montado.
Para usuarios avanzados que necesiten personalización profunda, existe también una compilación desde código fuente con CMake y el CUDA Toolkit.
La decodificación especulativa se convierte en estándar
Lucebox no es un caso aislado. LocalAI incorporó la familia Gemma 4 QAT con pares de decodificación especulativa MTP como backends oficiales en junio de 2026. Google publicó borradores de predicción multitokén para Gemma 4, con una aceleración de hasta 3× en decodificación sin pérdida de calidad. SWIFT, presentado en ICLR 2026, logra aceleración de inferencia mediante salto adaptativo de capas sin modelo auxiliar.
La decodificación especulativa ha pasado de la investigación a los stacks de producción. La pregunta ya no es si funciona, sino qué implementación se adapta mejor a tu hardware y flujo de trabajo.
Qué significa para las pymes españolas
Para empresas que evalúan la IA local, el argumento de velocidad en contra de la inferencia en local queda notablemente debilitado. Las implicaciones prácticas:
- Sin coste por token como gasto operativo recurrente — el hardware se amortiza en 2–4 años
- Sin salida de datos a servidores externos — fundamental para el cumplimiento del RGPD en sectores con obligación de confidencialidad (jurídico, sanitario, financiero, RRHH)
- Latencia predecible: sin throttling, sin cortes de API en horas pico, sin dependencia de disponibilidad de terceros
- Soberanía de datos plena: los pesos del modelo y la cadena de herramientas permanecen bajo control organizacional
Kit Digital: la IA local también es subvencionable
Las inversiones en infraestructura de IA local — hardware GPU, integración de software, formación interna — pueden encajar dentro de la categoría de Inteligencia Artificial y Analítica del programa Kit Digital, que financia hasta 6 000 € para microempresas y pymes de hasta 49 empleados. La clave es que el sistema implementado aporte valor de negocio demostrable: un asistente interno, búsqueda semántica sobre documentación, o automatización de procesos como el análisis de correspondencia.
Un escenario práctico
Un despacho de abogados que procesa documentos de clientes a través de una instancia local de Qwen 3.6-27B en una RTX 3090 no envía ningún dato a servidores externos, y recibe respuestas a velocidades comparables a la nube. Con 53+ tok/s en una RTX 2080 Ti de segunda mano, incluso despliegues con hardware limitado son viables para uso interactivo.
Si quieres identificar qué hardware y modelo se ajusta mejor a tus casos de uso concretos, el primer paso no requiere inversión. Visita /pilotproject.html para hablar con nosotros sin compromiso.