La pregunta aparece en casi todas las conversaciones sobre adopción de IA: ¿comprar hardware propio es realmente más barato que pagar por token, o se tarda tanto en amortizarlo que no compensa? La respuesta depende de un único factor: el volumen de uso real. Este artículo hace los cálculos a tres años.
Lo que cuestan las APIs de LLM en la nube
Los principales proveedores cobran por token. Para calibrar: 1 millón de tokens equivale aproximadamente a 750.000 palabras en español — unas 1.000 páginas de texto de oficina.
Precios actuales según las páginas oficiales de cada proveedor, primavera de 2026:
| Modelo | Input / millón de tokens | Output / millón de tokens |
|---|---|---|
| GPT-4o | $2,50 | $10,00 |
| GPT-4o mini | $0,15 | $0,60 |
| Claude Sonnet 4.6 | $3,00 | $15,00 |
| Claude Haiku 4.5 | $1,00 | $5,00 |
| Claude Opus 4.7 | $5,00 | $25,00 |
Para clasificación y respuestas cortas, Haiku o GPT-4o mini reducen significativamente el coste. Para análisis de documentos complejos, tareas multilingüe o extracción de datos estructurados, la mayoría de pymes termina usando GPT-4o o Claude Sonnet en la práctica.
Cálculo de referencia: pyme con 10 usuarios
Supuesto: 10 empleados, 100 consultas de IA por persona y día laborable (250 días al año), con una media de 1.000 tokens de entrada y 500 de salida por consulta.
Volumen anual:
- Input: 10 × 100 × 250 × 1.000 = 250 millones de tokens
- Output: 10 × 100 × 250 × 500 = 125 millones de tokens
Coste anual en la nube — GPT-4o: (250 × $2,50) + (125 × $10,00) = $625 + $1.250 = ca. $1.875/año
Coste anual en la nube — Claude Sonnet 4.6: (250 × $3,00) + (125 × $15,00) = $750 + $1.875 = ca. $2.625/año
En 3 años (sin cambios de precio):
- GPT-4o: ca. $5.600 ≈ €5.200
- Claude Sonnet: ca. $7.900 ≈ €7.300
Son estimaciones. Los costes reales varían con picos de uso, descuentos por volumen y cambios de precio decididos unilateralmente por el proveedor.
Lo que cuesta un stack de IA local
El servidor local más debatido para pymes en 2026 es el Mac Studio M4 Max. Según la tienda oficial de Apple, la configuración base parte de ca. $1.999; las configuraciones con 64–128 GB de memoria unificada — necesarias para modelos de 30B+ parámetros a calidad de producción — son más caras, con precios de mercado reportados en el rango de $2.199–$2.799 para las opciones de mayor memoria.
Con Ollama y MLX (el propio framework de machine learning de Apple) instalados, este hardware ejecuta modelos como Llama 3.3 70B, Qwen 2.5-72B o Mistral Small 4. Según mediciones reportadas por la comunidad, los modelos de 70B alcanzan 20–40 tokens por segundo en chips M4 Max — suficiente para uso interactivo y pipelines automatizadas.
Electricidad
Según mediciones reportadas por la comunidad, el Mac Studio bajo carga de inferencia LLM consume típicamente entre 150 y 250 W. Con 8 horas de uso activo por día laborable:
- Inferencia activa: ca. 200 W × 8 h × 250 días = 400 kWh/año
- Standby (resto del tiempo): ca. 20 W × ca. 2.920 h = ca. 58 kWh/año
- Total: ca. 458 kWh/año
Con la tarifa eléctrica española media de ca. €0,20–0,25/kWh (sensiblemente inferior a la media alemana): €92–115/año en electricidad — ca. €275–345 en tres años. Esta es una ventaja competitiva real frente a otras ubicaciones europeas.
Otros costes
- Garantía extendida AppleCare+ o equivalente: ca. €300–400 por 3 años
- Coste de gestión: las actualizaciones de modelos a través de Ollama (
ollama pull llama3.3) toman pocos minutos. Dedicación IT realista: 1–2 horas al mes.
TCO local a 3 años
| Concepto | Importe |
|---|---|
| Hardware (Mac Studio M4 Max 64–128 GB) | €2.050–€2.600 |
| Electricidad (3 años) | €275–€345 |
| Garantía extendida (opcional) | €300–€400 |
| Total | €2.625–€3.345 |
Break-even según escenario de uso
| Escenario | Nube GPT-4o (3 años) | Nube Sonnet (3 años) | Stack local (3 años) |
|---|---|---|---|
| 5 usuarios, 50 consul./día | ca. €1.300 | ca. €1.825 | €2.625–€3.345 |
| 10 usuarios, 100 consul./día | ca. €5.200 | ca. €7.300 | €2.625–€3.345 |
| 15 usuarios, 150 consul./día | ca. €11.700 | ca. €16.400 | €2.625–€3.345 |
Para un equipo de 10 personas con uso diario de IA, el hardware local se amortiza en aproximadamente 10–16 meses respecto al equivalente en la nube. A partir de ese punto, el único coste operativo es la electricidad.
Lo que los números no capturan
Cumplimiento del RGPD y soberanía de datos
Cada token enviado a OpenAI o Anthropic cruza el límite de la red de la empresa y llega a servidores fuera de la UE. En cuanto los prompts contienen datos de clientes, expedientes de empleados o información contractual, se produce una transferencia activa de datos personales a una entidad en un tercer país — no es un riesgo teórico, es una obligación de cumplimiento que hay que documentar, justificar y supervisar.
Un stack local procesa todo en el propio hardware: sin transferencia a terceros países, sin dependencia de marcos de protección de datos que pueden ser impugnados judicialmente, sin políticas de retención del proveedor sobre las que la empresa no tiene control. Para las empresas sujetas al RGPD, esto resuelve la cuestión de cumplimiento a nivel de arquitectura, con independencia del coste. Más detalles en nuestra página sobre soberanía del dato.
Kit Digital: la IA local como inversión elegible
Las pymes españolas pueden utilizar la subvención Kit Digital para financiar proyectos de IA local. Dentro de los segmentos de «Gestión de procesos» e «Inteligencia Artificial y Analítica», la implementación de un sistema de IA local — incluyendo configuración del servidor, integración en flujos de trabajo y formación — puede ser elegible, según nuestra interpretación de la normativa vigente.
Los importes máximos varían según el segmento de empresa (de 0 a 2 empleados, de 3 a 9, de 10 a 50, etc.) y las categorías disponibles cambian con cada convocatoria. Consulte con su agente digitalizador para confirmar las categorías aplicables a su tamaño y sector. Más información sobre cómo trabajamos con Kit Digital.
Sin límites de velocidad, sin interrupciones del proveedor
Las APIs en la nube limitan las solicitudes concurrentes. Con diez personas trabajando simultáneamente, el proveedor acota el rendimiento. Los modelos locales no tienen esa restricción — la capacidad disponible es la del hardware propio, disponible las 24 horas.
Estabilidad del modelo
Los proveedores modifican, retiran y cambian el precio de sus modelos según su propio criterio. Un modelo local — Llama 3.3, Qwen 2.5-72B, Mistral Small 4 — permanece exactamente donde se dejó. El equipo decide cuándo actualizar, lo cual es fundamental en sectores regulados y para automatizaciones de larga duración donde la alineación prompt-modelo es crítica.
Cuándo la nube sigue siendo la opción correcta
No todos los perfiles de uso justifican un stack local:
- Volumen muy bajo: Con menos de 30–40 consultas por usuario al día, la nube es más barata y no requiere personal técnico.
- Sin equipo técnico: Alguien debe gestionar Ollama, actualizar modelos y detectar fallos de servicio.
- Carga muy variable: Si el uso de IA es estacional — cuatro meses intensos al año y el resto casi nulo —, el hardware rara vez resulta rentable.
- Necesidad de modelos de frontera: Para tareas donde la capacidad más avanzada de GPT-4 o Claude Opus es determinante, los modelos locales de código abierto pueden no alcanzar el mismo nivel. Esta brecha se estrecha cada trimestre, pero todavía existe en las tareas de razonamiento más exigentes.
Punto de partida práctico
Para una pyme europea con 10–15 empleados que usa IA a diario — gestión documental, atención a consultas de clientes, extracción de datos de informes — el stack local sale a un tercio o la mitad del coste en nube en 3 años, con la posición de cumplimiento del RGPD resuelta a nivel de infraestructura.
La forma más rápida de conocer su propio break-even: un mes de piloto con uso medido en la nube, y luego modelar el equivalente local. Es exactamente lo que hacemos en nuestros proyectos piloto. Si prefiere hablar primero de los números concretos de su empresa, contáctenos.