Microsoft Foundry Local: IA local sin nube para Windows y Mac

local-llm microsoft on-premise

Microsoft ha llevado Foundry Local a disponibilidad general (GA): un runtime de inferencia local que funciona completamente en el dispositivo, sin dependencia de la nube, sin costes por token y sin transmitir datos a servicios externos. Para las pymes que esperaban una opción de IA local lista para producción que funcionase en Windows — no solo en Mac o Linux — esto cambia el panorama de forma significativa.

El desarrollador Mim lo resumió en X: "Microsoft is officially joining the local LLM trend with Foundry Local" — describiéndolo como algo "more or less the same as Ollama or LM Studio." La descripción es acertada para el caso de uso básico, aunque las diferencias empresariales importan cuando se elige un runtime para despliegue en producción.

Qué es Foundry Local

Foundry Local es una biblioteca nativa de aproximadamente 20 MB que puede integrarse directamente en aplicaciones de escritorio, herramientas de desarrollo o software empresarial. Expone un endpoint compatible con la API de OpenAI para completaciones de chat y transcripción de audio — ejecutándose localmente, sin latencia de red, sin facturación por uso y sin necesidad de clave API.

El runtime detecta automáticamente el hardware disponible y selecciona el proveedor de ejecución óptimo: NVIDIA CUDA, GPUs AMD, NPUs Intel, NPUs Qualcomm (en PCs Windows Copilot+ con procesador Snapdragon) o CPU como alternativa. Esta optimización automática de hardware es una diferencia relevante respecto a Ollama, que actualmente no ofrece aceleración NPU en Windows. Para pymes con portátiles Windows modernos con unidades de procesamiento de IA dedicadas, Foundry Local puede ofrecer una inferencia notablemente más rápida sin configuración adicional.

Los modelos se descargan en el primer uso, se almacenan en caché local para los lanzamientos posteriores, y el runtime selecciona automáticamente la variante de mejor rendimiento para la configuración de hardware específica.

Primeros pasos en dos comandos

En Windows:

winget install Microsoft.FoundryLocal
foundry model run phi-4-mini

Tras la descarga inicial, phi-4-mini — el modelo compacto de 3.800 millones de parámetros de Microsoft — funciona como un chat interactivo en la línea de comandos. Para aplicaciones que necesiten un endpoint de API compatible con OpenAI, foundry service start expone el servidor en http://localhost:5273/v1/.

En macOS (Apple Silicon), un instalador nativo ARM64 se encarga de la configuración. En Linux está disponible la CLI para x64. En los tres casos, la instalación no requiere contenedores Docker, entornos virtuales Python ni configuración manual de CUDA — una reducción real de las barreras de entrada frente a las herramientas de IA local anteriores.

Modelos compatibles

Foundry Local incluye una biblioteca de modelos curada. Según la documentación disponible, las familias compatibles actualmente son:

  • Microsoft Phi-4 y Phi-4-mini: Small Language Models compactos (3.800M–14.000M parámetros) con buen rendimiento de razonamiento, diseñados para ejecutarse en hardware de consumo
  • Qwen 3.5 (Alibaba): Modelo de uso general con ventana de contexto de 256 K tokens
  • DeepSeek-R1-Distill: Variantes optimizadas para razonamiento de 1.500M a 14.000M parámetros
  • Mistral: Modelo de código abierto consolidado para cargas de trabajo generales

La contrapartida frente a Ollama es clara: Ollama es compatible con prácticamente cualquier modelo en formato GGUF — Gemma 4, Llama 4, Qwen 3.5, Command R+ y cientos más. Foundry Local es deliberadamente más selectivo, pero los modelos que soporta están más profundamente optimizados y son mantenidos activamente por Microsoft.

Foundry Local vs. Ollama: Comparativa honesta

Ambas herramientas tienen su lugar. Se dirigen a necesidades ligeramente distintas:

Criterio Foundry Local Ollama
Plataformas Windows, macOS, Linux macOS, Linux, Windows
Aceleración NPU Sí (Intel, Qualcomm) No
Selección de modelos Curada (~20 modelos) Abierta (GGUF, 500+)
Integración en apps Biblioteca ~20 MB Daemon HTTP (proceso separado)
API compatible con OpenAI
Soporte empresarial Canal de soporte Microsoft Comunidad
Licencia EULA de Microsoft MIT (código abierto)

Para equipos que desarrollan aplicaciones Windows y quieren integrar el stack de LLM directamente, Foundry Local es la opción más natural. Para usuarios que necesitan máxima flexibilidad de modelos o trabajan principalmente en Apple Silicon, Ollama sigue siendo la elección más amplia. Las dos herramientas no son excluyentes: dado que ambas exponen una API compatible con OpenAI, las aplicaciones pueden cambiar entre runtimes sin modificar el código.

RGPD y soberanía del dato

Para las pymes europeas bajo el RGPD, el punto arquitectónico importa más que el delta de rendimiento: Foundry Local no envía ninguna solicitud a APIs externas. Los prompts, el contexto y las respuestas permanecen en el dispositivo local. Para cargas de trabajo que impliquen datos de empleados, consultas de clientes o información comercialmente sensible, esto no es una característica de conveniencia — es un requisito de cumplimiento normativo.

Según nuestra interpretación de la normativa RGPD vigente, ejecutar la inferencia completamente en las instalaciones propias implica que los datos personales no se transfieren a un procesador de datos tercero, lo que simplifica el registro de actividades de tratamiento y elimina la necesidad de acuerdos de procesamiento de datos con proveedores de IA. Cuando las obligaciones del despliegue del Reglamento de IA de la UE conforme al Artículo 26 sean plenamente aplicables (actualmente aplazadas hasta diciembre de 2027 para los sistemas del Anexo III), los despliegues locales afrontan una carga de documentación materialmente más ligera que los equivalentes enrutados por la nube.

Para una visión general de cómo la IA local facilita el cumplimiento del RGPD en la práctica, consulta nuestra sección sobre el tema.

Relevancia para pymes españolas

La disponibilidad general de Foundry Local elimina varios obstáculos habituales para las pymes que exploran la IA local:

  • Sin servidor dedicado: Un PC Windows con suficiente RAM basta para las pruebas iniciales con Phi-4-mini (según mediciones reportadas por la comunidad, 8 GB de RAM son suficientes para el modelo de 3.800M parámetros)
  • Sin conocimientos de contenedores: Una instalación con winget y un comando ponen en marcha un modelo
  • Escalabilidad clara: La misma superficie de API de Foundry puede apuntar a Azure AI Foundry para cargas de trabajo a escala de nube, sin cambios en el código de la aplicación
  • Coste predecible: Sin cargos por token, sin suscripción en la nube — inversión única en hardware y costes de electricidad en curso

Para las pymes españolas con acceso a ayudas a la digitalización como el Kit Digital, la implantación de una solución de IA local puede enmarcarse en la categoría de Inteligencia Artificial y Analítica del programa, dependiendo del agente digitalizador y de los objetivos concretos del proyecto. Una prueba de concepto documentada con Foundry Local puede servir como base antes de comprometer una inversión mayor. Más información en nuestra página sobre Kit Digital.

Si quieres explorar cómo Foundry Local o un stack de IA local comparable funcionaría en tu organización, podemos guiarte a través de los pasos concretos — solicita un proyecto piloto.