IA Local en Xcode 26: Programa con Ollama sin Cloud

31. may 2026 Español 6 min de lectura

ollama xcode lokale-ki

Xcode 26 incluye de serie la posibilidad de conectar un modelo de lenguaje local como proveedor de inteligencia de código. Junto con Ollama — el runtime de código abierto para LLM locales que supera los 172.000 estrellas en GitHub a finales de mayo de 2026 — esto convierte la programación con IA privada y sin conexión a internet en algo completamente práctico para equipos de desarrollo en PYMES: sin API externa, sin suscripción mensual y sin que una sola línea de código salga del equipo.

El desarrollador e investigador Anders Brownworth lo explicó con claridad en X: „Just learned that in Xcode's Apple Intelligence you can add a local LLM using ollama and have private AI coding assistance without an internet connection." Para equipos que trabajan con código propietario, proyectos bajo NDA o datos de clientes, esto elimina el principal obstáculo de cumplimiento que hacía impractical usar asistentes de código en la nube.

Qué significa Xcode 26 Intelligence para equipos de desarrollo

Apple ha integrado en Xcode 26 un mecanismo oficial y documentado para registrar servidores de inferencia locales como proveedores de IA. Desde los ajustes de la IDE, en la sección Intelligence, se puede añadir cualquier servidor compatible con la API OpenAI — lo que incluye Ollama sin modificaciones.

Cuando hay un proveedor local activo, Xcode enruta los completados de código, las sugerencias y las explicaciones directamente al servidor local. Los servicios cloud de Apple se omiten por completo. Nada sale del equipo.

Para sectores con obligaciones normativas — sanidad, fintech, software legal, o empresas con cláusulas contractuales de protección de PI — esto resuelve un problema que los asistentes de código en la nube no pueden resolver estructuralmente: la confianza de que el código fuente no se procesa en infraestructura de terceros.

Configuración en tres pasos

La integración entre Xcode 26 y Ollama se configura en pocos minutos:

Paso 1 — Instalar e iniciar Ollama

Ollama se descarga gratuitamente desde ollama.com. Una vez instalado, se arranca el servidor de inferencia con:

ollama serve

Ollama escucha por defecto en el puerto 11434 (localhost:11434).

Paso 2 — Descargar un modelo de código

Descargar un modelo optimizado para programación. Una opción equilibrada para la mayoría de Macs:

ollama pull deepseek-coder

Para equipos con 24 GB o más de Unified Memory, un modelo más grande ofrece mejores resultados:

ollama pull gemma4:27b

Paso 3 — Configurar Xcode

En Xcode 26: Xcode → Settings → Intelligence → Add Provider → Locally Hosted Model

Introducir el puerto 11434. Reiniciar Xcode por completo — el modelo aparecerá en el desplegable de selección. A partir de ese momento, toda la inferencia de IA se ejecuta en local.

¿Qué modelos funcionan mejor para código?

No todos los modelos de código abierto tienen el mismo rendimiento en tareas de programación. La comunidad de desarrolladores recomienda actualmente las siguientes opciones para integrar con Xcode:

DeepSeek-Coder (6.7B–33B): Fuerte en Swift, Python y TypeScript. La variante de 6,7B funciona en un Mac Mini M4 con 16 GB RAM. Ampliamente utilizado para tareas de programación cotidianas en entornos locales.
Gemma 4 27B (Google): Buen equilibrio entre calidad lingüística y razonamiento de código. Requiere 24 GB de Unified Memory para una salida fluida; encaja bien en un Mac Studio M3 Max o M4 Max.
codellama (7B–34B): Fiable para comentarios, refactorización y definiciones de tipos. Compatible con hardware Apple Silicon más antiguo sin problemas.
Qwen3.6: Pequeño y rápido; adecuado para completados cortos y explicaciones de pocas líneas.

La regla general: el modelo debe caber por completo en la Unified Memory sin usar swap. En un Mac Studio M3 Ultra con 192 GB, los modelos de 70B funcionan sin restricciones. Para un Mac con 16 GB, los modelos de 7B–14B son el punto de partida realista.

Novedades de Ollama 0.24 para desarrolladores

El 14 de mayo de 2026, Ollama publicó la versión 0.24.0, una actualización orientada a desarrolladores que extiende el runtime en dos direcciones relevantes.

Soporte para la aplicación Codex

El nuevo comando ollama launch codex-app conecta la aplicación de escritorio Codex de OpenAI con un modelo local de Ollama. La aplicación Codex permite gestionar tareas en paralelo, worktrees de Git y revisiones de código integradas. Lo que antes requería una API en la nube puede ejecutarse ahora completamente en local con cualquier modelo disponible en la biblioteca de Ollama.

Speculative Decoding para Gemma 4 (experimental)

Ollama 0.24 introduce también soporte experimental para Gemma 4 MTP (Multi-Token Prediction) speculative decoding a través del runner MLX en Apple Silicon. Con speculative decoding, un modelo borrador más pequeño predice secuencias de tokens que el modelo principal verifica — el objetivo es acelerar la generación de texto percibida sin perder calidad.

El requisito mínimo es Ollama 0.23.2 y la variante de modelo gemma4:31b-coding-mtp-bf16. Según mediciones reportadas por la comunidad, se han registrado tasas de aceptación de tokens de aproximadamente el 41%, aunque la variación real del rendimiento depende del nivel de cuantización y del hardware concreto. La funcionalidad está marcada como experimental; se recomienda probarla en el entorno propio antes de adoptarla en producción.

Mejoras del sampler MLX y latencia

Ollama 0.24 también incluye un sampler MLX revisado para mejorar la calidad de generación en Apple Silicon, y respuestas /api/show en caché que según el changelog de Ollama reducen la latencia mediana en integraciones IDE como VS Code en aproximadamente 6,7 veces — una diferencia notable durante la iteración rápida en el editor.

Ventajas de privacidad y cumplimiento normativo

La combinación de Ollama y Xcode aporta algo que los asistentes de código en la nube no pueden garantizar estructuralmente: la certeza de que el código fuente se procesa únicamente en hardware bajo el control del equipo.

Bajo el Reglamento General de Protección de Datos (RGPD), enrutar código que incluye datos de clientes a través de un servicio cloud de terceros es una operación de tratamiento de datos que exige un contrato de encargo de tratamiento (DPA) y, en muchos casos, una evaluación de transferencia internacional. La inferencia local elimina esa obligación: no hay encargado del tratamiento externo involucrado.

Para empresas en sectores regulados — sanidad, fintech, despachos de abogados o cualquier empresa bajo el alcance de la Ley de IA de la UE como operador — la inferencia local no solo reduce costes respecto a la nube. Simplifica considerablemente la documentación de cumplimiento.

Los equipos que ya utilizan IA local para la soberanía de datos pueden extender un servidor Ollama existente a los puestos de desarrollo sin infraestructura adicional. El mismo stack que gestiona la búsqueda de documentos internos o la automatización del servicio al cliente puede convertirse también en el asistente de código — un único runtime, un único ámbito de gobernanza.

Más información sobre cómo construir infraestructura de IA local para equipos en IA local. Para empresas en España que quieran financiar parte de la implementación, el programa Kit Digital contempla categorías elegibles para soluciones de IA.

Xcode 26 y Ollama cierran una brecha real: asistencia de IA para programación que no exige confiar el código fuente a terceros. Si tu equipo quiere evaluar esta configuración o planificar una infraestructura de IA local más amplia, contáctanos.