Fine-tuning de LLM local con Unsloth Studio para pymes

6. jun 2026 Español 7 min de lectura

local-llm fine-tuning unsloth

Durante los últimos meses, profesionales del sector comparten en X un resultado que hace poco parecía reservado a los grandes laboratorios: un modelo de 4B parámetros entrenado con los tickets de soporte de una empresa que supera sistemáticamente a un modelo genérico de 70B en las tareas específicas de ese negocio. La herramienta que lo hace posible es Unsloth Studio, una interfaz web de código abierto para entrenar y ejecutar modelos de lenguaje en local. El 3 de junio de 2026 se publicó la versión 0.1.44-beta con soporte para Gemma 4 12B e integración MCP, una buena razón para analizar qué está al alcance ya de una pyme con una estación de trabajo estándar.

¿Por qué hacer fine-tuning en lugar de usar prompts largos?

Los modelos de propósito general —Llama 3.x, Qwen3.5, Gemma 4— tienen un conocimiento amplio del lenguaje y del mundo. No saben nada, en cambio, sobre tu empresa: tu terminología interna, tu catálogo de productos, la estructura de tus contratos o el tono de tu atención al cliente.

La ingeniería de prompts puede compensar esta brecha, pero tiene un techo. Los contextos largos aumentan la latencia y el coste por consulta. El fine-tuning aborda el problema de raíz: ajusta permanentemente los pesos del modelo con tus datos, de modo que cada consulta se beneficia del conocimiento de dominio sin necesitar un preámbulo extenso. El resultado práctico es un modelo más pequeño, más rápido y más económico que supera a generales mucho más grandes en tu caso de uso específico.

El argumento de privacidad refuerza la propuesta de negocio: cuando el entrenamiento y el modelo resultante residen en tu infraestructura, ningún documento propietario llega a una API externa. Eso no es solo un requisito de cumplimiento normativo; es una ventaja arquitectónica real.

¿Qué es Unsloth Studio?

Unsloth Studio es una interfaz web de código abierto, completamente local, para entrenar y ejecutar modelos de lenguaje grandes. Según su repositorio de GitHub, la plataforma soporta más de 500 modelos, entre ellos Llama 3.1 y 3.2, Qwen 3.5 y 3.6, Gemma 4, DeepSeek, Mistral y gpt-oss (20B).

El paquete central está bajo licencia Apache 2.0 y la interfaz Studio bajo AGPL-3.0; ambos son gratuitos. El repositorio indica velocidades de entrenamiento hasta 2 veces más rápidas que las implementaciones estándar, con hasta un 70 % menos de VRAM.

Funcionalidades principales:

Búsqueda, descarga y ejecución de modelos (GGUF y adaptadores LoRA) directamente en la interfaz local
Creación visual de conjuntos de datos desde archivos PDF, CSV, JSON y DOCX (Data Recipes)
Entrenamiento LoRA y QLoRA con monitorización en tiempo real (curvas de pérdida, uso de GPU)
Exportación a GGUF para Ollama, LM Studio, llama.cpp y vLLM
Llamadas a herramientas con autocorrección (Self-Healing Tool Calling) y búsqueda web local
Integración MCP para conectar modelos ajustados a flujos de trabajo de agentes

Hardware necesario

El entrenamiento completo requiere una GPU NVIDIA o Intel. Según mediciones reportadas por la comunidad, los requisitos de VRAM para entrenamiento LoRA de Qwen3.5 oscilan en torno a 5 GB para el modelo de 2B, 10 GB para 4B y 22 GB para 9B. Con QLoRA (modelo base en cuantización de 4 bits), estas cifras se reducen aproximadamente a la mitad.

Una estación de trabajo con una NVIDIA RTX 4070 (12 GB de VRAM) es suficiente para modelos de hasta 4B parámetros — hardware que muchas empresas ya tienen para otras tareas. Una RTX 3090 o RTX 4090 (24 GB) abre la puerta a modelos de 9B. Para equipos sin GPU dedicada, un servidor Linux compartido con una tarjeta NVIDIA de gama media es suficiente para el fine-tuning a escala de pyme.

En Apple Silicon: la función de chat y el editor de Data Recipes ya están disponibles hoy en macOS. El entrenamiento completo basado en MLX para Apple Silicon está previsto en una versión futura según el repositorio. Mac Studio y MacBook Pro pueden participar ya en la preparación de datos e inferencia.

El flujo de trabajo paso a paso

Todo el ciclo de vida se ejecuta dentro de la interfaz en el navegador:

Elegir el modelo base — busca Qwen3.5-4B, Gemma 4, Llama 3.x, DeepSeek u otro de los más de 500 modelos disponibles y descárgalo desde Hugging Face dentro de la interfaz.
Crear el conjunto de datos — sube documentos de empresa: histórico de tickets de soporte, manuales técnicos, plantillas de contratos, preguntas frecuentes. El editor visual de Data Recipes genera pares de instrucción-respuesta estructurados de forma automática.
Configurar y entrenar — los hiperparámetros de LoRA vienen preconfigurados para el modelo elegido; rango, tasa de aprendizaje y tamaño de lote son ajustables. El progreso se visualiza en tiempo real con curvas de pérdida y métricas de GPU.
Exportar a GGUF — un clic convierte el modelo ajustado al formato GGUF compatible con Ollama, llama.cpp y LM Studio.
Desplegar en Ollama — con un Modelfile mínimo y el comando ollama create modelo-empresa, el modelo queda disponible en localhost:11434 para cualquier aplicación local.
Evaluar — la interfaz de chat integrada permite probar el modelo con consultas reales antes de pasarlo a producción.

Este flujo cierra el ciclo desde documentos en bruto hasta un modelo consultable y específico de tu empresa, sin salir de tus propias instalaciones.

Casos de uso para empresas

El fine-tuning sobre datos propietarios resuelve problemas concretos en distintos sectores:

Atención al cliente: un modelo de 4B entrenado con miles de tickets resueltos responde con el tono y la terminología de tu empresa, reduciendo tiempos de primera respuesta.
Despachos legales y asesorías: un modelo ajustado sobre plantillas de contratos y jurisprudencia relevante ayuda a redactar cláusulas iniciales, con los datos de los clientes permaneciendo dentro de la red interna.
Fabricación y mantenimiento industrial: documentación técnica y registros de mantenimiento como base de entrenamiento generan un modelo que responde a consultas de operarios sin depender de conexión a internet.
Recursos humanos y gestión del conocimiento: políticas internas, guías de incorporación y manuales de procedimiento se convierten en un modelo consultable que responde a empleados de forma consistente.

Para integrar el modelo ajustado con documentos que cambian frecuentemente, combinar el fine-tuning con un pipeline de RAG local ofrece precisión de dominio y actualización del conocimiento sin necesidad de reentrenar.

Cumplimiento del RGPD y la Ley de IA

Según nuestra interpretación del artículo 28 del RGPD, un pipeline de entrenamiento completamente en local elimina la relación de encargado del tratamiento que introduciría una API de fine-tuning en la nube. Ningún dato personal sale de tu infraestructura; no se requiere ningún Contrato de Encargado del Tratamiento con un tercero para el flujo de entrenamiento.

Respecto al Reglamento Europeo de Inteligencia Artificial, la combinación de fine-tuning local e inferencia en local sitúa tu sistema claramente en el rol de desplegador de un modelo de propósito general de código abierto, sin activar las obligaciones de transparencia que corresponden a los proveedores de modelos de IA de uso general (GPAI). Según nuestra interpretación, un asistente especializado para uso interno cae en la categoría de riesgo limitado o mínimo del Reglamento, siempre que no tome decisiones autónomas con consecuencias significativas en ámbitos de alto riesgo.

Kit Digital y financiación en España

Según nuestra interpretación de la normativa del programa Kit Digital, la implantación de una solución de IA para la gestión de procesos o la inteligencia empresarial podría estar cubierta por el segmento correspondiente, dependiendo del alcance del proyecto y del agente digitalizador. La construcción de infraestructura de IA local que procesa datos propietarios encaja en la lógica de transformación digital que impulsa el programa. Consulta con tu agente digitalizador para verificar la elegibilidad específica de tu caso. Freshlab es agente digitalizador homologado; más información en nuestra página sobre Kit Digital.

Por dónde empezar

Unsloth Studio es gratuito. Con una GPU NVIDIA y un equipo Linux o Windows, la primera sesión de entrenamiento es cuestión de horas, no de semanas. Las herramientas de creación de conjuntos de datos están diseñadas para que las utilice un analista de negocio, sin necesidad de un ingeniero de machine learning.

Si quieres saber si tu infraestructura actual es suficiente o cuál es el tamaño de modelo adecuado para tu caso de uso, escríbenos. Ayudamos a empresas europeas a construir stacks de IA local que sean conformes, eficientes en costes y completamente bajo su propio control.