LoRA Fine-Tuning: Modelos de IA Local con Datos de tu Empresa

29. may 2026 Español 8 min de lectura

lora finetuning ia-local

Un modelo de lenguaje de propósito general como Llama 3.3 o Qwen2.5 tiene muchas capacidades, pero no conoce tu catálogo de productos, tu jerga interna ni las respuestas concretas que da tu equipo de atención al cliente cada día. El fine-tuning con LoRA (Low-Rank Adaptation) permite especializar un modelo base con datos propios, ejecutando todo el proceso en hardware local, sin APIs externas y sin que ningún dato salga de tus instalaciones.

Qué es LoRA y por qué es relevante para las pymes

El fine-tuning clásico vuelve a entrenar todos los pesos de un modelo de lenguaje. Para un modelo de siete mil millones de parámetros, eso requiere una cantidad enorme de memoria y capacidad de cómputo, habitualmente solo accesible con infraestructura de centro de datos. LoRA adopta un enfoque diferente: en lugar de modificar los pesos originales, inserta pequeñas matrices adaptadoras en las capas del modelo. El modelo base permanece congelado; solo se entrenan los adaptadores.

Según la documentación de Unsloth, el resultado es aproximadamente un 70 % menos de VRAM y alrededor de 2 veces más velocidad de entrenamiento en comparación con el fine-tuning convencional. La variante QLoRA (LoRA cuantizado) va más lejos: un modelo de 70 000 millones de parámetros que normalmente necesitaría más de 140 GB de memoria puede ejecutarse con unos 46 GB de memoria unificada, según mediciones reportadas por la comunidad de practicantes.

Para pymes sin acceso a infraestructura de centro de datos, esto es un cambio sustancial. Un Mac Studio M3 Ultra con 192 GB de memoria unificada o una estación de trabajo con una GPU de consumo (en torno a 24 GB de VRAM) es suficiente para la mayoría de los escenarios de fine-tuning en una empresa mediana.

RAG o fine-tuning: cuándo usar cada enfoque

Una pregunta habitual: ¿cuándo conviene usar fine-tuning en lugar de RAG (Retrieval-Augmented Generation)?

RAG es la opción adecuada cuando el objetivo es consultar documentos actualizables y buscables: bases de datos de contratos, listas de precios actuales, catálogos de productos. El modelo no se modifica; simplemente recibe fragmentos de texto relevantes en el momento de la inferencia.

El fine-tuning con LoRA resulta más apropiado cuando el objetivo es ajustar el tono, el comportamiento y el conocimiento de dominio que no se puede expresar como un índice de búsqueda: el estilo de escritura habitual de la empresa, lógicas de decisión específicas, terminología del sector o salidas estructuradas en un formato determinado. Ambos enfoques pueden combinarse: un modelo ajustado con LoRA que además recupera documentos actuales mediante RAG en tiempo de ejecución.

La cadena de herramientas en 2026: Unsloth, modelo base, Ollama

El stack recomendado para fine-tuning local con LoRA en 2026:

Unsloth: biblioteca Python para entrenamiento LoRA/QLoRA, optimizada para hardware de consumo. Red Hat publicó en abril de 2026 una guía práctica en la que describe Unsloth y Training Hub como una combinación lista para producción.
Modelo base: Llama 3.2 (1B, 3B, 8B), Llama 3.3 (70B), Qwen2.5 (7B, 14B, 32B) o Gemma 3, según la VRAM disponible y el caso de uso concreto.
Ollama: una vez finalizado el entrenamiento, los adaptadores LoRA se fusionan con el modelo base y se importan como modelo estándar en Ollama, que actúa como capa de servicio en el stack local.

El flujo de trabajo tiene tres fases: preparación de datos → entrenamiento → fusión y despliegue. No se requiere acceso a la nube en ningún momento.

Preparación de datos: la calidad por encima del volumen

El factor más importante en el fine-tuning es la calidad de los datos de entrenamiento. La experiencia de practicantes en 2026 muestra de forma consistente que 200 ejemplos cuidadosamente seleccionados superan regularmente a 2 000 ejemplos generados automáticamente o de baja calidad. Una selección rigurosa produce mejores resultados con menos esfuerzo.

El formato estándar en 2026 es JSONL con esquema ChatML: una línea por conversación de entrenamiento.

{"messages": [
  {"role": "system", "content": "Eres el servicio de atención al cliente de Ejemplo S.L."},
  {"role": "user", "content": "¿Cuánto tarda el envío estándar?"},
  {"role": "assistant", "content": "Los envíos estándar llegan en 3 a 5 días laborables."}
]}

Unsloth puede, según su propia documentación, generar automáticamente conjuntos de datos a partir de documentos PDF, CSV y JSON, lo que resulta especialmente útil para empresas que quieren usar manuales internos, wikis o bases de conocimiento como punto de partida.

Un punto de inicio práctico: conversaciones históricas de atención al cliente, hilos de correo electrónico o pares documento-etiqueta que ya existan dentro de la organización. Esto reduce considerablemente el tiempo de creación de datos desde cero.

Casos de uso concretos para pymes

Atención al cliente con la voz de la empresa: un modelo ajustado con LoRA conoce tus productos, precios y condiciones de devolución, y responde con el tono habitual de la empresa, de forma consistente y sin respuestas genéricas.

Clasificación de documentos: clasificar automáticamente correos entrantes, pedidos o contratos en categorías internas, usando un modelo entrenado con los propios ejemplos etiquetados de la empresa, sin llamadas a APIs externas.

Consultas al ERP en lenguaje natural: un modelo ajustado puede traducir lenguaje natural a consultas SQL adaptadas a la estructura de base de datos y la terminología interna de la empresa. Sin llamadas a la nube, sin coste por token.

Preprocesamiento de RRHH: prestructurar candidaturas o automatizar respuestas a preguntas frecuentes del manual de empleados, de forma interna y con control total sobre los datos. Nota: cuando el procesamiento automatizado afecta decisiones laborales, aplica el artículo 22 del RGPD; el modelo debe funcionar como filtro previo, no como único decisor.

Traducción con terminología propia: los equipos que traducen habitualmente documentos técnicos pueden ajustar un modelo con su propia base de datos terminológica, obteniendo una consistencia muy superior a la de los modelos de traducción de propósito general.

Kit Digital: la vía de financiación para pymes españolas

Para las pymes españolas, el programa Kit Digital representa una oportunidad concreta de financiar la implementación de IA local, incluyendo proyectos de ajuste de modelos de lenguaje. La categoría de Inteligencia Artificial Avanzada cubre soluciones que permiten procesar datos internos de forma autónoma, lo que puede incluir un stack de fine-tuning local con Unsloth y Ollama.

Según nuestra interpretación de las bases del programa, un proyecto de fine-tuning local que permita automatizar tareas de atención al cliente o clasificación documental puede encajar en esta categoría, siempre que el proveedor esté acreditado. Más detalles en nuestra página de Kit Digital.

RGPD: el fine-tuning local como ventaja estructural

Cuando se realiza fine-tuning a través de servicios en la nube (API de fine-tuning de OpenAI, Amazon Bedrock o similares), los datos de entrenamiento viajan a un proveedor externo. Con frecuencia, esos datos incluyen información sensible de clientes, documentación de procesos internos o estructuras de precios confidenciales.

Con fine-tuning local usando Unsloth, los datos no salen de la infraestructura propia en ningún momento. Esto simplifica considerablemente la documentación de cumplimiento del RGPD: no hay acuerdos de tratamiento de datos con proveedores de IA para los datos de entrenamiento, no hay transferencias a terceros países, no hay dependencia de las políticas de privacidad de terceros.

Para pymes cuyos datos de entrenamiento incluyen datos personales (feedback de clientes, expedientes de personal), este es un factor relevante en la evaluación del riesgo. Más sobre soberanía de datos en nuestra página de soberanía de datos.

Evaluación realista de costes y esfuerzo

El fine-tuning no es un proceso de un solo clic. Esfuerzo típico para un primer piloto:

Preparación de datos: 10–20 horas (recopilación, limpieza, formato JSONL)
Tiempo de entrenamiento: 2–8 horas en hardware de consumo, según el tamaño del conjunto de datos y el modelo
Integración y pruebas: 5–15 horas

Los costes recurrentes una vez finalizada la configuración son mínimos: electricidad y mantenimiento del hardware, sin costes por token, sin modelos de suscripción, sin límites de uso.

Un objetivo realista para empezar es un modelo de 8B —Llama 3.2 8B o Qwen2.5 7B— ajustado con 200 a 500 ejemplos propios. Esto produce mejoras de calidad medibles para tareas específicas sin necesidad de experiencia en ciencia de datos, siempre que se utilice una herramienta guiada como Unsloth.

Para modelos más grandes (32B–70B), un Mac Studio M3 Ultra con 192 GB de memoria unificada puede mantener el modelo completo en memoria durante el entrenamiento. Alternativamente, QLoRA sobre una GPU de consumo de 24 GB es suficiente para modelos de menor tamaño. Más información sobre stacks completos de IA local en nuestra página de IA local y en la descripción del Kaira Toolkit.

Por dónde empezar

El fine-tuning con LoRA es el paso natural después de instalar un LLM local básico. Quien ya tiene Ollama en marcha y trabaja con embeddings locales para RAG puede construir un modelo especializado para su empresa con un esfuerzo relativamente modesto: uno que hable el idioma de la empresa, entienda sus flujos de trabajo y se ejecute en su propio hardware.

La vía más rápida es un caso de uso acotado con un conjunto de datos pequeño y de calidad. Si quieres evaluar el fine-tuning para tu propia infraestructura, podemos acompañarte desde la preparación de datos hasta el modelo en producción: solicita un proyecto piloto.