Lokale KI vs. Cloud: TCO-Vergleich über 3 Jahre für KMU

tco local-llm cloud-ai

Die Frage kommt in fast jedem KI-Erstgespräch: Ist ein lokaler Server wirklich günstiger als die Cloud-API, oder zahlt man die Hardware ewig ab, bevor sich etwas rechnet? Die Antwort hängt von einem einzigen Faktor ab – Ihrem tatsächlichen Nutzungsvolumen. Dieser Beitrag rechnet drei Jahre durch.

Was Cloud-LLM-APIs tatsächlich kosten

Alle großen Anbieter berechnen nach Token. Zur Orientierung: 1 Million Tokens entspricht grob 750 000 deutschen Wörtern – etwa 1 000 Seiten A4-Bürotext.

Aktuelle API-Preise gemäß den jeweiligen Anbieter-Preisseiten, Stand Frühjahr 2026:

Modell Input / Mio. Tokens Output / Mio. Tokens
GPT-4o $2,50 $10,00
GPT-4o mini $0,15 $0,60
Claude Sonnet 4.6 $3,00 $15,00
Claude Haiku 4.5 $1,00 $5,00
Claude Opus 4.7 $5,00 $25,00

Für einfache Klassifikationen oder kurze Antworten sind Haiku oder GPT-4o mini ausreichend. Für Dokumentenanalyse, mehrsprachige Aufgaben oder Vertragsverarbeitung landen die meisten KMU bei GPT-4o oder Claude Sonnet.

Musterrechnung: 10 Mitarbeitende, moderater Einsatz

Annahme: 10 Mitarbeitende, je 100 KI-Anfragen pro Arbeitstag (250 Tage/Jahr), je ca. 1 000 Input-Tokens und 500 Output-Tokens pro Anfrage.

Jahresvolumen:

  • Input: 10 × 100 × 250 × 1 000 = 250 Mio. Tokens
  • Output: 10 × 100 × 250 × 500 = 125 Mio. Tokens

Jahreskosten Cloud — GPT-4o: (250 × $2,50) + (125 × $10,00) = $625 + $1.250 = ca. $1.875/Jahr

Jahreskosten Cloud — Claude Sonnet 4.6: (250 × $3,00) + (125 × $15,00) = $750 + $1.875 = ca. $2.625/Jahr

Über 3 Jahre (ohne Preiserhöhungen):

  • GPT-4o: ca. $5.625 ≈ €5.200
  • Claude Sonnet: ca. $7.875 ≈ €7.300

Das sind Schätzwerte. Preisänderungen, Volumenzuschläge und Nutzungsschwankungen können das Ergebnis in beide Richtungen verschieben.

Was ein lokaler Mac-Studio-Stack kostet

Das aktuell meistdiskutierte Gerät für lokale KMU-KI-Server ist der Mac Studio M4 Max. Laut Apples offiziellem Store ist der Einstieg ab ca. $1.999 möglich (Basismodell); Konfigurationen mit 64–128 GB Unified Memory – nötig für Modelle ab 30B Parametern in brauchbarer Qualität – liegen nach aktuellen Marktpreisen im Bereich von $2.199–$2.799. In Deutschland inkl. Mehrwertsteuer entspricht das etwa €2.600–€3.300.

Auf diesem Gerät laufen mit Ollama und MLX (Apples eigenem Machine-Learning-Framework) Modelle wie Llama 3.3 70B oder Qwen 2.5-72B. Praktiker berichten Inferenzgeschwindigkeiten von 20–40 Token/s für 70B-Modelle auf M4-Chipsätzen – schnell genug für interaktive Nutzung und automatisierte Pipelines.

Stromkosten

Unter LLM-Inferenzlast verzeichnen gemeinschaftsseitige Messungen am Mac Studio M4 Max typischerweise 150–250 W. Bei 8 Stunden aktivem Betrieb pro Arbeitstag und ansonsten Leerlauf:

  • Aktiv: ca. 200 W × 8 h × 250 Tage/Jahr = 400 kWh/Jahr
  • Leerlauf: ca. 20 W × 16 h × 365 Tage = ca. 117 kWh/Jahr
  • Jahresverbrauch gesamt: ca. 517 kWh

Bei deutschen Strompreisen von ca. €0,30–0,34/kWh (Stand 2026): €155–175/Jahr, also ca. €465–525 über drei Jahre.

Sonstige Kosten

  • AppleCare+ Business Essentials oder gleichwertiger Wartungsvertrag: ca. €300–400 für 3 Jahre (optional)
  • Verwaltungsaufwand: Modell-Updates über Ollama (ollama pull llama3.3) dauern wenige Minuten und werden vom System gehandhabt. Realistischer IT-Aufwand: 1–2 Stunden pro Monat.

Lokale TCO über 3 Jahre

Kostenposition Betrag
Hardware (64–128 GB Mac Studio M4 Max) €2.600–€3.300
Strom (3 Jahre) €465–€525
Wartungsvertrag (optional) €300–€400
Gesamt €3.365–€4.225

Der Vergleich auf einen Blick

Szenario Cloud GPT-4o (3 J.) Cloud Sonnet (3 J.) Lokal (3 J.)
5 Nutzer, 50 Anfragen/Tag ca. €1.300 ca. €1.825 €3.365–€4.225
10 Nutzer, 100 Anfragen/Tag ca. €5.200 ca. €7.300 €3.365–€4.225
15 Nutzer, 150 Anfragen/Tag ca. €11.700 ca. €16.400 €3.365–€4.225

Für ein Team von 10 Personen mit täglichem KI-Einsatz liegt der Break-even je nach Cloud-Modell und tatsächlichem Verbrauchsprofil bei ca. 10–16 Monaten. Danach fallen nur noch Betriebskosten (Strom) an.

Was die Zahlen nicht abbilden

DSGVO und Datensouveränität

Jeder Token, der an OpenAI oder Anthropic gesendet wird, verlässt Ihr Netzwerk und landet auf Servern außerhalb der EU. Sobald Prompts Kundendaten, Personalinformationen oder Vertragsinhalte enthalten, ist das kein theoretisches Risiko – es ist eine aktive Datenübertragung, die DSGVO-konform dokumentiert und abgesichert sein muss.

Ein lokaler Stack verarbeitet alles auf Ihrem eigenen Gerät. Kein Drittland-Transfer, keine Abhängigkeit von Datenschutzrahmenwerken, die gerichtlich angefochten werden können. Für viele deutsche KMU löst das die Compliance-Frage strukturell – unabhängig von der Kostenfrage. Mehr dazu auf unserer Seite zur Datensouveränität.

Fördermöglichkeiten in Deutschland

Beratungs- und Implementierungskosten für KI-Systeme können gemäß unserem Verständnis unter bestimmten Voraussetzungen über Bundesprogramme (z. B. BAFA-Beratungsförderung, „Förderung unternehmerischen Know-hows") oder Landes-Digitalisierungsprogramme kofinanziert werden. Wir empfehlen, vor einer Investition einen Fördermittelberater oder Steuerberater hinzuzuziehen – die Förderlandschaft ändert sich regelmäßig.

Keine Ratenlimits, keine Cloud-Ausfälle

Cloud-APIs begrenzen gleichzeitige Anfragen. Wenn zehn Mitarbeitende parallel arbeiten, deckelt der Anbieter den Durchsatz. Lokale Modelle kennen keine solchen Grenzen – die volle Rechenkapazität steht immer zur Verfügung.

Modellstabilität

Anbieter ändern Modelle, Preise und Nutzungsbedingungen nach eigenem Ermessen. Mit einem lokalen Modell – etwa Llama 3.3, Qwen 2.5-72B oder Mistral Small 4 – entscheiden Sie selbst, wann Sie aktualisieren. Kritische Workflows können auf einem bestimmten Modellstand eingefroren bleiben.

Wann Cloud-APIs weiterhin sinnvoll sind

Nicht jedes Nutzungsprofil rechtfertigt einen lokalen Stack:

  • Sehr geringes Volumen: Unter 30–40 Anfragen pro Nutzer täglich bleibt die Cloud günstiger, ohne IT-Aufwand.
  • Kein technisches Personal: Jemand muss Modelle verwalten, Updates einspielen und Ausfälle erkennen.
  • Stark schwankende Last: Wenn KI nur in wenigen Projektphasen pro Jahr intensiv genutzt wird, rechnet sich Hardware selten.

Die praktische Schlussfolgerung

Für ein deutsches KMU mit 10–15 Mitarbeitenden, das KI täglich für Dokumentenverarbeitung, Kundenkommunikation oder interne Wissensabfragen einsetzt, liegen die 3-Jahres-Gesamtkosten eines lokalen Stacks bei einem Drittel bis zur Hälfte der äquivalenten Cloud-API-Kosten – bei gleichzeitig besserer DSGVO-Compliance und vollständiger Kontrolle über Modelle und Daten.

Wollen Sie wissen, wo Ihr eigener Break-even liegt? Nehmen Sie Kontakt auf – wir rechnen Ihr spezifisches Nutzungsprofil durch. Oder starten Sie direkt mit einem Pilotprojekt und messen Sie Ihr tatsächliches Token-Volumen, bevor Sie eine langfristige Entscheidung treffen.