Lokaler Coding-Agent OpenHands: autonomes Coden ohne Cloud-API

7. Jun 2026 Deutsch 5 Min. Lesezeit Auch auf: English, Español

coding-agent openhands local-llm

Die Diskussion über KI-Coding-Assistenten konzentriert sich oft auf Autocomplete-Funktionen: eine Zeile vorschlagen, einen Docstring ergänzen, eine Regex generieren. Das ist nützlich. OpenHands ist etwas anderes.

OpenHands, 2024 unter dem Namen OpenDevin gestartet und 2025 umbenannt, ist ein autonomer Coding-Agent. Er bekommt eine Aufgabe (etwa „Refaktoriere das Datenbankmodul auf async/await" oder „Schreibe Unit-Tests für alle öffentlichen Methoden in payments.py") und arbeitet sie selbständig ab: Er liest Dateien, schreibt Code, führt Tests aus, liest Fehlermeldungen und iteriert, bis das Ergebnis stimmt oder er auf eine Frage stößt, die menschliche Entscheidung erfordert.

Mit Version 1.7.0 (Mai 2026) hat OpenHands über 74.000 GitHub-Stars gesammelt und gilt in der Entwickler-Community als meistgenutzte offene Coding-Agent-Plattform. Was für KMU besonders relevant ist: OpenHands läuft komplett lokal, mit Ollama als Inferenz-Backend, ohne dass eine einzige Zeile Quellcode das Firmennetz verlässt.

OpenHands und die Sicherheitsarchitektur

Bevor ein Agent Code schreibt, muss er Code ausführen können. OpenHands löst das sauber: Jede Agenten-Session läuft in einem separaten Docker-Container. Der Agent kann dort Dateien lesen und schreiben, Befehle ausführen und Browserfenster öffnen, aber ausserhalb des Containers hat er keine Berechtigungen. Das Modell selbst sieht nur, was der Agent ihm explizit weitergibt.

Für den Betrieb mit Ollama bedeutet das: LLM-Anfragen gehen vom OpenHands-Container an die lokale Ollama-Instanz, nie an externe Server. API-Schlüssel und Internetzugang sind für den Standardbetrieb nicht erforderlich.

Warum Ollama und MLX den Zeitpunkt bestimmen

Das offizielle Ollama-Team schrieb auf X: „Ollama is now updated to run the fastest on Apple silicon, powered by MLX, Apple's machine learning framework" (Ollama auf X). Das ist kein Marketing-Satz: MLX ist Apples eigenes Framework für die Unified-Memory-Architektur der M-Chips, das Datenbewegungen zwischen CPU- und GPU-Speicher eliminiert. Für LLM-Inferenz bedeutet das messbar höhere Token-pro-Sekunde-Raten auf Apple-Silicon-Hardware.

Für OpenHands ist das entscheidend. Ein Coding-Agent sendet keine einzelne Anfrage, sondern Dutzende: Plan erstellen, Datei lesen, Code schreiben, Test ausführen, Fehlermeldung analysieren, nächsten Schritt planen. Je schneller das Modell antwortet, desto kürzer die Wartezeit pro Iteration, und desto praxistauglicher der Agent für tatsächliches Arbeiten.

Community-Berichte (keine Freshlab-eigenen Messungen) zeigen für den Betrieb von OpenHands mit einem 32B-Modell auf einem Mac Studio M3 Ultra mit 192 GB Unified Memory Durchsatzraten von 25-40 Tokens/Sekunde, ausreichend für produktives Arbeiten mit merklicher, aber akzeptabler Latenz pro Agentenanfrage. Entwickler auf X berichten zudem, dass sich auch leistungsstarke Modelle wie DeepSeek-V3 auf Mac Studio M3 Ultra-Systemen mit 512 GB Unified Memory problemlos als OpenHands-Backend betreiben lassen.

Das richtige Modell wählen

Nicht jedes Modell ist für Coding-Agenten gleich gut geeignet. OpenHands benötigt ein Modell, das zuverlässig JSON-formatierte Tool-Calls produziert, langen Kontext verarbeitet und präzise Coding-Sprache beherrscht. Empfehlungen aus der OpenHands-Dokumentation und Community-Erfahrungen:

Qwen2.5-Coder 32B (Q4KM, ~20 GB): Stärkste frei verfügbare Coding-Variante in dieser Größenklasse. Konsistentes Tool-Calling. Läuft auf Mac Studio M3 Ultra mit 192 GB Unified Memory flüssig.
DeepSeek-Coder-V2 16B (Q4, ~11 GB): Gutes Preis-Leistungs-Verhältnis für Workstations mit 16-24 GB VRAM. Gut dokumentiertes Tool-Use-Verhalten.
OpenHands LM 32B: Ein speziell für OpenHands-Workflows trainiertes Modell, verfügbar auf Hugging Face. Publizierte Lösungsrate von 37,2 % auf SWE-Bench Verified, einer der höchsten veröffentlichten Werte für open-weight Modelle unter 70 Milliarden Parametern.
Llama 3.3 70B (Q4KM, ~44 GB): Für Mac Studio Ultra mit 192+ GB Unified Memory. Generalistisch, aber sehr zuverlässiges Tool-Calling.

Setup in 5 Schritten

Voraussetzungen: Docker Desktop, Ollama, macOS oder Linux, ausreichend RAM (mindestens 16 GB für 7B-Modelle, 64+ GB für 32B).

1. Modell laden

ollama pull qwen2.5-coder:32b

2. Ollama für externe Container-Zugriffe freigeben

OLLAMA_HOST=0.0.0.0 ollama serve

3. OpenHands-Container starten, mit den Umgebungsvariablen LLMMODEL, LLMBASEURL (auf die lokale Ollama-Instanz) und LLMAPI_KEY=ollama. Der vollständige Docker-Befehl steht in der OpenHands-Dokumentation.

4. Browser öffnen unter http://localhost:3000, dort erwartet die OpenHands-UI den ersten Task.

5. Ersten Task definieren, zum Beispiel: „Lies die Datei src/api/users.py und schreibe pytest-Unit-Tests für alle öffentlichen Funktionen in tests/test_users.py."

OpenHands plant, führt Schritte aus und zeigt den Fortschritt in der UI, einschliesslich aller Befehle und Dateiänderungen, die der Agent vorgenommen hat. Am Ende steht ein Diff zur menschlichen Review.

Was KMU-Entwicklungsteams damit tun können

Konkrete Einsatzfälle, die OpenHands in der Praxis zuverlässig abarbeitet:

Test-Coverage erhöhen: Vorhandenen Code lesen, fehlende Unit-Tests und Integrationstests ergänzen, mechanisch, aber zeitaufwändig manuell.
Refactoring: Synchronen Code auf async/await umstellen, Abhängigkeiten aktualisieren, veraltete API-Aufrufe ersetzen.
Boilerplate generieren: API-Endpunkte, Datenbankmodelle, Serializer nach Schema-Definition erstellen.
Dokumentation nachziehen: Docstrings für undokumentierte Methoden generieren, README-Abschnitte schreiben.
Bug-Investigation: Fehlermeldung und Stack-Trace übergeben, der Agent sucht die Root Cause und schlägt einen Fix vor.

Was OpenHands nicht ersetzt: Code-Review durch einen erfahrenen Entwickler. Der Agent macht Fehler, verliert bei sehr komplexen Multi-File-Änderungen gelegentlich den Kontext und produziert manchmal redundanten Code. Human-in-the-loop ist kein Bug, sondern das empfohlene Nutzungsmodell.

DSGVO-Vorteil: Quellcode verlässt das Haus nicht

Für viele Unternehmen ist Quellcode das sensibelste Asset: Er enthält Geschäftslogik, Datenbankschemas und interne API-Strukturen, häufig schützungswürdiges Know-how im Sinne des Geschäftsgeheimnisschutzgesetzes (GeschGehG). Ihn an eine Cloud-API zu senden erzeugt eine Übertragungskette mit möglichen Drittland-Transfers und Subverarbeitern.

Mit einem lokal betriebenen Stack, Ollama on-premise, Docker-Container auf dem eigenen Server oder Mac Studio, verlässt dieser Code das Netzwerk nicht. Das erfüllt die Datensparsamkeitspflicht nach Art. 5 Abs. 1 lit. c DSGVO, reduziert das Risiko von Drittanbieter-Datenpannen und vereinfacht die DSGVO-Dokumentation erheblich: Es gibt schlicht kein Kapitel über Drittland-Transfers zu schreiben.

Förderoptionen

Digitalisierungsprojekte, die den Software-Entwicklungsprozess automatisieren, können gemäß unserem Verständnis der aktuellen Förderlandschaft unter bestimmten Umständen über BAFA-Programme zur Unternehmensberatung oder Landesprogramme zur KMU-Digitalisierung förderfähig sein. Die genauen Anforderungen variieren je nach Bundesland und laufender Programmperiode. Wir empfehlen vorab das Gespräch mit einem akkreditierten Förderberater.

Nächste Schritte

Ein lokal betriebener Coding-Agent ist heute keine Bastelarbeit mehr. OpenHands + Ollama lässt sich an einem Nachmittag aufsetzen und liefert ab dem ersten Einsatz messbaren Zeitgewinn, ohne API-Kosten, ohne Datenweitergabe, ohne Vendor Lock-in.

Wenn Sie wissen möchten, wie ein solcher Stack in Ihre bestehende Infrastruktur integriert werden kann, oder welche Hardware für Ihre Anforderungen sinnvoll ist, sprechen Sie uns an. Freshlab begleitet Setup, Integration und die Schulung Ihres Teams.

→ Kontakt aufnehmen | → Pilotprojekt starten | → Mehr über lokale KI für KMU