Lokale Multi-Agent-KI: LangGraph, CrewAI, AutoGen im Praxistest

multiagent lokale-ki ollama

Einzelne Sprachmodelle können Texte zusammenfassen, E-Mails entwerfen oder Daten klassifizieren. Für komplexe Geschäftsprozesse reicht ein einzelner KI-Aufruf aber oft nicht aus. Rechnungen prüfen, relevante Klauseln aus internen Verträgen extrahieren, Ergebnisse gegen eine Datenbank validieren und abschließend einen Bericht erstellen – das sind mehrstufige Workflows, bei denen mehrere spezialisierte Agenten besser abschneiden als ein einzelnes Modell im Alleingang.

Genau diesen Markt adressieren drei Open-Source-Frameworks, die in den letzten Monaten erheblich an Reife gewonnen haben: LangGraph, CrewAI und AutoGen. Alle drei lassen sich vollständig lokal betreiben – kombiniert mit Ollama und Modellen wie Llama 3.3 oder Mistral Small 4, ohne Cloud-Verbindung und ohne laufende API-Kosten.

Ein Beitrag von @PythonDv auf X, der diese Woche viel Resonanz fand, bringt es auf den Punkt: "You don't need to spend a single dollar to build a production AI system in 2026" — mit Orchestrierungsschicht aus LangGraph oder CrewAI (Quelle). Die spannende Folgefrage für den tatsächlichen Unternehmenseinsatz: Welches Framework eignet sich für welchen Anwendungsfall?

LangGraph: Graphbasierte Zustandsmaschinen für komplexe Workflows

LangGraph wurde vom LangChain-Team entwickelt und modelliert Agenten-Workflows als gerichteten Graphen. Jeder Knoten repräsentiert einen Verarbeitungsschritt oder Agentenaufruf; Kanten definieren, welche Bedingungen zum nächsten Schritt führen – inklusive Schleifen und Verzweigungen. Das ermöglicht präzise, reproduzierbare Prozesssteuerung.

Stärken:

  • Volle Kontrolle über mehrstufige, verzweigte Prozesse
  • Explizites Zustandsmanagement: jeder Schritt kann geloggt, inspiziert und neu gestartet werden
  • Produktionsreife Dokumentation und aktiv gepflegte Community
  • Gut geeignet für kritische Workflows, bei denen Nachvollziehbarkeit gefragt ist

Einschränkungen:

  • Steilere Lernkurve als CrewAI; mehr Boilerplate-Code für einfache Aufgaben
  • Enge Kopplung an das LangChain-Ökosystem

Ollama-Anbindung: LangGraph bindet Ollama über die ChatOllama-Klasse ein. Nach Konfiguration des lokalen Endpunkts (base_url: http://localhost:11434) läuft das gesamte Framework ohne Cloud-Verbindung. Laut Berichten aus der Practitioner-Community erreicht Llama 3.3 70B auf einem Mac Studio M3 Ultra (192 GB Unified Memory) 18–28 Token/s – ausreichend für interaktive Business-Workflows.

CrewAI: Rollenbasierte Agenten für Teams ohne Deep Python-Know-how

CrewAI setzt auf eine intuitive Metapher: eine „Crew" aus Agenten mit definierten Rollen, Zielen und Werkzeugen. Ein Recherche-Agent, ein Schreib-Agent, ein Qualitätssicherungs-Agent – jeder hat seinen Auftrag, und CrewAI koordiniert die Zusammenarbeit. Diese Abstraktion macht Workflows für Nicht-Entwickler leicht verständlich und beschreibbar.

Stärken:

  • Einfachste API der drei Frameworks – erste Prototypen entstehen in wenigen Stunden
  • Rollenmetapher eignet sich ideal für Content-Erstellung, Recherche und strukturierte Analysen
  • Parallele Agentenausführung einfach konfigurierbar
  • Geringer Einrichtungsaufwand bei überschaubaren Workflows

Einschränkungen:

  • Weniger Ablaufkontrolle als LangGraph bei komplexen Abhängigkeiten
  • Bei sehr tiefen Verzweigungslogiken kann die Konfiguration unübersichtlich werden

Ollama-Anbindung: CrewAI unterstützt Ollama nativ über das ollama/-Modell-Prefix. Die Einrichtung ist in wenigen Zeilen erledigt und erfordert keine zusätzliche LangChain-Konfiguration.

AutoGen (Microsoft Research): Konversationsbasierte Zusammenarbeit

AutoGen baut auf dem Konzept konversierender Agenten auf: Zwei oder mehr Agenten diskutieren ein Problem in einem strukturierten Austausch, bis sie gemeinsam zu einem Ergebnis kommen – ähnlich einem Gespräch zwischen Fachleuten. Seit Version 0.4 unterstützt AutoGen OpenAI-kompatible Endpunkte und damit auch Ollama als lokalen Backend.

Stärken:

  • Ideal für iterative Aufgaben wie Code-Review, schrittweise Analyse oder Entscheidungsfindung mit mehreren Perspektiven
  • „Human-in-the-Loop"-Workflows nativ unterstützt – ein Mensch kann jederzeit in den Agentenaustausch eingreifen
  • Gute Integration in VS Code und Microsoft-Entwicklungsumgebungen

Einschränkungen:

  • Konversationsbasierter Ansatz verbraucht bei langen Workflows deutlich mehr Tokens als graphbasierte Ansätze
  • Debugging mehrstufiger Agentengespräche erfordert Geduld

Ollama-Anbindung: AutoGen akzeptiert jeden OpenAI-kompatiblen Endpunkt – Ollama fungiert als lokaler Proxy und wird in der model_client-Konfiguration eingetragen.

Welches Framework für welchen KMU-Einsatz?

Anwendungsfall Empfehlung Grund
Mehrstufige Dokumentenverarbeitung LangGraph Präzise Ablaufkontrolle, nachvollziehbares Logging
Content-Erstellung und Recherche CrewAI Rollenmetapher, niedrige Einstiegshürde
Iterative Analyse, Code-Review AutoGen Konversationslogik, Human-in-the-Loop
Erster Pilot (kein Python-Team) CrewAI Schnellstes Prototyping
Produktionskritische Workflows LangGraph Zuverlässigkeit, Inspizierbarkeit

Für typische KMU-Anwendungen – interne Dokumentensuche, automatisierte Berichterstellung, E-Mail-Triage – ist CrewAI für erste Piloten gut geeignet. Sobald ein Prozess in die Produktion übergeht und Zuverlässigkeit sowie Nachvollziehbarkeit gefragt sind, zahlt sich der höhere Konfigurationsaufwand von LangGraph aus.

DSGVO-Vorteil: Kein Datentransfer, kein Restrisiko

Der entscheidende Unterschied zu Cloud-basierten Multi-Agent-Diensten: Bei einem vollständig lokalen Setup verlässt kein einziges Datenfragment das Unternehmensnetzwerk. Weder die Dokumente, die die Agenten verarbeiten, noch die Anfragen an das Sprachmodell werden an externe Server übertragen.

Das ist für Unternehmen, die personenbezogene Daten, Geschäftsgeheimnisse oder sensible Kundendaten verarbeiten, kein Nebenpunkt:

  • Kein Auftragsverarbeitungsvertrag mit einem Cloud-LLM-Anbieter erforderlich
  • Kein Cloud-seitiges Datenschutzvorfallrisiko durch externe Anbieter
  • Keine Weitergabe von Unternehmensgeheimnissen an Drittanbieter-Trainingsprozesse

Gemäß unserem Verständnis des EU AI Acts sind Unternehmen, die ausschließlich lokal betriebene Open-Weight-Modelle ohne externe Drittanbieter-API einsetzen, in einer regulatorisch günstigen Position – insbesondere im Hinblick auf die Betreiberpflichten, die nach Art. 26 EU AI Act für Hochrisiko-Systeme gelten (für eigenständige Hochrisiko-Systeme nach Anhang III ab dem 2. Dezember 2027, durch den Digital Omnibus vom Mai 2026 verschoben). Mehr zur Datensouveränität und was das für Ihr Unternehmen bedeutet.

Empfohlene Hardware und Modelle

Laut Berichten aus der Practitioner-Community eignen sich für produktive Multi-Agent-Workflows:

  • Einsteiger (Llama 3.2 11B, Gemma 3 12B, Mistral Small 4 22B): MacBook Pro M3/M4 mit 32–36 GB Unified Memory; 20–45 Token/s gemeldet
  • Mittelstufe (Llama 3.3 70B, Qwen 2.5 72B, Mistral Large 2): Mac Studio M3/M4 Ultra mit 64–192 GB; 18–30 Token/s gemeldet
  • Heavy-Duty (70B-Modelle in Q8 oder größere MoE-Modelle): Mac Studio M3/M4 Ultra 192 GB oder NVIDIA RTX 6000 Ada (48 GB VRAM)

Für die meisten KMU-Workflows – Dokumentenanalyse, interne Suche, Berichterstellung – ist ein Modell im 14B–32B-Bereich ausreichend und auf einem einzigen Mac Studio deploybar.

Nächste Schritte: Vom Experiment zur Produktion

Der Einstieg in lokale Multi-Agent-Workflows ist mit überschaubarem Aufwand möglich:

  1. Ollama installieren und Modell pullen: ollama pull llama3.3 oder ollama pull mistral-small
  2. Framework installieren: pip install langgraph / pip install crewai / pip install pyautogen
  3. Ersten Use-Case definieren: Ein konkreter interner Prozess (z. B. Vertragsanalyse, Meeting-Zusammenfassung, E-Mail-Klassifikation) als Ausgangspunkt
  4. Pilot aufsetzen und messen: Qualität, Latenz, Ressourcenverbrauch dokumentieren

Auf unserer Seite zur lokalen KI für Unternehmen finden Sie einen Überblick über mögliche Einsatzszenarien und den passenden Stack für Ihre Branche. Im Rahmen unseres Pilotprojekts begleiten wir Sie von der Auswahl des Frameworks bis zur ersten produktiven Deployment – in Ihrer Infrastruktur, mit Ihren Daten, ohne Cloud-Abhängigkeit.