Llama 4 Scout lokal: multimodale KI per Ollama

16. Mai 2026 Deutsch 5 Min. Lesezeit

llama4 multimodal lokale-ki

Meta hat im April 2026 die Llama-4-Familie veröffentlicht — das erste große Open-Weight-Modell der Llama-Reihe mit nativer Multimodalität. Wer bisher lokale LLMs ausschließlich für Textaufgaben eingesetzt hat, bekommt mit Llama 4 Scout eine neue Option: Bilder, Scans und Diagramme direkt in die Anfrage einzubinden, ohne separaten Vision-Endpunkt oder Cloud-API.

Dieser Artikel erklärt, was Llama 4 Scout technisch auszeichnet, welche Hardware ausreicht, wie die Einrichtung über Ollama in der Praxis aussieht und wie Scout gegenüber Gemma 4 und Qwen 2.5VL zu bewerten ist.

Die MoE-Architektur: Warum Scout effizienter ist als die Parameterzahl vermuten lässt

Llama 4 Scout verwendet eine Mixture-of-Experts-Architektur (MoE). Laut Meta hat Scout 109 Milliarden Gesamtparameter — bei jeder Inferenz werden davon jedoch nur rund 17 Milliarden aktiv genutzt. Das ist der entscheidende Unterschied zu klassischen Dense-Modellen.

Ein Dense-Modell mit 70B Parametern beansprucht bei jeder Anfrage alle 70B Parameter. Scouts MoE-Design aktiviert dagegen jeweils nur das passende Expert-Subnetz. Das Ergebnis: Llama 4 Scout ist auf Hardware lauffähig, die für ein Dense-70B-Modell zu knapp bemessen wäre — und bleibt qualitativ konkurrenzfähig.

Hinzu kommt ein Context-Window von bis zu 10 Millionen Token, laut Metas offizieller Dokumentation. Zum Vergleich: Ein 300-seitiges Vertragsdokument umfasst typischerweise unter 150.000 Token. Llama 4 Scout kann theoretisch ganze Dokumentenarchive in einer einzigen Anfrage verarbeiten — ein klarer Vorteil für Teams, die große Bestände ohne aufwändiges RAG-System erschließen wollen.

Scout oder Maverick — welches Modell passt in Ihren Betrieb?

Für die meisten KMU-Setups ist Llama 4 Scout die praktikable Wahl:

Aktivparameter: 17B | Gesamtparameter: 109B (MoE)
Arbeitsspeicher: ab ca. 20 GB unified memory für quantisierte Varianten; 32 GB+ für stabilen Mehrbenutzerbetrieb
Geeignete Hardware: Mac Mini M4 Pro (64 GB), MacBook Pro M4 Max (128 GB), Mac Studio M3 Ultra (192 GB)
Anwendungsfälle: Dokumentenanalyse, Bildauswertung, Vertrags-Review, mehrsprachige Zusammenfassungen

Llama 4 Maverick mit 400 Milliarden Gesamtparametern ist für Multi-GPU-Workstations oder dedizierte KI-Server konzipiert. Für KMU, die lokale KI ohne Rechenzentrum betreiben möchten, ist Scout der sinnvollere Einstieg — kleiner im Ressourcenbedarf, aber mit dem gleichen grundlegenden MoE-Vorteil.

Einrichtung mit Ollama: zwei Befehle bis zum Start

Wer Ollama bereits installiert hat, braucht nur:

ollama pull llama4:scout
ollama run llama4:scout

Scout und Maverick sind in der Ollama-Modellbibliothek verfügbar (siehe ollama.com/library/llama4). Nach dem Start ist das Modell über eine lokale REST-API erreichbar — kompatibel mit Open WebUI, Continue.dev und jeder Anwendung, die eine OpenAI-kompatible API erwartet. Eine Neuinstallation von Ollama dauert erfahrungsgemäß rund fünf Minuten; Anleitungen finden Sie in der offiziellen Ollama-Dokumentation.

Für Maverick:

ollama run llama4:maverick

Multimodalität in der Praxis: Was sich damit konkret anfangen lässt

Llama 4 Scout ist nativ multimodal: Sie übergeben Bilder und Text in derselben Anfrage, ohne Adapter oder Zusatzmodelle. Für Unternehmen eröffnet das direkt verwertbare Anwendungsfälle:

Rechnungsverarbeitung: Gescannte Belege per Prompt auslesen — „Extrahiere Betrag, Rechnungsdatum und IBAN aus diesem Scan."
Produktkatalog-Analyse: Produktfotos mit technischen Daten abgleichen und Beschreibungen generieren
Vertragsauswertung: PDFs mit eingescannten Seiten direkt analysieren, Klauseln zusammenfassen, Änderungen markieren
Chart-Interpretation: Diagramme aus Berichten beschreiben und kommentieren, ohne manuellen Aufwand

All das geschieht lokal. Kein Bild, kein Dateiinhalt, kein Prompt verlässt das Firmennetz.

Vergleich: Scout, Gemma 4 und Qwen 2.5VL

Llama 4 Scout ist nicht das einzige multimodale Open-Weight-Modell, das lokal läuft. Für eine informierte Auswahl lohnt ein Blick auf die Alternativen:

Gemma 4 27B (Google, April 2026) ist besonders stark für Coding-Aufgaben und agentengesteuerte Workflows mit nativen Funktionsaufrufen. Das Context-Window ist kürzer als bei Scout, dafür ist Gemma 4 auf Coding-Benchmarks sehr gut bewertet. Wer primär einen lokalen Programmier-Assistenten sucht, ist dort gut aufgehoben — wir haben Gemma 4 in einem früheren Artikel im Detail beschrieben.

Qwen 2.5VL (Alibaba) punktet laut Messungen der Community besonders im deutschsprachigen und spanischsprachigen Betrieb. Practitioners berichten über besonders gute Qualität bei formalen deutschen Texten. Als Vision-Language-Modell deckt es ähnliche multimodale Szenarien ab wie Llama 4 Scout.

Llama 4 Scout ist die aktuell überzeugendste Wahl, wenn ein sehr langes Kontextfenster gebraucht wird, wenn Multimodalität nativ und ohne Extrakonfiguration laufen soll, und wenn Metas breite Sprachunterstützung (inklusive Deutsch und Spanisch) relevant ist.

DSGVO: Keine Daten verlassen das Unternehmen

Lokale KI bedeutet vollständige Datensouveränität. Wenn Llama 4 Scout über Ollama auf Ihrer eigenen Hardware läuft, existiert kein ausgehender API-Aufruf. Eingaben — ob Kundenverträge, HR-Unterlagen oder Finanzdokumente — bleiben auf Ihrer Maschine.

DSGVO Art. 32 fordert angemessene technische Maßnahmen zum Schutz personenbezogener Daten. Ein vollständig lokaler Inferenz-Stack ist eine der robustesten technischen Kontrollen, die Sie implementieren können — zuverlässiger als jede vertragliche Absicherung gegenüber einem Cloud-Anbieter, bei dem sich Datenschutzrichtlinien und Gerichtsstandsklauseln ändern können.

Mehr zur technischen und regulatorischen Dimension lokaler KI finden Sie auf unserer Seite zur Datensouveränität.

Förderung: BAFA und KfW als Hebel für die Hardware-Investition

Mac-Hardware für lokale KI ist eine reale Investition. Für deutsche KMU gibt es Förderwege, die einen Teil davon abfedern können.

Das BAFA-Programm „Digital Jetzt" fördert Investitionen in Soft- und Hardware für die Digitalisierung. Gemäß unserem Verständnis der aktuellen Richtlinien kann ein lokales KI-Setup auf Mac Studio als Digitalisierungsinvestition eingeordnet werden. Die konkrete Förderfähigkeit hängt vom individuellen Unternehmenskontext ab — sprechen Sie Ihren Steuerberater auf die Antragsmöglichkeiten an.

KfW-Digitalisierungskredite bieten günstige Zinssätze für IT-Investitionen, einschließlich on-premise KI-Infrastruktur. Das macht den Einstieg in lokale KI auch ohne sofortigen Eigenkapitaleinsatz planbar.

Jetzt starten

Llama 4 Scout ist heute per ollama pull llama4:scout auf Apple-Silicon-Macs lauffähig — nativ multimodal, ohne Cloud-Vertrag, ohne Datenschutzrisiko. Wenn Sie prüfen möchten, ob multimodale lokale KI für einen konkreten Einsatzfall in Ihrem Betrieb geeignet ist, sprechen Sie uns an. Wir begleiten Sie von der Hardware-Auswahl bis zur produktiven Integration.

→ Pilotprojekt anfragen