🧠 · KI ohne Cloud

Lokale LLMs: Datenschutz trifft künstliche Intelligenz

Warum monatlich für ChatGPT zahlen und dabei Daten teilen, wenn dasselbe Modell kostenlos und privat auf dem eigenen Server läuft? Lokale LLMs sind keine Kompromisslösung mehr – sie sind für viele Use Cases die bessere Wahl.

Ollama Llama 3 Mistral Phi-4 LM Studio

Warum lokale LLMs – die echten Gründe

Datenschutz ist der offensichtlichste Grund: Wer sensible Geschäftsdaten, persönliche Informationen oder vertrauliche Texte durch ein Sprachmodell jagt, will nicht, dass diese Daten auf fremden Servern landen oder zum Modelltraining genutzt werden. Mit lokalen Modellen verlässt kein Byte die eigene Infrastruktur.

Aber es gibt weitere Gründe, die weniger diskutiert werden:

  • Kosten: Cloud-API-Calls kosten Geld pro Token. Bei KI-Automatisierungen mit hohem Volumen summiert sich das. Lokale Modelle sind nach der Einrichtung kostenlos im Betrieb.
  • Latenz und Offline-Betrieb: Keine Internetverbindung nötig. Ideal für Embedded-Setups, Offline-Szenarien oder wenn man API-Ratelimits einfach nicht brauchen kann.
  • Volle Kontrolle über das Modell: Eigene Fine-Tunes, eigene System-Prompts, eigene Quantisierungsstufen – kein externer Anbieter ändert das Modellverhalten von einem Tag auf den anderen.

Die besten Tools für lokale LLMs

Es gibt drei Hauptwege, lokale Sprachmodelle zu betreiben – je nach Kenntnisstand und Use Case:

  • Ollama (meine Empfehlung): CLI-Tool das Modelle wie Docker-Images behandelt. ollama pull llama3.2 und das Modell läuft in Sekunden. REST-API auf Port 11434, perfekt für n8n-Integrationen. Läuft auf Mac, Windows, Linux.
  • LM Studio: Grafische Oberfläche für Windows und Mac. Ideal für Einsteiger – Modell auswählen, herunterladen, im Chat testen. OpenAI-kompatibler lokaler API-Server inklusive.
  • llama.cpp direkt: Für maximale Kontrolle und Performance-Tuning. Mehr Setup-Aufwand, aber volle Flexibilität bei Quantisierung, Batch-Size und CPU/GPU-Verteilung.
# Ollama Setup (3 Befehle) curl -fsSL https://ollama.ai/install.sh | sh ollama pull mistral ollama run mistral "Was ist Docker in einem Satz?" # API direkt ansprechen curl http://localhost:11434/api/generate \ -d '{"model":"mistral","prompt":"Erkläre Prompt Engineering"}'

Welches Modell für welchen Einsatz?

Die Modellauswahl ist der wichtigste Faktor nach dem Setup. Faustregel: Je kleiner das Modell, desto schneller – aber desto eingeschränkter die Fähigkeiten. Für den Heimserver empfehle ich diese Kategorien:

  • Allrounder (7–8B): Llama 3.2, Mistral 7B – gut für Textzusammenfassungen, einfache Klassifikation, Q&A. Laufen flüssig auf einem Server mit 8–16 GB RAM.
  • Schnell und klein (1–4B): Phi-4 mini, Gemma 2 2B – für schnelle Antworten in Home Automation-Contexts oder einfache Skript-Helpers mit wenig Latenz.
  • Leistungsstark (14–32B): Llama 3.1 70B (quantisiert), Mixtral 8x7B – für komplexes Reasoning, Code-Generierung und anspruchsvolles Prompt Engineering. Braucht 24+ GB RAM.
  • Code-Spezialist: Codestral, DeepSeek Coder – für KI-gestützte Automatisierung von Entwicklungsaufgaben.

Mein Standardstack: Mistral 7B für schnelle Alltagsaufgaben in Automatisierungen, Llama 3.1 8B für längere Texte, Phi-4 mini für Low-Latency-Anfragen.

Häufige Fragen zu lokalen LLMs

Für 7B-Modelle in 4-Bit-Quantisierung reichen 8 GB RAM. Mit 16 GB laufen auch 13B-Modelle komfortabel. Eine dedizierte GPU (NVIDIA mit 8+ GB VRAM) beschleunigt die Inferenz erheblich – ist aber keine Pflicht. CPU-only läuft, ist aber bei großen Modellen langsam (ca. 10–30 Token/Sekunde).

Für viele Automatisierungsaufgaben – Klassifikation, Extraktion, einfache Texte – sind 7B-Modelle absolut ausreichend. Für komplexes Reasoning, aktuelle Ereignisse oder sehr nuancierte Aufgaben ist GPT-4 noch überlegen. Die Lücke schließt sich aber schnell: Llama 3.1 70B ist in vielen Benchmarks auf GPT-4-Niveau.

Ja, sehr einfach. n8n hat native Ollama-Integration in den AI-Nodes. Alternativ sprichst du den Ollama-API-Endpunkt (http://localhost:11434) einfach per HTTP-Node an. Das ist meine Standardkombination für KI-Automatisierungen ohne Cloud-Abhängigkeit.

Lokale Modelle haben einen festen Knowledge Cutoff – meist 6–24 Monate vor Veröffentlichung. Neue Ereignisse sind unbekannt. Für Aufgaben mit aktuellen Informationen kombiniert man lokale Modelle mit einem RAG-System (Retrieval Augmented Generation): aktuelle Daten werden als Kontext mitgegeben, das Modell antwortet auf deren Basis. Das ist ein spannendes digitales Experiment für sich.