Large Language Models (LLMs) sind neuronale Netzwerke, die mit großen Textmengen trainiert wurden, was eine enorme Rechenleistung erfordert. Doch einmal trainiert, können diese Systeme auch auf dem Rechner des Endbenutzers laufen. Das bedeutet allerdings nicht, dass die Hardware keine Rolle spielt.
Vor- und Nachteile lokaler Lösungen
Wer die verschiedenen Argumente für oder gegen den Einsatz von lokalen LLMs abwägt, wird rasch an die Gegenüberstellung von Cloud und eigener Hardware erinnert. Zu deren Vorteilen gehört, dass keine privaten Daten an die Entwickler weitergegeben werden. Eine Verbindung zum Netz ist nach der Installation in der Regel nicht mehr erforderlich. Eine Beschränkung der Zahl der Anfragen entfällt ebenfalls. Jedoch gibt es keine automatischen Updates, und häufig erreichen die lokalen Installationen nicht die Qualität der Cloudlösungen. Der Vollständigkeit halber sei auch erwähnt, dass für schnelle Antworten oftmals eine GPU beansprucht wird, was gegenüber der einfachen Abfrage per Browser mehr Energie kostet.
KI-Plattformen erleichtern die Arbeit: Eine Tatsache, die Einsteiger in das Thema häufig verwirrt, ist der Unterschied zwischen Framework und KI-Modell. Das KI-Modell („Large Lange Model“, LLM) ist auf Basis von Trainingsdaten in der Lage, bestimmte Aufgaben zu lösen. Die Kommunikation erfolgt in der Regel via APIs, die von Entwicklern dann in eigenen Projekten verwendet werden können. KI-Plattformen hingegen integrieren verschiedene KI-Modelle, sorgen für einen einheitlichen Ablauf der Einrichtung und stellen die Schnittstelle zur KI zur Verfügung. So können auch Laien lokale KI-Modelle nutzen und direkt loslegen.
Lokale KI-Plattformen
Die nachfolgend genannten Werkzeuge installieren und verwalten zahlreiche LLMs auf dem lokalen System:
Ollama: Wer kein Problem damit hat, mit einem Chatbot und einem Framework im Terminal zu arbeiten, findet in Ollama eine gute Lösung (https://ollama.com/download/linux). Die Installation lässt sich mit einem Einzeiler in der Konsole anstoßen. Das notwendige Curl-Kommando ist auf der oben genannten Webseite zu finden. Mittels des Zusatzes „pull“ und dem Namen des gewünschten Modells kümmert sich Ollama um den Download und Einrichtung. Danach muss nur noch mit
ollama run [NAME]
das Modell gestartet werden. Die Interaktion erfolgt dann im Terminal. Der Beitrag ab Seite 28 nennt weitere Details.

GPT4All (www.nomic.ai/gpt4all) will die Einbindung und Nutzung von KI auf lokalen Systemen stark vereinfachen und liefert dafür eine wirklich eingängige Oberfläche. Für Ubuntu wird ein Installations-Script angeboten, das Sie lediglich ausführen müssen. Für Windows und Mac-OS gibt es klassische Installationspakete. Wechseln Sie in den Bereich „Chats“, dann weist die Software nach einer frischen Installation darauf hin, dass Sie noch kein Sprachmodell installiert haben. Suchen Sie sich dann aus der Liste eines aus und starten Sie die „Installation“ mittels „Download“. Das Programm liefert vor dem Download eventuelle Hinweise, falls das gewählte Modell nicht für Ihre Hardware geeignet ist – etwa weil zu wenig Speicher zur Verfügung steht. Um Speicherplatz für ein neues Modell zu schaffen, hilft neben einem Eintrag in der Liste der bereits installierten Modelle ein Klick auf „Remove“.
LM Studio: Dieses Projekt (https://lmstudio.ai) offeriert seine Anwendung für Linux als Appimage. Damit ist es einfach zu „installieren“ und ebenso einfach wieder zu löschen, falls Sie keine Verwendung mehr dafür haben. Zudem führt es die Nutzer auch leicht zur ersten Anwendung. Einmal gestartet, begrüßt Sie LM Studio mit einem „Get your first LLM“. Angeboten wird dann ein einfaches Modell (Llama 3.2 3B), das dank der geringen Dateigröße schnell auf einsatzbereit ist. Alle Modelle können Sie mittels weniger Mausklicks installieren, nachdem Sie sich mit einem Klick auf die Lupe für ein Angebot entschieden haben. Zu jedem Eintrag blendet LM Studio auch die zu übertragende Datenmenge ein.

Empfehlungen für generative KI
Welche Modelle sollten Sie nun konkret nutzen, nachdem Sie ein Framework installiert haben? Das Angebot scheint kaum zu überschauen. Gute Erfahrungen haben wir mit den nachfolgenden Modellen gemacht. Beachten Sie, dass die Zahlen und Buchstaben in den Modellnamen direkten Einfluss auf die Leistungsfähigkeit haben. Je höher die Zahlen, desto mehr Parameter versteht das Modell – und die Qualität der Antworten steigt. Damit verbunden ist aber zugleich ein wachsender Anspruch an die Hardware. Zwar kann das Framework dafür sorgen, dass ein Modell allein mit der CPU läuft, aber erwartungsgemäß gibt es einen Unterschied zwischen „läuft“ und „macht Spaß“ (mit GPU).
Llama 2/3 ist die Open-Source-Alternative von Meta zu Chat GPT, die in verschiedenen Größen verfügbar ist. Mistral AI stammt von einem französischen Start-up und liefert brauchbare Ergebnisse. Phi-2 wurde von Microsoft trainiert und ist sehr kompakt, schlägt sich aber im Vergleich zu deutlich größeren LLMs erstaunlich gut. Falls die Hardware nicht mehr taufrisch ist, bietet sich der Einsatz von TinyLlama an. Auch dies ist ein schlankes Modell, das auch auf schwächerer Hardware responsiv arbeitet. Ein Beitrag über populäre KI-Modelle wäre nicht vollständig ohne OpenVoiceOS
(https://openvoiceos.github.io/ovos-technical-manual/). Dabei handelt es sich um eine Plattform, die Tools, Frameworks und Schnittstellen zur Integration von Sprachbefehlen in Anwendungen bietet.
Mit Fehlern der KI müssen Sie bei allen LLMs rechnen. Gerade bei der Erklärung von Konzepten und Vorgängen ist Vorsicht geboten. Auch einfache Aufgaben, wie die schrittweise Erklärung schriftlicher Multiplikation oder Division, können erstaunlich unsinnige Antworten liefern. Eine Prüfung mittels einer weiteren Quelle ist zumindest bei allen Prompts, bei denen es um Wissen geht, dringend zu empfehlen.
Mittels der hier vorgestellten Frameworks ist es aber ohne Umstände möglich, LLMs schnell unter Linux einzusetzen. Zudem erleichtern die Tools den Wechsel zwischen den verschiedenen Modellen, die alle unterschiedliche Stärken haben. Welche LLM die eigenen Fragen am besten unterstützt, kann letztlich nur durch empirisches Ausprobieren entschieden werden.


