Audio - Video - Foto | KI | Stephan Lamprecht | 6/2024 | 27. September 2024

Lokaler KI-Chat mit Llamafile

Die Oberfläche des Llama-Bots ist sehr schlicht und erfordert keine Einarbeitung. Unterhalb der Optionen zur Feinsteuerung ist der Eingabeprompt.

Chatbots wie ChatGPT als bekanntester Vertreter sind ein absolutes Hype-Thema. Mit Llamafile können Linux-Anwender einen Chatbot ganz ohne Internetcloud nutzen. Wir stellen das Tool in diesem Artikel vor.

Die zahlreichen Berichte über ChatGPT stellen ähnliche KI-Bots etwas in den Schatten. Heutige Nutzer haben inzwischen eine große Auswahl an sogenannten Large Language Models (LLM). Trotz aller Begeisterung über die Fortschritte der Technologie besitzen die typischen Angebote einige Nachteile. Voraussetzung für die Abfrage der in der Regel cloudbasierten Bots ist üblicherweise die Eröffnung eines Benutzerkontos. Dabei bleibt die Anzahl der Abfragen ohne Abschluss eines kostenpflichtigen Premiumzugangs beschränkt. Und wer Antworten bewertet, gibt auch einen Teil seiner Daten preis.

Mit einem Chatbot innerhalb des eigenen Netzwerks bestehen diese Nachteile nicht. Die Einrichtung ist indes meistens Profis vorbehalten. Das Projekt „Llamafile“ will das ändern: Es bietet einen Chatbot, der lokal auf einem Linux-System läuft und einfach einzurichten ist.

Installation und Einrichtung

Hinter dem Projekt steckt die Mozilla-Foundation, die auf einer Github-Seite alles für die Installation bereithält. Grundgedanke von Llamafile ist, ein LLM-Modell in eine ausführbare Umgebung zu verpacken und damit aktiv zur Verbreitung und Nutzung von KI beizutragen. Die Hardwareanforderungen sind bescheiden. Selbst ein Raspberry Pi der neuesten Generation genügt schon. Die meist sonst nötige Nutzung einer Nvidia- oder AMD-GPU ist lediglich optional.

Die „Installation“ ist schnell erledigt. Besuchen Sie die Seite https://github.com/Mozilla- Ocho/llamafile. Dort finden Sie in der „ReadMe“-Sektion den Link auf ein erstes Sprachmodell, dessen Download mit vier GB auch recht zügig verläuft. Die Installation besteht nun lediglich darin, dass Sie in einem Terminal in das Downloadverzeichnis wechseln und dort den Download mittels

chmod +x llava-v1.5-7b-q4.llamafile

ausführbar machen (Dateiname kann variieren). Anschließend starten Sie den Bot im Terminal:

./llava-v1.5-7b-q4.llamafile

Jetzt sollte der auf dem System geltende Standardbrowser automatisch starten und die Seite des Bots anzeigen. Ist das nicht der Fall, starten Sie den Browser und rufen die Adresse http://localhost:8080 auf. Am Ende einer Sitzung schließen Sie den Browser wieder, wechseln in das Terminal zurück und beenden den Bot mit Strg-C.

Stellen Sie Ihre erste Frage

Nach dem Start blicken Sie auf eine einfach strukturierte Oberfläche, in deren oberen Teil Optionen für das Feintuning des verwendeten Sprachmodells untergebracht sind. Im unteren Bereich ist die eigentliche Eingabemaske, um die Anfragen zu stellen. Das beim Download angebotene Sprachmodell (LLaVA) versteht auch die deutsche Sprache. Sie müssen also nicht ins Englische wechseln, dürfen das aber natürlich auch. Wie andere Chatbots können Sie Llamafile wie eine Suchmaschine nutzen und sich etwa Definitionen und Erklärungen abholen. Genauso unterbreitet der Prompt aber auch Vorschläge für Überschriften oder Schritte für einen Arbeitsplan.

Die Erklärung des Bots war in diesem Fall sehr eigenwillig. So geschmeidig Erläuterungen von KI-Bots auch klingen – eine Prüfung ist immer notwendig.

Die Anforderungen an die Hardware sind nicht sonderlich hoch, jedoch wird die Software das System auch bei überschaubaren Aufgaben fast vollständig auslasten. Die Antwortqualität ist je nach Aufgabenstellung sehr unterschiedlich. So war die Antwort auf die Frage nach der Bedeutung von „Mieterstrom“ recht eigenwillig. In deutscher Sprache funktionieren Formulierungsvorschläge oder Ideengenerierung insgesamt relativ gut. In englischer Sprache und bei englischsprachigen Begriffen steigt die Qualität der Antworten aber offensichtlich und deutlich.

Das LLM wechseln

Auf der Projektseite steht eine ganze Reihe weiterer Sprachmodelle zur Verfügung, die bereits durch die schiere Größe der Download-Dateien beeindrucken. Maximale Dateigrößen bedeuten in diesem Fall aber nicht automatisch bessere Arbeitsergebnisse. Das „Mixtral-8x7B-Instruct“ mit seinen über 30 GB scheint gelegentlich konfus und liefert bei Nachfragen zur gleichen Ausgangsfrage dann auch schon mal völlig verschiedene Antworten. Details zu den verschiedenen LLMs stehen im Internet zur Verfügung. Sofern die Rechenleistung des Computers dies hergibt, können Sie auf der gleichen Maschine mehrere Instanzen von Llamafile mit unterschiedlichen Sprachmodellen laufen lassen.

Generell sollten Sie wie auch beim Umgang mit kommerziellen Chatbots wie ChatGPT immer skeptisch in Bezug auf den Wahrheitsgehalt der Antworten sein. Eine Überprüfung mit anderen Quellen oder mit einer klassischen Suchmaschine im Internet ist in diesem frühen Stadium der KI-Entwicklung immer noch angesagt.

Viele Sprachmodelle beantworten deutsche Anfragen. Intern übersetzen aber viele diese Eingabe zurück nach Englisch und die Antwort wieder zurück nach Deutsch.

Die Arbeit mit dem Programm macht Spaß: Für schnelle Begriffsdefinitionen oder als Ideenlieferant eignet sich der lokale Bot durchaus. Allerdings variieren Qualität und Umfang der Antworten doch stark abhängig vom gewünschten Thema. Eine direkte Konkurrenz zu kommerziellen Bots wie ChatGPT ist Llamafile derzeit noch nicht. Dank einer dokumentierten API kann aber das System mitsamt der Modelle sogar in eigene Anwendungen integriert werden. Und während Sie bei Open AI auf ein Modell festgelegt sind, haben Sie hier die Wahl zwischen verschiedenen LLMs und müssen hinsichtlich des Datenschutzes keine Sorgen haben. Ihre Fragen und Eingaben verlassen den Computer nicht.

Auch Bilder werden verstanden

Rein technologisch ist die Verarbeitung von Bildern mit einem lokalen Bot eine tolle Sache. Aber die Analyse von Bildern verlangt dem System einiges ab. Während der Chatbot auf möglichst präzise Sprachanfragen sehr zügig antwortet, benötigen Sie auf einem gut ausgestatteten PC viel Geduld, bis ein Bild verarbeitet ist.

Um ein Foto zu analysieren, verwenden Sie die Funktion „Upload Image“ am unteren Rand des Bildschirms. Nach dem Hochladen der Abbildung dauert es seine Zeit, bis das Foto dann in der großen Maske für die Antworten auftaucht. Erst danach können Sie mit einer Analyse des Inhalts beginnen. Das Sprachmodell ist durchaus in der Lage, vernünftige Antworten auf die Frage „Was siehst du?“ zu geben oder ein Bild nach markanten Objekten zu durchsuchen.

Der Bot kann auch Bilder analysieren. Das beansprucht allerdings ordentlich Rechenzeit und die Erläuterungen bleiben (noch) sehr knapp.

Mit Llamafile liefert die Mozilla-Organisation einen funktionierenden, aber nicht überragenden lokalen KI-Chatbot, der mit beeindruckend geringen Ressourcen auskommt. Entsprechende GPUs vorausgesetzt, kann es sich lohnen, das Programm direkt aus dem Quellcode zu kompilieren und die Nutzung des GPU-Chips einzubetten, was dann für höhere Arbeitsgeschwindigkeiten sorgt. Ein großer Vorteil des Systems besteht in der Nutzung von quelloffenen LLM. Mit der Zeit dürften die Ergebnisse immer besser werden.