Software | Stephan Lamprecht | 5/2025 | 25. Juli 2025

SpeechNote: Sprache zu Text & umgekehrt

Sprechen geht viel schneller als tippen. Mit SpeechNote können Sie Texte unter Linux in den Computer diktieren. Das Tool nimmt Ihnen aber auch in der anderen Richtung die Arbeit ab. Wir stellen die Software genauer vor.

Eine Notiz in eine Maschine diktieren und binnen Sekunden den fertigen Text weitergeben können – das ist für viele Alltag. Einfach das Smartphone zücken, und los geht’s. Spracheingaben sparen Zeit beim Verfassen von E-Mails oder anderen Texten. Und für Menschen, die Probleme mit der Feinmotorik oder Orthografie haben, sind Spracherkennungsprogramme eine gute Option, um auch an der doch überwiegend schriftlich geführten Kommunikation im Internet teilzuhaben. Das Programm SpeechNote (https://github.com/mkiol/dsnote) leistet genau das. Da man SpeechNote nicht mit dem kommerziellen Speechnotes verwechseln darf, bleiben wir ausnahmsweise bei der (Camel-)Schreibung des Namens, so wie es das Programm wünscht.

Das kann SpeechNote

Eine der Besonderheiten von SpeechNote besteht darin, dass die Software alle Daten ausschließlich lokal verarbeitet. Während die meisten Diktierfunktionen aktueller Computer und Smartphones die Spracherkennung in die Cloud auslagern und damit auch die Inhalte dorthin übertragen, bleiben hier alle Eingaben auf dem Rechner. Dazu verwendet SpeechNote Open-Source-Engines. Die Spracherkennung erfolgt in Echtzeit und kontinuierlich. Sie können während der Eingabe sehen, wie der Computer die Eingaben umwandelt.

SpeechNote beherrscht aber nicht nur „Speech to Text“ (STT), sondern auch den umgekehrten Weg. Sie können also einen Text verwenden, um diesen automatisiert in Sprachausgabe zu verwandeln. Dafür stehen verschiedene Ausgabestimmen zur Wahl. Das ist aber nicht alles. Integriert ist auch eine Übersetzungsfunktion, die das Material in 85 Sprachen konvertieren kann. Entsprechend vielseitig sind die Einsatzmöglichkeiten von SpeechNote. Sie können damit Notizen und längere Texte diktieren, um diese anschließend in einer anderen Anwendung zu verwenden. Wer vor der Aufgabe steht, einen Vortrag oder Gespräch zu transkribieren, füttert die Software mit der Aufnahme und verfügt am Ende über einen Text, den er weiterverwenden kann.

Sie haben eine Anleitung oder einen Vortrag auf Video aufgenommen? Dann lassen Sie SpeechNote die Untertitel dazu erstellen und übersetzen. Am Ende laden Sie die finalen Untertitel in den von den Plattformen gewünschten Formaten hoch. Oder Sie gehen den umgekehrten Weg und lassen sich Texte vorlesen. Die GUI von SpeechNote basiert auf dem QT-Framework, das auch von der KDE-Arbeitsfläche verwendet wird.

So sollte Ihr System ausgestattet sein

Kommerzielle Anbieter verlagern die Spracherkennung nicht grundlos in die Cloud. Nur so dürfen sie davon ausgehen, dass das Programm zuverlässig arbeitet, weil das verwendete Eingabegerät keine besonderen Hardwarevoraussetzungen erfüllen muss. Bei einer lokalen KI-Engine ist dies erwartungsgemäß anders. Damit Sie nach der Eingabe nicht zu lange auf das Ergebnis warten müssen respektive überhaupt mit SpeechNote arbeiten können, sollte die Hardware immer mindestens 3 GB freien Arbeitsspeicher anbieten. Für größere Sprachmodelle ist auch gerne das Doppelte erwünscht. Im Hinblick auf die Audioausstattung ist SpeechNote weniger heikel. Alsa, Pulseaudio oder Pipewire werden gleichermaßen unterstützt. Besonders zügig arbeitet die Software, sofern der Rechner eine GPU von AMD oder Nvidia besitzt. Die Unterstützung der Chips müssen Sie aber zusätzlich installieren.

Es versteht sich eigentlich von selbst: Für das Diktieren benötigt der Computer ein eingebautes Mikrofon. Ist dies nicht der Fall, müssen Sie ein externes Mikrofon als Eingabequelle anschließen und konfigurieren. Grundsätzlich ist die Verarbeitung der Spracheingabe besser, wenn es möglichst wenig Störgeräusche gibt. Falls Sie SpeechNote intensiv nutzen wollen, ist die Anschaffung eines Headsets empfehlenswert.

Installation von SpeechNote

Die Installation ist am einfachsten mittels Flatpak-Container. Flatpak muss also bereits auf Ihrem Computer eingerichtet sein. Unter Linux Mint und einigen weiteren Distributionen ist das Standard, unter Ubuntu holen Sie das mit

sudo apt install flatpak

nach. Auf der Projektseite finden Sie das für die Installation benötigte Kommando:

flatpak install flathub net.mkiol.SpeechNote

Aufgrund eines temporären Problems mit dem Repository ließ sich die Software (im Juni 2025) auf diesem Weg nicht installieren. Unter github.com/mkiol/dsnote/relea
ses stehen aber eine Binärdatei im DEB-Format sowie ein alternatives Flatpak zur Verfügung. Über den Paketmanager lief die Installation dann problemlos durch. Bei einem weiteren Test auf einem anderen Rechner zu einem anderen Zeitpunkt war dann auch wieder das Flatpak-Kommando erfolgreich.

Sofern Sie über eine der beiden erwähnten GPUs verfügen, installieren Sie zusätzlich deren Unterstützung. Das erledigen Sie wahlweise mit:

flatpak install flathub net.mkiol.SpeechNote.Addon.nvidia

flatpak install flathub net.mkiol.SpeechNote.Addon.amd

Im Anschluss können Sie das Programm starten.

Für die lokale Erkennung muss ein KI-Sprachmodell heruntergeladen werden. Für erste Experimente sind kleinere Modelle zu empfehlen.

Erste Schritte und Notizeingabe

Nach dem Start zeigt SpeechNote eine minimalistische Oberfläche. Der Willkommen-Bildschirm weist Sie darauf hin, dass Sie der Software zunächst die bevorzugte Sprache mitteilen müssen. Folgen Sie dem Hinweis, klicken Sie also auf den „Languages“-Schalter und wählen dort „Deutsch/de“ aus. Damit legen Sie fest, welche Sprachmodelle Sie überhaupt einsetzen können. Bevor Sie einen ersten Text diktieren, müssen Sie ein solches Sprachmodell auswählen. Dies erledigen Sie über das Listenfeld unterhalb des Editors.

Für erste Experimente empfehlen wir in der Liste der angebotenen Module ein Modell, das den Zusatz „tiny“ enthält. Der Name deutet an, dass die Fähigkeiten im Vergleich geringer ausfallen als bei großen Modellen. Aber kleinere Modelle werden schneller übertragen, fordern weniger RAM und genügen durchaus, um die Tauglichkeit der Software zu testen. Da Sprachmodelle viel Platz auf der Festplatte beanspruchen, können Sie Modelle später gezielt wieder löschen. Die Dateien liegen im versteckten Ordner „/var/app/net.mkiol.SpeechNote/cache/net.mkiol/dsnote/speech-models“.

Ist das Modell erfolgreich heruntergeladen, klicken Sie auf den Schalter „Listen“ und beginnen mit dem Diktat. Sprechen Sie deutlich und machen Sie kurze Sprechpausen am Ende jedes Satzes. Das trägt zur besseren Erkennung bei. Das Ergebnis verfolgen Sie unmittelbar im Programmfenster.

Zu den Sprachmodellen gibt es zusätzliche Profile. Das Umstellen auf höhere Qualität verbessert das Ergebnis.

Notizen nutzen oder Texte übersetzen

Um Ihre Sprachnotiz in anderen Anwendungen zu verwenden, klicken Sie direkt im Programmfenster auf das bekannte Symbol der Zwischenablage. Damit steht der Text dann auch in Libre Office oder anderen Editoren zur Verfügung. Alternativ verwenden Sie die Exportfunktion. Über „File –› Export to a file“ öffnen Sie den dazugehörenden Dialog. Vergeben Sie den gewünschten Dateinamen, und legen Sie das Zielverzeichnis fest. Für eine reine Textnotiz steht das einfache TXT-Format zur Verfügung.

Wie schon erwähnt, kann SpeechNote Ihre Notiz auch gleich übersetzen. Dazu wechseln Sie in das Register „Translator“. Beim ersten Mal müssen Sie, analog der Sprach‑
erkennung, zunächst die Ausgangssprache definieren. Dazu klicken Sie auf „Languages“ und markieren im nachfolgenden Dialog die gewünschte Option. Im nachfolgenden Dialog ist „Translator“ ebenfalls die richtige Wahl. Mittels „Download“ laden Sie die erforderliche KI-Engine herunter. Erst dann steht die Übersetzungsmöglichkeit zur Verfügung. Die Übersetzungsfunktion arbeitet unabhängig von der Diktierfunktion. Sie können also direkt im linken Teil des Fensters Text eingeben und dann mit den Pfeiltasten übersetzen lassen. Auch das läuft auf Wunsch in Echtzeit ab, wenn Sie den Schalter „Translate as you type“ aktivieren.

Beim Sprachmodell „Angela“ für die Sprachsynthese werden Ihre Ohren auf eine bekannte Stimme treffen.

Wenn die Erkennungsrate nicht überzeugt

Für mangelhafte Erkennung können mehrere Faktoren verantwortlich sein. Dies beginnt mit dem Eingabegerät: Ein externes Mikro schlägt in der Regel eingebaute Notebookmikros. In der Audioeinstellung des Desktops sollten Sie zudem kontrollieren, ob Sie die Empfindlichkeit verändern können. Beim von uns genutzten Gnome finden sich die Optionen unter „Einstellungen –› Klang“.

Die Paradoxie steckt im Detail. Zu große Empfindlichkeit kann ebenso zu schlechten Ergebnissen führen wie ein zu gering eingestellter Wert. Experimentieren Sie daher mit unterschiedlichen Einstellungen. Mit einem Klick auf das Menüicon erreichen Sie zudem in SpeechNote die Einstellungen („Settings“). Im Register „Speech to Text“ finden Sie im unteren Teil zu jeder installierten Engine einen Profileintrag. Voreingestellt ist dort „Best Performance“. Ändern Sie dies stets auf „Best quality“, um die Erkennung zu optimieren. Führt auch das nicht zum gewünschten Erfolg, probieren Sie ein anderes, größeres Sprachmodell aus. Bleiben Sie aber realistisch. Die Entwickler hinter dem Modell von Whisper geben selbst Werte zwischen 85 und 95 Prozent an.

Untertitel erzeugen und Texte transkribieren

Möchten Sie Text aus einer Audio- oder Videodatei transkribieren, führt der Weg über „File –› Import from a file“. Das Programm unterstützt eine Reihe populärer Formate wie MOV, MP4, MPG, MP3, AAC, FLAC und WAV. Sobald Sie die Datei in das Programm importiert haben, beginnt die Spracherkennung. Im Anschluss können Sie direkt im Editor Korrekturen vornehmen, um den Text am Ende über die bereits vorgestellte Exportfunktion in das Zielformat zu überführen.

Sprachausgabe von Notizen

Der dritte Funktionsbereich von SpeechNote ist für alle gedacht, die eine synthetische Sprachausgabe eines Textes wünschen. Das kann ein selbst verfasster Text sein oder ein Stück aus einer anderen Quelle, das über die Zwischenablage in den Editor kopiert wurde. Den Schritt vor der ersten Nutzung kennen Sie bereits: Sie nutzen das Kommando „Languages“. Dort wählen Sie „deutsch“, um auf die nachfolgende Seite zu gelangen. Im Register „Text to Speech“ müssen Sie sich dann zwischen den angebotenen Modellen entscheiden. Zur Wahl stehen weibliche und männliche Stimmen. Zudem unterscheiden sich die Modelle durch den Grad der Emotionen. Bei kleinen und einfachen Modellen wird der Text in der Regel zwar korrekt wiedergegeben, hört sich aber nach einer maschinellen Ausgabe an. Größere Modelle mit Emotionen modulieren die Ausgabe natürlicher.

Einmal installiert, erfolgt die Ausgabe mittels „Read“. Über das Listenfeld am unteren Rand können Sie die Ausgabegeschwindigkeit verändern. Zudem lässt sich das Ergebnis auch in Form einer Audiodatei exportieren. Sie wählen dann zwischen MP3, WAV, OGG oder Opus. Die Audioausgabe lässt sich gleichfalls exportieren.

SpeechNote hat Zugriff auf eine ganze Reihe von Sprachmodellen.

Dazu gehört bei Speech-to-Text auch die Whisper-Familie von Open AI. Das Modell „Tiny“ bietet Basisfunktionalität und unterstützt 32 Sprachen. „Base“ ist ein guter Kompromiss zwischen Erkennung und Leistung. Höhere Genauigkeiten bieten die Modelle „Small“, „Medium“ und „Large“. Damit steigt aber auch die Menge der zu übertragenen Daten und die Anforderung an den Arbeitsspeicher. Die Vosk-Modelle sind ebenfalls in unterschiedlichen Ausprägungen integriert – von der kleinsten Variante mit gerade einmal 50 MB bis zum großen Modell, das über 1,8 GB umfasst. Einen vollständigen Überblick erhalten Sie auf der Projektseite. Dort ist auch eine Tabelle integriert, die Sie darüber informiert, welche Sprachen das jeweilige Modell unterstützt.