Commander Flow: ein Jahr Spracheingabe-Evolution

Commander Flow — ein Jahr Spracheingabe-Evolution: Entwickler-Schreibtisch mit Laptop und Mikrofon

Im Juni 2025 bekam ich einen Build, der alle 40 Minuten abstürzte und mein „Hallo" als „Ha — ä — o" erkannte. Ich war glücklich. Ich verstand, dass ich den Prototyp von etwas in den Händen hatte, das es auf Windows so nicht gab – ein vollständig offline arbeitendes Voice Input mit menschlicher Politur. Heute ist April 2026, und derselbe Laptop trägt Commander Flow rund um die Uhr im Hintergrund.

Das ist keine Produktgeschichte. Es ist die Geschichte, wie sich meine Gewohnheiten verändert haben, während sich das Produkt verändert hat.

Sommer 2025: Ich lernte Whisper-tiny zu ertragen

Der erste Build nutzte ggml-tiny (75 MB). Die Erkennung war auf reinem Englisch passabel, auf Deutsch mittelmäßig und auf gemischter Sprache katastrophal. Ich diktierte „Deploy auf Staging" und bekam „Deploy auf Stähging". Politur gab es damals überhaupt nicht – nur rohes ASR.

Was habe ich getan? Ich habe meinen Workflow an die Schwächen des Werkzeugs angepasst. Kurze Sätze, kein Slang. Es war unbequem, aber immer noch schneller als Tippen – und ich war schon süchtig.

„Wenn du dein eigenes Werkzeug baust, verliebst du dich in die Idee, bevor der Code sie ehrlich abbildet."

Herbst 2025: Es kam die Politur und ich hörte auf, mich für Füllwörter zu schämen

Ich baute eine lokale LLM ein. Das war der Wendepunkt. Ich konnte sagen „also kurz gesagt ich denke wir müssen ähm dieses Modul umbauen", und im Textfeld erschien „Ich denke, wir müssen dieses Modul umbauen".

Genau in dem Moment habe ich aufgehört, meine Rede vorzubereiten. Davor formatierte ich den Satz innerlich, bevor ich den Hotkey drückte. Jetzt – der Gedanke geht raus wie ein Gedanke, das Werkzeug filtert die Spreu selbst.

Winter 2025/2026: Parakeet, und ich verstand, was „schnell" heißt

ASR-LATENZ · CPU Whisper-large (vorher) ~900 ms Parakeet TDT v3 (nachher) ~140 ms 5–10× schneller auf derselben CPU · sherpa-onnx C# Bindings „140 ms – das ist weniger, als ich brauche, um die Pause wahrzunehmen"
Januar 2026: Umstieg auf Parakeet via sherpa-onnx – die spürbarste Verschiebung des Jahres.

Im Januar wurde Parakeet-TDT-0.6B-v3 via sherpa-onnx zum Standard-ASR. Auf meiner CPU ohne Grafikkarte ist er 5–10× schneller als Whisper-large. Die Latenz vom Loslassen des Hotkeys bis zum Erscheinen des Texts fiel von ~900 ms auf ~140 ms.

140 Millisekunden sind weniger, als ich brauche, um die Pause wahrzunehmen. Die Grenze zwischen „Hotkey gedrückt" und „Text erscheint" verschwimmt. Ab diesem Moment fühlt sich Diktieren nicht mehr wie ein „Befehl an ein Werkzeug" an; es ist einfach die Fortsetzung des Gedankens.

Frühjahr 2026: die neueste KI von Google und Politur-Modi

POLITUR-MODUS friendly business code-comments prompt-engineering accountant minimal-edit Google KI · balanced Sechs Modi per Hotkey umschaltbar oder aus dem Tray MORGENS Kunden-Mails · business TAGSÜBER Slack im Team · friendly ABENDS Eltern-Chat · minimal-edit
Tray-Menü: Modus lässt sich live wechseln – meistens spreche ich den gewünschten Ton aber einfach als Sprachbefehl beim Polieren.

Aktueller Standard ist die neueste KI von Google. Und vor allem – Politur-Modi. Ich wähle den Stil aus dem Tray oder per Hotkey: business / friendly / minimal-edit / accountant / academic / code-comments.

Mein typischer Montag:

  • Morgens Kunden-Mails – business
  • Im Team-Slack – friendly
  • Code-Kommentare – code-comments (lateinische Termini bleiben unverändert, „greift" Variablennamen nicht an)
  • Abends Antwort im Eltern-Chat – minimal-edit (entfernt nur Füllwörter, „glättet" die Intonation nicht)

Rückschau: was sich in mir selbst verändert hat

In Stichpunkten würde es langweilig klingen. Daher anders. Im Jahr mit Commander Flow haben sich drei Dinge an meinem Umgang mit Text verändert, und keines davon habe ich vorher geplant.

Erstens – die Gedanken in meinen E-Mails sind länger geworden. Tippen schneidet einen Satz auf das, was man physisch noch tippen mag. Stimme drängt nicht. Tester merkten, dass meine Berichte strukturierter wurden, bevor ich es selbst bemerkte.

Zweitens – englische E-Mails machen mich nicht mehr nervös. Ich diktiere in meiner Muttersprache, lasse in Business English umschreiben, bekomme Texte, die nicht von einem Muttersprachler zu unterscheiden sind. Das ist kein eigener Stress mehr, sondern einfach der nächste Schritt desselben Diktats.

Und drittens, das Seltsamste: meine Hände sind am Tagesende weniger müde. Ich hätte Tippen nie als körperliche Arbeit bezeichnet, bis ich aufgehört habe, es zu tun.

Ecken und Kanten, die mir auffallen

Ehrliche Liste der Dinge, die mich regelmäßig stören:

Die Politur „verbessert" manchmal Begriffe, die nicht verbessert werden müssen. Ich sage „kubectl apply", bekomme „Kubernetes apply". Gelöst über das Wörterbuch in den Einstellungen (PolishOptions.Dictionary) – eigene Begriffe hinzufügen, und die LLM lässt sie in Ruhe. Aber die ersten Wochen wusste ich das nicht und habe mich gewundert.

Aufwärmen des Modells beim Kaltstart. Das erste Diktat nach dem Windows-Boot ist spürbar langsamer als die folgenden. Ich habe AudioDeviceWarmup hinzugefügt (spart 40–80 ms), aber der KV-Cache der LLM muss trotzdem warmlaufen. Ich sage nach dem Systemstart einfach irgendeinen Satz ins Mikrofon – wie Aufwärmen.

Manchmal will man Hot-Swap der Modi innerhalb eines Satzes. Beispiel: „geschäftlicher Anfang, dann witziges P.S.". Das gibt es bisher nicht – aber die Richtung gefällt mir, und ich habe sie im Auge.

Was ich mir selbst vor einem Jahr sagen würde

„Halte durch. Was jetzt wie Spielerei aussieht, wird in 10 Monaten deine meistgenutzte Anwendung nach dem Browser sein. Führe Tagebuch. Es wird die Geschichte davon, wie private AI auf einem konkreten Gerät zur neuen Normalität wird."

Alpha ist vorbei. Beta ist fast vorbei. Ich liefere keinen Prototypen mehr — ich verantworte ein Produkt, das täglich genutzt wird.

Und darauf bin ich sehr stolz.

Selbst ausprobieren

Lade Commander Flow herunter und halte Caps Lock in einer beliebigen App gedrückt. Die Erkennung läuft lokal, ohne Cloud — kostenlose Testphase inklusive.

Kostenlos herunterladen

Ähnliche Geschichten

Alle Artikel