Commander Flow: rok ewolucji wprowadzania głosem

Commander Flow — rok ewolucji wprowadzania głosem: biurko programisty z laptopem i mikrofonem

W czerwcu 2025 dostałem build, który padał co 40 minut i rozpoznawał moje „cześć" jako „cze — e — ć". I tak byłem szczęśliwy. Wiedziałem, że buduję na Windows coś, czego tam nie było — w pełni offline'owe voice-input z polerowaniem na poziomie człowieka. Dziś jest kwiecień 2026 i ten sam laptop ciągnie Commander Flow w tle przez całe doby.

To nie jest historia produktu pisana z zewnątrz. To widok od środka: jak zmieniał się produkt i jak równolegle zmieniały się moje własne nawyki pracy z tekstem.

Lato 2025: życie z Whisperem-tiny

Pierwszy build używał ggml-tiny (75 MB). Rozpoznawanie było znośne na czystym angielskim, średnie na innych językach i katastrofalne na mieszance. „Deploy na staging" wychodził blisko, ale rzadko dokładnie. Polerowania jeszcze nie było — tylko surowy ASR.

Przebudowałem własny workflow pod słabości tego, co sam pisałem. Krótkie zdania, bez slangu. Niewygodnie, ale i tak szybciej niż klepanie z klawiatury — a ja już wiedziałem, że nie wrócę.

„Gdy budujesz własne narzędzie, zakochujesz się w idei, zanim kod zacznie ją uczciwie oddawać."

Jesień 2025: pojawiło się polerowanie i produkt przestał się dławić wypełniaczami

Dodałem lokalny LLM. To był punkt zwrotny. Można było powiedzieć „no więc ogólnie myślę że musimy yyy przerobić ten moduł", a w polu tekstowym pojawiało się „Myślę, że musimy przerobić ten moduł".

Właśnie w tym momencie sam przestałem przygotowywać sobie wypowiedź. Wcześniej formatowałem zdanie w głowie, zanim wcisnąłem skrót. Teraz — myśl wychodzi jako myśl, narzędzie samo oddziela plewy. I obserwując siebie, wiedziałem, że tę różnicę poczuje każdy, kto będzie tego używać na poważnie.

Zima 2025/2026: Parakeet i zrozumiałem, co znaczy „szybko"

LATENCJA ASR · CPU Whisper-large (przed) ~900 ms Parakeet TDT v3 (po) ~140 ms 5–10× szybciej na tym samym CPU · sherpa-onnx C# bindings „140 ms — to mniej, niż zdążę dostrzec pauzę”
Styczeń 2026: przejście na Parakeet przez sherpa-onnx — najbardziej odczuwalna zmiana w ciągu roku.

W styczniu domyślnym ASR został Parakeet-TDT-0.6B-v3 przez sherpa-onnx. Na moim CPU bez karty graficznej jest 5–10 razy szybszy od Whisper-large. Latencja od zwolnienia skrótu do pojawienia się tekstu spadła z ~900 ms do ~140 ms.

140 milisekund — to mniej, niż zdążę dostrzec pauzę. Granica między „naciskasz skrót” a „tekst się pojawia” w odbiorze się zaciera. Od tego momentu dyktowanie przestało być odczuwane jako „polecenie dla narzędzia”; to po prostu kontynuacja myśli.

Wiosna 2026: najnowsza AI od Google i tryby polerowania

TRYB POLEROWANIA friendly business code-comments prompt-engineering accountant minimal-edit AI od Google · balanced Sześć trybów przełączane skrótem albo z zasobnika RANO listy do klientów · business DZIEŃ Slack zespołowy · friendly WIECZÓR czat rodzicielski · minimal-edit
Menu zasobnika: tryb przełącza się w locie — ale najczęściej po prostu mówię potrzebny ton jako komendę głosową w trakcie polerowania.

Obecny standard to najnowszy model AI od Google. I co najważniejsze — tryby polerowania. Wybieram styl z zasobnika albo skrótem: business / friendly / minimal-edit / accountant / academic / code-comments.

Mój typowy poniedziałek:

  • Rano listy do klientów — business
  • Na Slacku do zespołu — friendly
  • Komentarze w kodzie — code-comments (zachowuje terminy w łacińskim alfabecie, nie „pcha się” w nazwy zmiennych)
  • Wieczorem odpowiedź na czat rodzicielski — minimal-edit (po prostu czyści fillery, nie „przyczesuje” intonacji)

Retrospektywa: co zmieniło się we mnie samym

Gdybym miał to wymienić w punktach — wyszłoby nudno. Powiem więc tak. Przez rok pracy z Commander Flow zmieniły się we mnie trzy rzeczy w obchodzeniu się z tekstem, i żadnej z nich wcześniej nie planowałem.

Po pierwsze — myśli w moich mailach stały się dłuższe. Pisanie obcina frazę do tego, co zdążysz fizycznie wystukać. Głos nie pogania. Testerzy zauważyli, że moje raporty stały się bardziej ustrukturyzowane, wcześniej niż ja sam.

Po drugie — angielskie maile przestały mnie denerwować. Dyktuję po polsku, proszę o przepisanie w business English, dostaję tekst nie do odróżnienia od native’a. To już nie osobny stres, tylko po prostu kolejny krok tego samego dyktowania.

I po trzecie, najdziwniejsze: dłonie pod koniec dnia mniej się męczą. Nigdy nie uważałem pisania za pracę fizyczną, dopóki nie przestałem się tym zajmować.

Chropowatości, które wyłapuję

Uczciwa lista tego, co regularnie mnie zaczepia:

Polerowanie czasem „ulepsza” terminy, których nie należy ulepszać. Mówię „kubectl apply”, dostaję „Kubernetes apply”. Rozwiązane przez słownik w ustawieniach (PolishOptions.Dictionary) — dodajesz swoje terminy i LLM ich nie rusza. Ale przez pierwsze tygodnie tego nie wiedziałem i się dziwiłem.

Rozgrzewka modelu przy zimnym starcie. Pierwsze dyktowanie po uruchomieniu Windows — zauważalnie wolniejsze od kolejnych. Dodałem AudioDeviceWarmup (oszczędza 40–80 ms), ale KV-cache LLM wciąż trzeba rozgrzać. Lekarstwo to po prostu powiedzieć do mikrofonu jakąkolwiek frazę zaraz po starcie systemu — jak rozgrzewka.

Czasem chciałbym hot-swap trybów wewnątrz jednej frazy. Na przykład: „biznesowy początek, potem zabawne P.S.”. Tego jeszcze nie ma — ale kierunek mi się podoba i trzymam go w głowie.

Co powiedziałbym sobie samemu rok temu

„Bądź cierpliwy. To, co teraz wygląda jak zabawka, za 10 miesięcy stanie się twoją najczęściej używaną aplikacją po przeglądarce. Prowadź dziennik. To będzie historia o tym, jak private AI na konkretnym urządzeniu staje się nową normą.”

Alpha się skończyła. Beta prawie się skończyła. Nie wypuszczam już prototypu — odpowiadam za produkt, którego ludzie używają codziennie.

I jestem z tego bardzo dumny.

Wypróbuj sam

Pobierz Commander Flow i przytrzymaj Caps Lock w dowolnej aplikacji. Rozpoznawanie działa lokalnie, bez chmury — darmowy okres próbny w cenie.

Pobierz za darmo

Podobne historie

Wszystkie artykuły