Commander Flow: rok evoluce hlasového zadávání

Commander Flow — rok evoluce hlasového zadávání: pracovní stůl vývojáře s notebookem a mikrofonem

V červnu 2025 mi dali build, který padal každých čtyřicet minut a moje „ahoj“ rozpoznával jako „a-ho-eh-y“. Byl jsem nadšený. Věděl jsem, že sahám na prototyp něčeho, co na Windows neexistovalo – plně offline voice-input s lidskou polotovkou textu. Dnes je duben 2026 a ten samý notebook táhne Commander Flow na pozadí celé dny.

Tohle není historie produktu. Je to historie toho, jak se měnily mé návyky souběžně s tím, jak se měnil produkt.

Léto 2025: učil jsem se snášet Whisper-tiny

První build používal ggml-tiny (75 MB). Rozpoznávání bylo ucházející na čisté angličtině, průměrné v češtině a katastrofální na míchané řeči. Nadiktoval jsem „nasadit na staging“ a dostal „nasadit na stejdžing“. Polotovka tehdy neexistovala vůbec – byl to syrový ASR.

Co jsem dělal? Přizpůsobil jsem si pracovní postup slabinám nástroje. Mluvil jsem v krátkých větách. Vyhýbal slangu. Nepohodlné, ale stejně rychlejší než psaní – a já už jsem byl závislý.

„Když si stavíš vlastní nástroj, zamiluješ se do myšlenky dřív, než ji kód začne poctivě naplňovat.“

Podzim 2025: přišla polotovka a já se přestal stydět za slovní vatu

Přidal jsem lokální LLM. To byl zlom. Mohl jsem říct „no jakože v zásadě si myslím že bychom měli ehm přepracovat tenhle modul“ a v textovém poli se objevilo „Myslím, že bychom měli přepracovat tento modul.“

Přesně v tu chvíli jsem přestal řeč připravovat dopředu. Do té doby jsem si větu vnitřně formátoval, než jsem stiskl klávesovou zkratku. Teď – myšlenka jde ven jako myšlenka, nástroj sám oddělí slupku.

Zima 2025/2026: Parakeet a já pochopil, co znamená „rychle“

LATENCE ASR · CPU Whisper-large (před) ~900 ms Parakeet TDT v3 (po) ~140 ms 5–10× rychleji na stejném CPU · sherpa-onnx C# bindings „140 ms je míň, než stihnu vnímat pauzu“
Leden 2026: přechod na Parakeet přes sherpa-onnx – nejvýraznější posun za rok.

V lednu se výchozím ASR stal Parakeet-TDT-0.6B-v3 přes sherpa-onnx. Na mém CPU bez grafické karty je 5–10× rychlejší než Whisper-large. Latence od puštění zkratky po objevení textu klesla z ~900 ms na ~140 ms.

140 milisekund je míň, než stihnu vnímat pauzu. Hranice mezi „mačkám zkratku“ a „objevuje se text“ se ve vnímání rozplývá. Od té chvíle diktování přestalo působit jako „příkaz nástroji“; je to prostě pokračování myšlenky.

Jaro 2026: nejnovější AI od Googlu a režimy leštění

REŽIM POLOTOVKY friendly business code-comments prompt-engineering accountant minimal-edit AI od Googlu · balanced Šest režimů přepíná se zkratkou nebo z lišty RÁNO e-maily klientům · business DEN Slack týmu · friendly VEČER rodičovský chat · minimal-edit
Menu v liště: režim přepnete za chodu – bez restartu.

Aktuálním standardem je nejnovější AI od Googlu. A hlavně – režimy leštění. Styl si vybírám z lišty nebo zkratkou: business / friendly / minimal-edit / accountant / academic / code-comments.

Moje typické pondělí:

  • Ráno e-maily klientům – business
  • Slack týmu – friendly
  • Komentáře v kódu – code-comments (zachovává termíny v latince, „nesahá“ na názvy proměnných)
  • Večer odpověď do rodičovského chatu – minimal-edit (jen čistí slovní vatu, „nepřičesává“ intonaci)

Retrospektiva: co se změnilo ve mně samotném

Kdybych to vyjmenoval v bodech, znělo by to nudně. Řeknu to jinak. Za rok práce s Commander Flow se u mě ve vztahu k textu změnily tři věci a žádnou jsem dopředu neplánoval.

Za prvé – myšlenky v mých e-mailech jsou delší. Psaní zkracuje větu na to, co fyzicky stihneš naťukat. Hlas nepospíchá. Testeři si všimli, že mé reporty jsou strukturovanější, dřív než jsem si toho všiml já sám.

Za druhé – anglické e-maily mě přestaly stresovat. Diktuju česky, zažádám si o přepis do business English a dostávám text k nerozeznání od rodilého mluvčího. Už to není zvláštní napětí, ale prostě další krok stejného diktování.

A třetí, nejzvláštnější věc: ruce jsou na konci dne méně unavené. Nikdy jsem nepovažoval psaní za fyzickou práci, dokud jsem ho přestal dělat.

Drsné okraje, které potkávám

Upřímný seznam toho, co mě pravidelně zachytí:

Polotovka občas „vylepší“ termíny, které vylepšovat netřeba. Řeknu „kubectl apply“ a dostanu „Kubernetes apply“. Vyřešeno slovníkem v nastavení (PolishOptions.Dictionary) – přidáš si vlastní termíny a LLM se jich nedotkne. První týdny jsem to ale nevěděl a divil se.

Zahřívání modelu při studeném startu. První diktování po startu Windows je znatelně pomalejší než následující. Přidal jsem AudioDeviceWarmup (uspoří 40–80 ms), ale KV-cache LLM se stejně musí zahřát. Léčím to tím, že hned po startu řeknu do mikrofonu libovolnou větu – jako rozcvičku.

Občas bych chtěl hot-swap režimu uvnitř jedné věty. Třeba: „obchodní začátek a pak vtipné P.S.“ Tohle zatím není – ale směr se mi líbí a držím ho v hlavě.

Co bych řekl sám sobě před rokem

„Vydrž. To, co teď vypadá jako hračka, se za deset měsíců stane tvojí nejpoužívanější aplikací po prohlížeči. Veď si deník. Bude to příběh o tom, jak se private AI na konkrétním zařízení stává novou normou.“

Alfa skončila. Beta téměř skončila. Už nedodávám prototyp — odpovídám za produkt, který lidé denně používají.

A na to jsem hrdý.

Vyzkoušejte to

Stáhněte si Commander Flow a podržte Caps Lock v jakékoli aplikaci. Rozpoznávání běží lokálně, bez cloudu — zkušební verze zdarma v ceně.

Stáhnout zdarma

Související příběhy

Všechny články