Commander Flow: ett år av röststyrningens utveckling

Commander Flow — ett år av röststyrningens utveckling: utvecklarens skrivbord med laptop och mikrofon

I juni 2025 fick jag en build som kraschade var 40:e minut och som tolkade mitt ”hej” som ”he – e – j”. Jag var lycklig. Jag förstod att jag höll i prototypen för något som inte fanns på Windows – fullt offline voice-input med mänsklig putsning. I dag är det april 2026, och samma laptop drar Commander Flow i bakgrunden dygnet runt.

Det här är inte en produkthistoria. Det är historien om hur mina vanor har förändrats i takt med att produkten har förändrats.

Sommaren 2025: jag lärde mig stå ut med Whisper-tiny

Den första builden använde ggml-tiny (75 MB). Igenkänningen var hyfsad på ren engelska, medioker på ryska och katastrofal på blandat språk. Jag dikterade ”deploya till staging” och fick ”deploya till stejdjing”. Putsning fanns inte alls då – bara råa ASR-resultat.

Vad gjorde jag? Jag byggde om mitt arbetsflöde efter verktygets svagheter. Pratade i korta fraser. Undvek slang. Det var obekvämt, men ändå snabbare än att skriva – och jag var redan fast.

”När du bygger ditt eget verktyg blir du kär i idén innan koden ärligt återger den.”

Hösten 2025: putsning kom och jag slutade skämmas för utfyllnadsord

Jag la till en lokal LLM. Det var en vändpunkt. Jag kunde säga ”ja alltså jag tycker liksom att vi typ borde göra om den här modulen”, och i textfältet stod det ”Jag tycker att vi borde göra om den här modulen”.

Det var i den stunden jag slutade förbereda mitt tal. Innan dess hade jag inombords format meningen innan jag tryckte på snabbkommandot. Nu kommer tanken ut som tanke, verktyget skalar bort skräpet självt.

Vintern 2025/2026: Parakeet och jag förstod vad ”snabbt” betyder

ASR-LATENS · CPU Whisper-large (före) ~900 ms Parakeet TDT v3 (efter) ~140 ms 5–10× snabbare på samma CPU · sherpa-onnx C#-bindningar ”140 ms är kortare än jag hinner uppfatta som paus”
Januari 2026: bytet till Parakeet via sherpa-onnx – årets mest påtagliga steg.

I januari blev Parakeet-TDT-0.6B-v3 via sherpa-onnx standard-ASR. På min CPU utan grafikkort är den 5–10 gånger snabbare än Whisper-large. Latensen från att jag släpper snabbkommandot till att texten dyker upp sjönk från ~900 ms till ~140 ms.

140 millisekunder är kortare än jag hinner uppfatta som paus. Gränsen mellan ”trycker på snabbkommandot” och ”texten dyker upp” suddas ut i upplevelsen. Från och med då slutade dikteringen kännas som ett ”kommando till verktyget”; det är bara en förlängning av tanken.

Våren 2026: den senaste Google AI och putsningslägena

PUTSNINGSLÄGE friendly business code-comments prompt-engineering accountant minimal-edit Google AI · balanced Sex lägen byts med snabbkommando eller från aktivitetsfältet MORGON kundmejl · business DAG Slack med teamet · friendly KVÄLL föräldrachatten · minimal-edit
Aktivitetsfältets meny: läget byts i farten – men oftast säger jag bara önskad ton som ett röstkommando när jag putsar.

I dag är standarden den senaste Google AI-modellen. Och det viktigaste – putsningslägen. Jag väljer stil från aktivitetsfältet eller med snabbkommando: business / friendly / minimal-edit / accountant / academic / code-comments.

En typisk måndag för mig:

  • På morgonen kundmejl – business
  • I Slack med teamet – friendly
  • Kommentarer i kod – code-comments (behåller termer på engelska, rör inte variabelnamn)
  • På kvällen svar i föräldrachatten – minimal-edit (rensar bara utfyllnad, ”kammar” inte tonen)

Tillbakablick: vad har förändrats hos mig själv

Att radda upp det punktvis blir tråkigt. Så jag säger så här. Under ett år med Commander Flow har tre saker förändrats i mitt sätt att hantera text, och ingen av dem hade jag planerat på förhand.

Först – tankarna i mina mejl har blivit längre. Skrivandet kortar ner meningen till det jag fysiskt hinner trycka in. Rösten stressar inte. Testarna märkte att mina rapporter blivit mer strukturerade innan jag själv märkte det.

För det andra – engelska mejl gör mig inte längre nervös. Jag dikterar på mitt modersmål, ber om omskrivning till business English och får en text som inte går att skilja från en modersmålstalares. Det är inte längre ett separat moment, bara nästa steg i samma diktering.

Och det tredje, mest oväntade: händerna är mindre trötta i slutet av dagen. Jag hade aldrig betraktat skrivande som fysiskt arbete förrän jag slutade med det.

Skavanker jag fortfarande lägger märke till

En ärlig lista över sådant som irriterar mig regelbundet:

Putsningen ”förbättrar” ibland termer som inte ska förbättras. Jag säger ”kubectl apply”, får ”Kubernetes apply”. Löst med en ordlista i inställningarna (PolishOptions.Dictionary) – du lägger in dina egna termer och LLM:en låter dem vara. De första veckorna visste jag inte om detta och blev förvånad.

Modellens uppvärmning vid kallstart. Den första dikteringen efter en Windows-omstart är märkbart långsammare än de följande. Jag lade till AudioDeviceWarmup (sparar 40–80 ms), men LLM-modellens KV-cache måste fortfarande värmas upp. Lösningen är att jag säger en valfri fras i mikrofonen direkt efter systemstart – som en uppvärmning.

Ibland önskar jag hot-swap mellan lägen mitt i en mening. Till exempel: ”affärsmässig inledning, sedan ett roligt P.S.”. Det går inte än – men riktningen tilltalar mig, och jag har den i bakhuvudet.

Vad jag skulle säga till mig själv för ett år sedan

”Ha tålamod. Det som i dag ser ut som en leksak blir om tio månader din mest använda app efter webbläsaren. För dagbok. Det här blir berättelsen om hur privat AI på en specifik enhet blir den nya normen.”

Alfan är över. Betan är nästan över. Jag levererar inte längre en prototyp — jag är ansvarig för en produkt som används dagligen.

Och det är jag väldigt stolt över.

Prova själv

Ladda ner Commander Flow och håll inne Caps Lock i valfri app. Igenkänningen körs lokalt, utan moln — gratis provperiod ingår.

Ladda ner gratis

Relaterade berättelser

Alla artiklar