Commander Flow: et år med utviklingen av AI-diktat

Commander Flow — et år med utviklingen av AI-diktat: utviklerens skrivebord med bærbar PC og mikrofon

I juni 2025 fikk jeg et bygg som krasjet hvert 40. minutt og som tolket «hei» som «h — e — i — y». Jeg var lykkelig. Jeg forsto at jeg fikk fingrene i en prototyp på noe som ikke fantes på Windows — fullt offline AI-diktat med menneskelig polering. Nå er det april 2026, og den samme bærbare PC-en kjører Commander Flow i bakgrunnen døgnet rundt.

Dette er ikke historien om et produkt. Dette er historien om hvordan vanene mine endret seg i takt med at produktet endret seg.

Sommeren 2025: jeg lærte å tåle Whisper-tiny

Det første bygget brukte ggml-tiny (75 MB). Gjenkjenningen var grei på rent engelsk, middelmådig på norsk og katastrofal på blandet språk. Jeg dikterte «deploy til staging» og fikk «deploy til stejding». Polering fantes ikke i det hele tatt — bare rå ASR.

Hva gjorde jeg? Jeg bygget om arbeidsflyten min etter verktøyets svakheter. Snakket i korte fraser. Unngikk slang. Det var upraktisk, men likevel raskere enn å skrive — og jeg var allerede hekta.

«Når du bygger ditt eget verktøy, forelsker du deg i ideen før koden ærlig gjenspeiler den.»

Høsten 2025: poleringen kom, og jeg sluttet å skamme meg over fyllord

Jeg la til en lokal LLM. Det var et vendepunkt. Jeg kunne si «altså jeg tenker liksom at vi må eh skrive om denne modulen», og i tekstfeltet sto det «Jeg tenker vi må skrive om denne modulen».

Det var i det øyeblikket jeg sluttet å forberede talen min. Før det formaterte jeg setningen internt før jeg trykket på hurtigtasten. Nå — tanken kommer som en tanke, og verktøyet skiller selv ut skallet.

Vinteren 2025/2026: Parakeet, og jeg forsto hva «raskt» er

ASR-LATENS · CPU Whisper-large (før) ~900 ms Parakeet TDT v3 (etter) ~140 ms 5–10× raskere på samme CPU · sherpa-onnx C#-bindinger «140 ms — det er kortere enn jeg rekker å oppfatte en pause»
Januar 2026: bytte til Parakeet via sherpa-onnx — det mest merkbare hoppet på et helt år.

I januar ble Parakeet-TDT-0.6B-v3 via sherpa-onnx standard ASR. På CPU-en min uten skjermkort er den 5–10 ganger raskere enn Whisper-large. Latensen fra man slipper hurtigtasten til teksten dukker opp falt fra ~900 ms til ~140 ms.

140 millisekunder — det er kortere enn jeg rekker å oppfatte en pause. Grensen mellom «trykke på tasten» og «teksten kommer» viskes ut i opplevelsen. Fra det øyeblikket sluttet diktering å føles som «en kommando til verktøyet»; det er bare en forlengelse av tanken.

Våren 2026: den nyeste Google AI og polerings-modusene

POLERINGSMODUS friendly business code-comments prompt-engineering accountant minimal-edit Google AI · balanced Seks moduser bytter med hurtigtast eller fra systemstatusen MORGEN e-post til kunder · business DAG Slack til teamet · friendly KVELD familiechatten · minimal-edit
Systemstatusmenyen: modusen byttes på sparket — men som regel sier jeg bare ønsket tone som et stemmekommando idet jeg polerer.

Standarden nå er den nyeste AI-en fra Google. Og det viktigste — polerings-modusene. Jeg velger stil fra systemstatusen eller med hurtigtast: business / friendly / minimal-edit / accountant / academic / code-comments.

En typisk mandag for meg:

  • Om morgenen, e-post til kunder — business
  • I Slack til teamet — friendly
  • Kommentarer i kode — code-comments (beholder termer på latinsk, «roter» ikke i variabelnavn)
  • Om kvelden, svar til familiechatten — minimal-edit (renser bare fyllord, «pynter» ikke på tonen)

Retrospektiv: hva som har endret seg i meg selv

Hvis jeg lister det opp som punkter blir det kjedelig. Så jeg sier det slik. På et år med Commander Flow er det tre ting som har endret seg i hvordan jeg forholder meg til tekst, og ingen av dem hadde jeg planlagt.

Det første — tankene i e-postene mine har blitt lengre. Skriving kutter setningen ned til det du fysisk rekker å taste. Stemmen haster ikke. Testerne la merke til at rapportene mine var blitt mer strukturerte, før jeg gjorde det selv.

Det andre — engelske e-poster gjør meg ikke nervøs lenger. Jeg dikterer på norsk, ber om omskriving til business English, får tekst som ikke er til å skille fra en innfødt. Det er ikke en egen anstrengelse lenger, bare neste steg i samme diktering.

Og det tredje, det rareste: hendene er mindre slitne på slutten av dagen. Jeg har aldri sett på skriving som fysisk arbeid før jeg sluttet med det.

Røffheter jeg fanger opp

En ærlig liste over det som irriterer meg jevnlig:

Poleringen «forbedrer» av og til termer som ikke skal forbedres. Jeg sier «kubectl apply», får «Kubernetes apply». Løst via ordboken i innstillingene (PolishOptions.Dictionary) — du legger inn dine egne termer, og LLM lar dem være. Men de første ukene visste jeg ikke det og undret meg.

Modellens oppvarming ved kald start. Første diktering etter Windows-oppstart er merkbart tregere enn de neste. Jeg la til AudioDeviceWarmup (sparer 40–80 ms), men LLM-ens KV-cache må fortsatt varmes opp. Jeg løser det ved å si en hvilken som helst frase i mikrofonen rett etter systemstart — som oppvarming.

Av og til vil jeg hot-swappe modus midt i en frase. For eksempel: «forretningsmessig start, så et morsomt P.S.». Det går ikke ennå — men retningen tiltaler meg, og jeg holder den i bakhodet.

Det jeg ville sagt til meg selv for ett år siden

«Hold ut. Det som nå ser ut som en leke, blir om 10 måneder den mest brukte appen din etter nettleseren. Før dagbok. Dette blir historien om hvordan privat AI på en konkret enhet blir den nye normalen.»

Alfa er over. Beta er nesten over. Jeg leverer ikke lenger en prototype — jeg har ansvaret for et produkt som brukes daglig.

Og det er jeg veldig stolt av.

Prøv selv

Last ned Commander Flow og hold inne Caps Lock i en hvilken som helst app. Gjenkjenningen kjører lokalt, uten sky — gratis prøveperiode inkludert.

Last ned gratis

Lignende historier

Alle artikler