Commander Flow: un anno di evoluzione della dettatura vocale

Commander Flow — un anno di evoluzione della dettatura vocale: scrivania da sviluppatore con notebook e microfono

A giugno 2025 mi diedero una build che crashava ogni 40 minuti e riconosceva il mio «ciao» come «ci — a — o». Ero felicissimo. Capivo di toccare con mano il prototipo di una cosa che su Windows non esisteva — un voice-input completamente offline con una rifinitura umana. Oggi è aprile 2026 e lo stesso portatile fa girare Commander Flow in background per giorni interi.

Non è la storia del prodotto. È la storia di come sono cambiate le mie abitudini man mano che cambiava il prodotto.

Estate 2025: imparare a sopportare Whisper-tiny

La prima build usava ggml-tiny (75 MB). Il riconoscimento era passabile in inglese pulito, mediocre in italiano e disastroso nel parlato misto. Dettavo «deploy in staging» e ricevevo «deploy in stadiando». La rifinitura allora non c'era affatto: solo ASR grezzo.

Cosa facevo? Ricostruivo il flusso di lavoro intorno ai limiti dello strumento. Frasi brevi. Niente slang. Era scomodo, ma comunque più veloce della scrittura — e mi ero già appassionato.

«Quando costruisci il tuo strumento, ti innamori dell'idea prima che il codice la rifletta onestamente.»

Autunno 2025: arriva la rifinitura e smetto di vergognarmi dei riempitivi

Aggiunsi una LLM locale. Fu il punto di svolta. Potevo dire «cioè in pratica secondo me dovremmo ehm rifare quel modulo lì», e nel campo di testo compariva «Penso che dovremmo rifare quel modulo».

È esattamente in quel momento che ho smesso di prepararmi il discorso. Prima formattavo internamente la frase prima di premere la scorciatoia. Adesso il pensiero esce come pensiero, lo strumento si occupa di togliere la pula.

Inverno 2025/2026: Parakeet, e ho capito cosa significa «veloce»

LATENZA ASR · CPU Whisper-large (prima) ~900 ms Parakeet TDT v3 (dopo) ~140 ms 5–10× più veloce sulla stessa CPU · sherpa-onnx C# bindings «140 ms — meno di quanto io riesca a percepire una pausa»
Gennaio 2026: passaggio a Parakeet via sherpa-onnx — il salto più percepibile dell'anno.

A gennaio l'ASR predefinito è diventato Parakeet-TDT-0.6B-v3 tramite sherpa-onnx. Sulla mia CPU senza GPU è 5–10 volte più veloce di Whisper-large. La latenza dal rilascio della scorciatoia alla comparsa del testo è scesa da ~900 ms a ~140 ms.

140 millisecondi sono meno di quanto io riesca a percepire una pausa. Il confine tra «premi la scorciatoia» e «il testo compare» nella percezione svanisce. Da quel momento la dettatura ha smesso di sembrare un «comando allo strumento»: è semplicemente la prosecuzione del pensiero.

Primavera 2026: l'ultima IA di Google e le modalità di rifinitura

MODALITÀ DI RIFINITURA friendly business code-comments prompt-engineering accountant minimal-edit IA di Google · balanced Sei modalità cambio con scorciatoia o dalla tray MATTINA email ai clienti · business GIORNO Slack del team · friendly SERA chat dei genitori · minimal-edit
Menu della tray: la modalità si cambia al volo, ma il più delle volte mi limito a dire il tono che voglio come comando vocale al momento della rifinitura.

Oggi lo standard attuale è l'ultimo modello di IA di Google. E soprattutto — le modalità di rifinitura. Scelgo lo stile dalla tray o con una scorciatoia: business / friendly / minimal-edit / accountant / academic / code-comments.

Il mio tipico lunedì:

  • Email ai clienti la mattina — business
  • Slack del team — friendly
  • Commenti nel codice — code-comments (mantiene i termini in latino, non «si infila» nei nomi delle variabili)
  • La sera, risposta in chat dei genitori — minimal-edit (ripulisce solo i riempitivi, non «pettina» l'intonazione)

Retrospettiva: cosa è cambiato in me

Elencarlo a punti renderebbe tutto noioso. Lo dico così. In un anno con Commander Flow sono cambiate tre cose nel mio rapporto col testo, e nessuna l'avevo pianificata.

La prima: i pensieri nelle mie email sono diventati più lunghi. Scrivere a tastiera taglia la frase a quanto riesci a battere fisicamente. La voce non ha fretta. I tester hanno notato che i miei report sono diventati più strutturati prima che me ne accorgessi io.

La seconda: le email in inglese hanno smesso di rendermi nervoso. Detto in italiano, chiedo di riscrivere in business English, ottengo un testo non distinguibile da un madrelingua. Non è più una tensione a parte, è semplicemente il passo successivo della stessa dettatura.

E la terza, la più strana: a fine giornata le mani si stancano meno. Non avevo mai considerato lo scrivere come lavoro fisico, finché non ho smesso di farlo.

Le ruvidità che colgo

Lista onesta di ciò che mi infastidisce regolarmente:

La rifinitura a volte «migliora» termini che non vanno migliorati. Dico «kubectl apply», ricevo «Kubernetes apply». Risolto col dizionario nelle impostazioni (PolishOptions.Dictionary) — aggiungi i tuoi termini e la LLM li lascia stare. Ma per le prime settimane non lo sapevo e mi stupivo.

Riscaldamento del modello a freddo. La prima dettatura dopo l'avvio di Windows è sensibilmente più lenta delle successive. Ho aggiunto AudioDeviceWarmup (risparmia 40–80 ms), ma la KV-cache della LLM va comunque scaldata. Si risolve dicendo nel microfono qualunque frase subito dopo l'avvio del sistema — come riscaldamento.

A volte vorrei un hot-swap di modalità all'interno della stessa frase. Esempio: «inizio formale, poi un P.S. divertente». Per ora non c'è — ma la direzione mi piace e la tengo a mente.

Cosa direi a me stesso un anno fa

«Abbi pazienza. Ciò che ora sembra un giocattolo, in 10 mesi diventerà la tua app più usata dopo il browser. Tieni un diario. Sarà la storia di come la private AI sul tuo dispositivo diventa la nuova normalità.»

L'alpha è finita. La beta è quasi finita. Non spedisco più un prototipo — sono responsabile di un prodotto usato ogni giorno.

E ne sono molto orgoglioso.

Provalo tu stesso

Scarica Commander Flow e tieni premuto Caps Lock in qualsiasi app. Il riconoscimento è locale, senza cloud — prova gratuita inclusa.

Scarica gratis

Storie correlate

Tutti gli articoli