Голосовой ввод в Telegram, WhatsApp, Slack, Discord

У меня самого шесть мессенджеров. Telegram (личное и работа), WhatsApp (родственники), Slack (текущий клиент), Discord (две комьюнити-серверы), Signal (безопасные переписки), плюс iMessage через iCloud Web. И вот именно поэтому я и строил Commander Flow таким, каким он получился: я больше не хотел переключаться между мессенджерами руками.
В каждом из них — свои конвенции, своя скорость, свой стиль. Раньше я тратил умственное усилие на это переключение. Сейчас, по своему собственному дизайну, у меня один хоткей и одна привычка — и я знаю, что это переносится на любого, кто пользуется продуктом всерьёз.
Как выглядит мой переписочный день
В Telegram пишет мама — про дачу. Зажимаю клавишу, говорю: «спасибо мам, в субботу приедем, везу шашлык, целую». Голосовая команда: «дружески, как обычно жене». В чате появляется: «Спасибо, мама! В субботу приедем. Везу шашлык. Целую». Никто не делает скидку на то, что я диктовал.
Через несколько минут — Slack, клиент про дедлайн. Та же клавиша, голос: «деловой стиль, коротко». В Slack уходит: «Понял. К среде уложусь. Утром в среду пришлю драфт на ревью.» Никаких «вообще» и «ну». Никакой подгонки.
А ещё через минуту — Discord, ребята из геймдева обсуждают шейдер. Та же клавиша, но я говорю: «оставь как сказал, без правок». В чате появляется: «бро это вообще огонь как ты compute shader так раскрутил». Точно как я выдохнул.
«Три разных тона в трёх чатах подряд — без переключения раскладки, без смены состояния, без отдельных приложений для каждого тона.»
Тест: «угадай, в каком чате я сейчас писал»
Я как-то ради эксперимента попросил жену угадать по моим сообщениям, кому я их писал. Угадала всех. И это была не магия — Commander Flow подстраивает регистр, длину, использование смайлов и формальность под голосовую команду, которую я в этот момент произнёс.
С мамой — короткие предложения, восклицательные знаки, тёплые обороты.
С клиентом — без эмоций, по фактам, чёткие сроки, без «вообще».
С друзьями — слова из живой речи, не «исправляются» в литературные.
Почему это особенно важно для не-носителей
Расскажу про мою русскоязычную тётю, которая иммигрировала в Канаду и работает там в HR. Она пишет на работе по-английски, дома по-русски, с украинскими подругами по-украински. Раньше у неё был облачный переводчик в одной вкладке и облачный редактор стиля в другой постоянно.
Я поставил ей Commander Flow на 60-летие. Она диктует на русском, говорит «деловой английский» — и пишет коллегам как нативный спикер. Меняет команду на «дружески по-украински» — и пишет подругам тёплое сообщение. Без переключения раскладки. Без вкладок. Без «как лучше сказать по-английски это слово».
Она в свои 60 пользуется voice-input лучше, чем многие двадцатилетние. Это для меня важный сигнал как для автора продукта: я строю не «технологию ради технологии», а решение реальной языковой нагрузки — и оно работает на людях, которые далеки от мира IT.
Как это делает «писать в чат» дешёвым
За пару месяцев у меня поменялась бытовая привычка: я стал отвечать всем подряд. Раньше я мог проигнорировать сообщение, потому что «длинный ответ — это долго и лень». Сейчас открываю чат, говорю одну фразу как думаю, получаю аккуратный текст за пару секунд.
В моей записной книжке появилось правило: «если ответ занял бы меньше 5 секунд — отвечай сразу». Раньше это правило было нерабочим, потому что любой ответ занимал минимум 30 секунд. Сейчас работает.
Эффект: я стал гораздо более social. У меня улучшились отношения с мамой, я регулярно отвечаю одноклассникам, которым раньше отписывал «созвонимся когда смогу». Я не ожидал такого побочного эффекта от технологии.
Где у меня бывают трения — и что я с этим делаю как автор
В Discord иногда «съедает» начало голосовой команды. Если открыт Discord и в нём активный voice-channel, иногда конфликт за микрофон. Решается переключением микрофона в настройках Discord на push-to-talk. Один раз настроил — забыл. Этот хак я держу в FAQ — но честнее было бы детектить ситуацию автоматически, и я планирую этим заняться.
WhatsApp Web в браузере иногда не позволяет вставить текст из-за их JS-перехвата. Это не проблема Commander Flow, это проблема WhatsApp. Workaround — переключить стратегию вставки на clipboard-paste для конкретного процесса. В настройках есть allowlist по приложениям; я регулярно пополняю его на основе фидбека.
Если диктовать слишком тихо в шумной комнате и просить «дружески» — модель иногда «домысливает» эмоцию. Говоришь нейтрально, получаешь что-то слишком оптимистичное. Это уже про артикуляцию пользователя, не про инструмент — но я думаю над тем, как это смягчить со стороны полировки.
Чего я сам не ожидал от собственной технологии
Самая большая ценность Commander Flow в чатах — это снятие психологической стоимости общения. Когда написать сообщение почти бесплатно, ты становишься на связи в десятки раз больше. Это меняет твою социальную картину.
Я стал внимательнее к людям. Не потому что я внутренне поменялся, а потому что между намерением «ответить» и реальным сообщением исчезла та пара минут, ради которых я раньше откладывал на потом и забывал. Этот побочный эффект я не закладывал в roadmap — но именно ради такого я продолжаю развивать продукт.
Хорошие инструменты, кажется, именно так и работают.
Попробуй сам
Скачай Commander Flow и зажми Caps Lock в любом приложении. Распознавание идёт локально, без облака — бесплатный пробный период.


