[{"data":1,"prerenderedAt":583},["ShallowReactive",2],{"blog-index-ru":3},[4,205,345],{"id":5,"title":6,"body":7,"category":172,"date":173,"description":174,"draft":175,"extension":176,"faq":177,"image":190,"meta":191,"navigation":192,"path":193,"seo":194,"stem":195,"tags":196,"translationKey":202,"updated":203,"__hash__":204},"blogRu\u002Fblog\u002Fspeech-dock-vs-whisper-cpp.md","Speech Dock или Whisper.cpp: готовое приложение против движка",{"type":8,"value":9,"toc":162},"minimark",[10,14,17,22,25,28,32,39,42,67,70,74,77,101,104,108,131,134,138,141,145,148,151,154],[11,12,13],"p",{},"Если вы искали локальное распознавание речи, то наверняка встречали Whisper.cpp. И, наверное, ловили себя на мысли: «зачем платить за приложение, если есть бесплатный движок?». Вопрос правильный, но в нём прячется подмена. Whisper.cpp и готовое приложение для диктовки живут в разных категориях. Спорить, что из них «лучше», это примерно как спорить, что лучше: двигатель или автомобиль.",[11,15,16],{},"Дальше без выдуманных цифр производительности. Разберём, что есть что, что придётся делать руками и как выбрать под свою задачу.",[18,19,21],"h2",{"id":20},"что-такое-whispercpp-и-для-чего-он","Что такое Whisper.cpp и для чего он",[11,23,24],{},"Whisper.cpp это уважаемый open-source проект, эффективная реализация распознавания речи на C\u002FC++. Работает локально, без облака, и хорошо оптимизирована под обычное «железо». Отличная инженерная работа, и популярна она заслуженно.",[11,26,27],{},"Но это движок. Библиотека плюс инструмент командной строки, которые берут аудио и выдают текст. Одно дело Whisper.cpp делает прекрасно, распознаёт речь. Всё остальное, что превращает распознавание в удобную диктовку, лежит вне его зоны ответственности. И для движка это нормально, так и задумано.",[18,29,31],{"id":30},"движок-это-ещё-не-инструмент-диктовки","Движок это ещё не инструмент диктовки",[11,33,34],{},[35,36],"img",{"alt":37,"src":38},"Движок распознавания против готового приложения для диктовки: что входит в каждый вариант","\u002Fblog\u002Finfographics\u002Fengine-vs-app.ru.png",[11,40,41],{},"Когда вы диктуете в повседневной работе, распознавание это лишь один шаг из многих. Чтобы голос превратился в текст в нужном поле, должно сработать сразу несколько вещей:",[43,44,45,49,52,55,58,61,64],"ul",{},[46,47,48],"li",{},"захват звука с микрофона в реальном времени;",[46,50,51],{},"запуск и остановка записи удобной горячей клавишей из любого приложения;",[46,53,54],{},"собственно распознавание речи (вот здесь и работает движок);",[46,56,57],{},"оформление текста: знаки препинания, читаемый вид;",[46,59,60],{},"вставка результата в активное окно, будь то редактор, мессенджер или браузер;",[46,62,63],{},"история записей, чтобы вернуться к надиктованному;",[46,65,66],{},"управление языковыми данными и обновлениями.",[11,68,69],{},"Движок закрывает один пункт из этого списка. Готовое приложение закрывает их все и связывает в единый процесс, о котором не нужно думать.",[18,71,73],{"id":72},"что-придётся-собирать-самому-на-движке","Что придётся собирать самому на движке",[11,75,76],{},"Собрать диктовку поверх Whisper.cpp реально, и как учебный проект это даже полезно. Но прикиньте объём.",[78,79,80,83,86,95,98],"ol",{},[46,81,82],{},"Захват и потоковая подача аудио. Сам по себе движок микрофон в реальном времени не слушает, это нужно организовать.",[46,84,85],{},"Горячие клавиши и фоновый режим. Чтобы диктовать из любого приложения, нужен глобальный хоткей и сервис, висящий в фоне.",[46,87,88,89,94],{},"Вставка текста. Тут вылезают ",[90,91,93],"a",{"href":92},"\u002Fblog\u002Fgolosovoy-vvod-linux","различия X11 и Wayland в Linux",": автовставка, буфер обмена, определение активного окна. Всё это придётся учесть самому.",[46,96,97],{},"Интерфейс и индикация. Окно настроек, индикатор записи, обратная связь пользователю.",[46,99,100],{},"Управление моделями и сборка под платформу. Скачивание языковых данных, сборка из исходников, поддержка обновлений.",[11,102,103],{},"Ничего невозможного. Но это уже разработка и сопровождение собственного инструмента, а не «поставил и пользуюсь».",[18,105,107],{"id":106},"что-даёт-готовое-приложение","Что даёт готовое приложение",[11,109,110,111,115,116,120,121,125,126,130],{},"Speech Dock берёт всю эту обвязку на себя. Вы ставите приложение для ",[90,112,114],{"href":113},"\u002Finstall\u002Flinux","Linux"," или ",[90,117,119],{"href":118},"\u002Finstall\u002Fmacos","macOS",", назначаете горячую клавишу и диктуете в любое окно. Распознавание идёт ",[90,122,124],{"href":123},"\u002Fblog\u002Foffline-raspoznavanie-rechi","локально, без облака",", так что голос не покидает устройство. Про приватность подробно рассказано на отдельной ",[90,127,129],{"href":128},"\u002Fprivacy","странице",".",[11,132,133],{},"В итоге у вас на руках не движок, который надо «довести», а готовый рабочий процесс: запись, оформление, вставка, история. Из коробки и с поправкой на особенности конкретной системы.",[18,135,137],{"id":136},"чего-мы-здесь-намеренно-не-сравниваем","Чего мы здесь намеренно не сравниваем",[11,139,140],{},"Скажу прямо: статья не утверждает, что один вариант «быстрее» или «точнее» другого. Любое такое сравнение зависит от конкретного железа, языка, настроек и сценария. Без воспроизводимых замеров на вашей машине оно превращается в маркетинговый шум. Я сравниваю не цифры, а категории инструментов и объём работы, который ляжет на вас.",[18,142,144],{"id":143},"когда-что-выбрать","Когда что выбрать",[11,146,147],{},"Движок (Whisper.cpp) стоит брать, если вы разработчик, строите собственный продукт или у вас нестандартный сценарий, где нужен полный контроль над каждым шагом. И вы готовы собрать и поддерживать обвязку своими руками.",[11,149,150],{},"Готовое приложение (Speech Dock) подойдёт, если удобная приватная диктовка нужна прямо сейчас, без сборки из исходников и ручной возни с оконными нюансами. И если хочется заниматься работой, а не инструментом.",[11,152,153],{},"Оба варианта уважают вашу приватность за счёт локальной обработки. Вся разница в том, сколько инженерной работы вы готовы взять на себя.",[11,155,156,157,161],{},"Так что вопрос не в том, кто кого «точнее». Вопрос в том, что вам ближе: конструктор, который ещё надо собрать и потом тянуть, или готовый инструмент, который просто работает. Whisper.cpp прекрасен ровно в своей роли движка, и под него имеет смысл садиться, когда хочется полного контроля и не жалко времени. Если же контроль не самоцель, а нужна диктовка здесь и сейчас, ",[90,158,160],{"href":159},"\u002Fdownload","скачайте Speech Dock"," и продиктуйте первую заметку прямо сегодня.",{"title":163,"searchDepth":164,"depth":164,"links":165},"",2,[166,167,168,169,170,171],{"id":20,"depth":164,"text":21},{"id":30,"depth":164,"text":31},{"id":72,"depth":164,"text":73},{"id":106,"depth":164,"text":107},{"id":136,"depth":164,"text":137},{"id":143,"depth":164,"text":144},"Сравнение","2026-06-15","Чем готовое приложение для диктовки отличается от низкоуровневого движка вроде Whisper.cpp, что придётся собирать самому и как выбрать подходящий вариант под свою задачу.",false,"md",[178,181,184,187],{"question":179,"answer":180},"Speech Dock — это надстройка над Whisper.cpp?","Нет, это разные категории инструментов. Whisper.cpp — низкоуровневый движок распознавания, который разработчик встраивает в своё решение. Speech Dock — готовое настольное приложение для диктовки с собственным интерфейсом, горячими клавишами, вставкой текста и историей.",{"question":182,"answer":183},"Можно ли на Whisper.cpp собрать диктовку самому?","Да, и многие так делают. Но движок распознаёт аудио — а для повседневной диктовки вокруг него нужно самому собрать захват микрофона, горячие клавиши, вставку текста в активное окно, управление языковыми данными и интерфейс. Это посильно, но это проект, а не установка приложения.",{"question":185,"answer":186},"Что выбрать, если я не программист?","Если нужна диктовка «здесь и сейчас» без сборки и настройки из исходников — берите готовое приложение. Движок имеет смысл, когда вы строите собственный продукт или у вас нестандартный сценарий, требующий полного контроля.",{"question":188,"answer":189},"Оба варианта работают офлайн?","Да, локальное распознавание речи возможно в обоих случаях. Разница не в том, «облако или устройство», а в том, сколько работы по превращению движка в удобный инструмент ложится на вас.","\u002Fog\u002Fblog\u002Fspeech-dock-vs-whisper-cpp.png",{},true,"\u002Fblog\u002Fspeech-dock-vs-whisper-cpp",{"title":6,"description":174},"blog\u002Fspeech-dock-vs-whisper-cpp",[197,198,199,200,201],"Whisper.cpp","распознавание речи","сравнение","офлайн","диктовка","speech-dock-vs-whisper-cpp",null,"DQ6BzymdGv7XZTHnPbmWqG-Mj-mX3BcsNAA-2uW4xkQ",{"id":206,"title":207,"body":208,"category":321,"date":173,"description":322,"draft":175,"extension":176,"faq":323,"image":336,"meta":337,"navigation":192,"path":123,"seo":338,"stem":339,"tags":340,"translationKey":343,"updated":203,"__hash__":344},"blogRu\u002Fblog\u002Foffline-raspoznavanie-rechi.md","Офлайн-распознавание речи: что работает локально и где границы",{"type":8,"value":209,"toc":314},[210,213,216,220,223,226,237,241,247,250,253,256,259,263,266,269,273,276,297,307,311],[11,211,212],{},"Когда вы диктуете заметку телефону или нажимаете «голосовой ввод» в браузере, происходит то, о чём редко задумываются. Ваш голос уезжает на чужой сервер, там превращается в текст и возвращается обратно. Удобно. Ровно до того момента, пока вы не оказались без сети, в контуре со строгими требованиями к данным или просто не задумались, где теперь лежит запись вашего голоса и кто к ней имеет доступ.",[11,214,215],{},"Офлайн-распознавание речи устроено иначе. Весь путь от микрофона до готового текста проходит прямо на вашем компьютере. Дальше разберём, что это значит на практике и где проходит настоящая граница «локального», потому что эта граница часто не там, где её рисует маркетинг.",[18,217,219],{"id":218},"что-значит-офлайн-на-самом-деле","Что значит «офлайн» на самом деле",[11,221,222],{},"«Офлайн» это не про то, что приложение разучилось обновляться. Это про то, где обрабатывается ваш голос.",[11,224,225],{},"Сравните два пути. В облачном варианте звук с микрофона уходит на сервер сервиса, распознаётся там и возвращается к вам текстом. Без сети ничего не работает, и вы не контролируете, что происходит с записью на той стороне. В локальном варианте распознавание идёт прямо на устройстве, текст готов сразу, а сеть для самой диктовки не нужна вообще.",[11,227,228,229,232,233,130],{},"Отсюда вытекает главное: приватность получается по умолчанию. Не потому что кто-то пообещал «не хранить ваши данные», а потому что отправлять их попросту некуда. Как это устроено в Speech Dock, мы подробнее пишем на страницах ",[90,230,231],{"href":128},"приватности"," и ",[90,234,236],{"href":235},"\u002Fsecurity","безопасности",[18,238,240],{"id":239},"где-проходит-граница-локальной-обработки","Где проходит граница локальной обработки",[11,242,243],{},[35,244],{"alt":245,"src":246},"Что остаётся на устройстве, а что требует сети: локальная обработка против облака","\u002Fblog\u002Finfographics\u002Fcloud-vs-local.ru.png",[11,248,249],{},"Честный ответ: не всё в приложении обязано работать офлайн, и это нормально. Вопрос только в том, что именно остаётся на устройстве, а что иногда требует сети.",[11,251,252],{},"Всегда локально остаётся всё, что касается вашего голоса и текста. Это захват звука с микрофона, само преобразование речи в текст, дальнейшая обработка готового текста (расстановка знаков препинания, оформление) и история ваших записей. Ничего из этого не уходит наружу.",[11,254,255],{},"Сети может потребовать то, что с содержимым ваших записей никак не связано: первая установка приложения и загрузка языковых данных, проверка обновлений, активация платной лицензии.",[11,257,258],{},"Граница, как видите, проходит ровно по содержимому. Скачать приложение через интернет: разовая история, один раз поставили и забыли. А ваш голос и расшифровки после установки никуда не уезжают: диктовать можно полностью без сети.",[18,260,262],{"id":261},"что-обычные-сервисы-делают-с-записью","Что обычные сервисы делают с записью",[11,264,265],{},"Для облачного сервиса ваш голос это входные данные для чужой инфраструктуры. И даже когда сервис добросовестный, остаётся несколько вопросов, на которые у вас нет гарантированного ответа. Сколько времени хранится запись и её расшифровка? Используют ли ваш голос, чтобы обучать чужие системы? Кто имеет доступ к данным и в какой юрисдикции стоят серверы?",[11,267,268],{},"Локальная обработка снимает эти вопросы разом. Данные не покидают устройство, поэтому и отвечать не на что. Для личных заметок это просто приятно. А для рабочих документов, переписки с клиентами или любой чувствительной информации это нередко жёсткое требование, без которого инструмент вообще нельзя пускать в работу.",[18,270,272],{"id":271},"как-выбрать-офлайн-решение-на-что-смотреть","Как выбрать офлайн-решение: на что смотреть",[11,274,275],{},"Не всякое приложение, которое называет себя «локальным», и правда держит ваш голос у вас. Слово в описании ничего не стоит, поэтому проще проверить руками. Вот на что я бы смотрел.",[78,277,278,281,284,291,294],{},[46,279,280],{},"Работает ли диктовка без сети. Самая честная проверка: отключите интернет и попробуйте надиктовать текст. Распознавание продолжает работать, значит, обработка действительно идёт на устройстве.",[46,282,283],{},"Куда вставляется текст. Хорошее настольное решение отправляет распознанный текст прямо в активное окно (редактор, мессенджер, браузер), а не заставляет копировать его вручную из своего окошка.",[46,285,286,287,232,289,130],{},"Поддержка вашей платформы. Проверьте, что приложение работает в вашей системе нативно, а не через прослойку. Speech Dock, например, сделан под ",[90,288,114],{"href":113},[90,290,119],{"href":118},[46,292,293],{},"Что происходит с историей. Стоит уточнить, хранится ли история записей на устройстве и можете ли вы её удалить, когда захотите.",[46,295,296],{},"Прозрачность по сети. Ходить в сеть за обновлениями и активацией приложению нормально. А вот отправлять туда ваш звук нет. Эти две вещи важно различать, их часто специально смешивают.",[11,298,299,300,303,304,130],{},"Если вам важен именно настольный сценарий на Linux с его зоопарком оконных систем, есть отдельный разбор: ",[90,301,302],{"href":92},"голосовой ввод в Linux: X11, Wayland и рабочий процесс",". А если вы выбираете между готовым приложением и сборкой собственного решения на низкоуровневом движке, об этом есть статья ",[90,305,306],{"href":193},"Speech Dock или Whisper.cpp",[18,308,310],{"id":309},"коротко","Коротко",[11,312,313],{},"Так что «офлайн» здесь не красивое слово на лендинге, а вполне проверяемая вещь: отключите сеть, надиктуйте абзац, и либо работает, либо нет. Если приватность для вас не приятный бонус, а условие, при котором инструментом вообще можно пользоваться, локальная обработка и есть самый прямой способ её получить. Остальное (обновления, лицензия) пусть себе ходит в сеть, к вашему голосу это отношения не имеет.",{"title":163,"searchDepth":164,"depth":164,"links":315},[316,317,318,319,320],{"id":218,"depth":164,"text":219},{"id":239,"depth":164,"text":240},{"id":261,"depth":164,"text":262},{"id":271,"depth":164,"text":272},{"id":309,"depth":164,"text":310},"Основы","Что такое офлайн speech-to-text, какие задачи распознавание речи решает прямо на устройстве без интернета и где проходит реальная граница локальной обработки.",[324,327,330,333],{"question":325,"answer":326},"Офлайн-распознавание речи работает без интернета полностью?","Да. Само преобразование голоса в текст происходит на вашем устройстве, поэтому диктовать можно в самолёте, в дороге или в защищённом контуре без сети. Интернет нужен один раз — чтобы скачать приложение и языковые данные.",{"question":328,"answer":329},"Чем офлайн-распознавание отличается от голосового ввода в браузере или телефоне?","Встроенный голосовой ввод обычно отправляет звук на серверы сервиса и там превращает его в текст. При локальной обработке запись не покидает устройство — это другой подход к приватности, а не просто другая кнопка.",{"question":331,"answer":332},"Локальное распознавание заметно хуже по качеству?","Современные локальные решения справляются с диктовкой, заметками и сообщениями на повседневном языке. Разница чаще не в «облако против устройства», а в том, насколько приложение настроено под вашу речь, язык и сценарий.",{"question":334,"answer":335},"Что именно остаётся на устройстве?","Звук с микрофона, промежуточный и итоговый текст, история ваших записей. Ничего из этого не нужно отправлять на внешний сервер, чтобы получить результат.","\u002Fog\u002Fblog\u002Foffline-raspoznavanie-rechi.png",{},{"title":207,"description":322},"blog\u002Foffline-raspoznavanie-rechi",[200,198,341,342],"приватность","голосовой ввод","offline-speech-recognition","0CfvsfYp6Ti_8680ccmkl6USj5A1lR286-dqnoDl3jM",{"id":346,"title":347,"body":348,"category":114,"date":173,"description":560,"draft":175,"extension":176,"faq":561,"image":574,"meta":575,"navigation":192,"path":92,"seo":576,"stem":577,"tags":578,"translationKey":581,"updated":203,"__hash__":582},"blogRu\u002Fblog\u002Fgolosovoy-vvod-linux.md","Голосовой ввод в Linux: X11, Wayland и рабочий процесс",{"type":8,"value":349,"toc":551},[350,353,356,360,363,366,369,375,379,385,388,391,394,398,401,404,420,457,466,469,472,476,479,482,485,489,492,506,509,513,536,538,544,547],[11,351,352],{},"С распознаванием речи в Linux выходит забавный парадокс. Сам движок распознавания давно не проблема, локальные решения работают отлично. А вот «просто продиктовать текст в любое окно» оказывается неожиданно муторной задачей. И дело не в качестве распознавания, а в том, как вообще устроен рабочий стол Linux.",[11,354,355],{},"Разберёмся, почему так, чем для диктовки отличаются X11 и Wayland и как выстроить процесс, который реально экономит время.",[18,357,359],{"id":358},"почему-голосовой-ввод-в-linux-это-отдельная-история","Почему голосовой ввод в Linux это отдельная история",[11,361,362],{},"В Windows и macOS вставить текст в активное приложение можно через единый системный API, вопрос давно закрыт. В Linux рабочий стол фрагментирован. Тут две оконные системы (старый X11 и новый Wayland), несколько окружений (GNOME, KDE, Sway, Hyprland и другие), и каждое решает «эмуляцию ввода» по-своему.",[11,364,365],{},"Для голосового ввода это значит, что задача распадается на две независимые части.",[11,367,368],{},"Первая часть, распознать речь, превратить голос в текст. Она локальна и от оконной системы не зависит. Вторая, доставить готовый текст в нужное окно, вставить его туда, где стоит курсор. Вот тут и начинаются различия между X11 и Wayland.",[11,370,371,372,374],{},"Первая часть в Speech Dock полностью ",[90,373,200],{"href":123},", голос не покидает устройство. А вот вторая зависит от вашего окружения, и её стоит понимать.",[18,376,378],{"id":377},"x11-и-wayland-в-чём-разница-для-диктовки","X11 и Wayland: в чём разница для диктовки",[11,380,381],{},[35,382],{"alt":383,"src":384},"Сравнение X11 и Wayland для голосового ввода в Linux: захват активного окна, автовставка текста, горячая клавиша","\u002Fblog\u002Finfographics\u002Fx11-vs-wayland.ru.png",[11,386,387],{},"X11 это старая, но всё ещё распространённая оконная система. Устроена она либерально: одно приложение спокойно «нажимает клавиши» за пользователя и видит, какое окно сейчас активно. Для голосового ввода это подарок. Автовставка текста и определение активного окна работают без всяких дополнительных настроек.",[11,389,390],{},"Wayland это современная замена X11, спроектированная с упором на безопасность и изоляцию приложений. Ровно эти принципы и усложняют автовставку. По умолчанию приложение не может просто так эмулировать клавиатуру в чужом окне или подсмотреть, какое окно активно. Это не баг, а сознательное архитектурное решение: окно не должно знать, что творится у соседа.",[11,392,393],{},"Поэтому на Wayland часть удобных мелочей придётся настроить руками, об этом ниже. Зато взамен вы получаете куда более строгую модель безопасности всего рабочего стола.",[18,395,397],{"id":396},"автовставка-текста-как-это-работает","Автовставка текста: как это работает",[11,399,400],{},"Автовставка это когда распознанный текст сразу появляется там, где стоит курсор, без ручного Ctrl+V. Как именно это сделано, зависит от оконной системы.",[11,402,403],{},"На X11 всё работает сразу после установки. Надиктовали, текст возник в активном поле, конец истории.",[11,405,406,407,411,412,415,416,419],{},"На Wayland понадобится системный сервис ",[408,409,410],"code",{},"ydotool"," с запущенным демоном ",[408,413,414],{},"ydotoold",". Он даёт приложению канал для эмуляции ввода через ",[408,417,418],{},"\u002Fdev\u002Fuinput",". Настройка разовая, один раз и забыли:",[421,422,426],"pre",{"className":423,"code":424,"language":425,"meta":163,"style":163},"language-bash shiki shiki-themes github-light github-dark","# включить и запустить демон автовставки\nsystemctl --user enable --now ydotoold\n","bash",[408,427,428,437],{"__ignoreMap":163},[429,430,433],"span",{"class":431,"line":432},"line",1,[429,434,436],{"class":435},"sJ8bj","# включить и запустить демон автовставки\n",[429,438,439,443,447,451,454],{"class":431,"line":164},[429,440,442],{"class":441},"sScJk","systemctl",[429,444,446],{"class":445},"sj4cs"," --user",[429,448,450],{"class":449},"sZZnC"," enable",[429,452,453],{"class":445}," --now",[429,455,456],{"class":449}," ydotoold\n",[11,458,459,460,462,463,130],{},"Вдобавок у пользователя должен быть доступ к ",[408,461,418],{},". Обычно его дают добавлением в группу ",[408,464,465],{},"input",[11,467,468],{},"А если демон не настроен? Ничего страшного не происходит. Распознанный текст автоматически уходит в буфер обмена, и вы вставляете его вручную привычным сочетанием клавиш. Диктовка работает в любом случае, автоматизируется только самый последний шаг.",[11,470,471],{},"Есть и ещё один нюанс Wayland: в нём нет открытого способа узнать, какое окно сейчас активно. Так что перед диктовкой достаточно один раз убедиться, что нужное приложение в фокусе, и дальше текст пойдёт именно туда.",[18,473,475],{"id":474},"экранная-индикация-записи","Экранная индикация записи",[11,477,478],{},"Когда диктуешь, полезно видеть, что запись правда идёт. Speech Dock показывает компактную плашку-индикатор. Её поведение, как вы уже догадались, тоже зависит от окружения.",[11,480,481],{},"В Sway, Hyprland и свежих версиях KDE Plasma это полноценная плавающая индикация поверх окон. А вот GNOME не реализует нужный оконный протокол, поэтому там плашка упрощается. На саму диктовку и вставку текста это никак не влияет, страдает только красота.",[11,483,484],{},"Хороший пример того, как одна и та же функция ведёт себя на разных рабочих столах Linux совершенно по-разному. И заодно объяснение, почему готовое приложение, которое все эти различия уже разрулило, экономит вам кучу времени.",[18,486,488],{"id":487},"практический-рабочий-процесс","Практический рабочий процесс",[11,490,491],{},"Вот как выглядит удобная диктовка в повседневной работе:",[78,493,494,497,500,503],{},[46,495,496],{},"Назначаете глобальную горячую клавишу, которая запускает и останавливает запись из любого приложения. Переключаться в отдельное окно не нужно.",[46,498,499],{},"Ставите курсор туда, куда хотите вставить текст. На Wayland заодно убеждаетесь, что нужное окно в фокусе.",[46,501,502],{},"Диктуете. Говорите естественно, приложение распознаёт речь локально и само оформляет текст.",[46,504,505],{},"Текст оказывается на месте. На X11 и на настроенном Wayland он вставляется сам, иначе уже ждёт вас в буфере обмена.",[11,507,508],{},"Этот процесс одинаково хорош и для быстрого сообщения в мессенджере, и для длинной заметки или черновика письма. Разница только в том, сколько вы наговорили.",[18,510,512],{"id":511},"что-проверить-перед-стартом","Что проверить перед стартом",[43,514,515,522,525,533],{},[46,516,517,518,521],{},"Стоит ли актуальная сборка для вашей системы. Пошаговая ",[90,519,520],{"href":113},"инструкция по установке на Linux"," покрывает .deb, AppImage и популярные дистрибутивы.",[46,523,524],{},"Какая у вас оконная система, X11 или Wayland. Это влияет только на автовставку, не на распознавание.",[46,526,527,528,530,531,130],{},"Если хотите автоматическую вставку на Wayland: настроен ли ",[408,529,414],{}," и есть ли доступ к ",[408,532,418],{},[46,534,535],{},"Назначена ли удобная горячая клавиша для старта и остановки записи.",[18,537,310],{"id":309},[11,539,540,541,543],{},"Вся хитрость голосового ввода в Linux в том, что речь распознаётся одинаково везде, а вот текст до нужного окна доходит по-разному. На X11 он вставляется сам, без единой настройки. На Wayland разок придётся подружить систему с ",[408,542,410],{},", а если поленитесь, текст всё равно не пропадёт, он будет ждать в буфере обмена.",[11,545,546],{},"Так что страшилки про «голосовой ввод на Linux не работает» можно смело пропускать. Работает. Просто стоит один раз понять, на какой оконной системе вы сидите, и подкрутить под неё пару мелочей. Дальше уже диктуете и не думаете.",[548,549,550],"style",{},"html pre.shiki code .sJ8bj, html code.shiki .sJ8bj{--shiki-default:#6A737D;--shiki-dark:#6A737D}html pre.shiki code .sScJk, html code.shiki .sScJk{--shiki-default:#6F42C1;--shiki-dark:#B392F0}html pre.shiki code .sj4cs, html code.shiki .sj4cs{--shiki-default:#005CC5;--shiki-dark:#79B8FF}html pre.shiki code .sZZnC, html code.shiki .sZZnC{--shiki-default:#032F62;--shiki-dark:#9ECBFF}html .default .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}html.dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}",{"title":163,"searchDepth":164,"depth":164,"links":552},[553,554,555,556,557,558,559],{"id":358,"depth":164,"text":359},{"id":377,"depth":164,"text":378},{"id":396,"depth":164,"text":397},{"id":474,"depth":164,"text":475},{"id":487,"depth":164,"text":488},{"id":511,"depth":164,"text":512},{"id":309,"depth":164,"text":310},"Почему голосовой ввод в Linux устроен сложнее, чем кажется: чем отличаются X11 и Wayland для диктовки, как работает автовставка текста и как выстроить удобный desktop-процесс.",[562,565,568,571],{"question":563,"answer":564},"Голосовой ввод в Linux работает и на X11, и на Wayland?","Да. Само распознавание речи не зависит от оконной системы. Различия начинаются на этапе вставки готового текста в активное окно: на X11 это работает «из коробки», на Wayland иногда нужен дополнительный системный компонент.",{"question":566,"answer":567},"Почему на Wayland текст не вставляется автоматически?","Wayland из соображений безопасности ограничивает программную эмуляцию ввода. Чтобы приложение могло само вставлять текст в другое окно, нужен сервис ydotool с запущенным демоном ydotoold и доступом к \u002Fdev\u002Fuinput. Без него текст всё равно попадает в буфер обмена — его можно вставить вручную.",{"question":569,"answer":570},"Нужно ли быть в группе input?","Для автовставки на Wayland через ydotool пользователь должен иметь доступ к \u002Fdev\u002Fuinput — обычно это решается добавлением в группу input. Это разовая настройка.",{"question":572,"answer":573},"Какие окружения рабочего стола поддерживают всё полностью?","Полноценная экранная индикация записи работает в Sway, Hyprland и KDE Plasma свежих версий. В GNOME часть оконных возможностей ограничена самим окружением, поэтому индикация упрощается, но диктовка и вставка текста работают.","\u002Fog\u002Fblog\u002Fgolosovoy-vvod-linux.png",{},{"title":347,"description":560},"blog\u002Fgolosovoy-vvod-linux",[114,579,580,342,201],"Wayland","X11","linux-voice-input","39wWnqkgvbwVfe_yDgMCFMgj35oj_gnwUJP53p0hVKI",1782298628017]