[{"data":1,"prerenderedAt":489},["ShallowReactive",2],{"blog-article-\u002Fblog\u002Fgolosovoy-vvod-linux":3},{"article":4,"translation":267},{"id":5,"title":6,"body":7,"category":235,"date":236,"description":237,"draft":238,"extension":239,"faq":240,"image":253,"meta":254,"navigation":255,"path":256,"seo":257,"stem":258,"tags":259,"translationKey":264,"updated":265,"__hash__":266},"blogRu\u002Fblog\u002Fgolosovoy-vvod-linux.md","Голосовой ввод в Linux: X11, Wayland и рабочий процесс",{"type":8,"value":9,"toc":226},"minimark",[10,14,17,22,25,28,31,40,44,51,54,57,60,64,67,70,86,125,135,138,141,145,148,151,154,158,161,177,180,184,209,213,219,222],[11,12,13],"p",{},"С распознаванием речи в Linux выходит забавный парадокс. Сам движок распознавания давно не проблема, локальные решения работают отлично. А вот «просто продиктовать текст в любое окно» оказывается неожиданно муторной задачей. И дело не в качестве распознавания, а в том, как вообще устроен рабочий стол Linux.",[11,15,16],{},"Разберёмся, почему так, чем для диктовки отличаются X11 и Wayland и как выстроить процесс, который реально экономит время.",[18,19,21],"h2",{"id":20},"почему-голосовой-ввод-в-linux-это-отдельная-история","Почему голосовой ввод в Linux это отдельная история",[11,23,24],{},"В Windows и macOS вставить текст в активное приложение можно через единый системный API, вопрос давно закрыт. В Linux рабочий стол фрагментирован. Тут две оконные системы (старый X11 и новый Wayland), несколько окружений (GNOME, KDE, Sway, Hyprland и другие), и каждое решает «эмуляцию ввода» по-своему.",[11,26,27],{},"Для голосового ввода это значит, что задача распадается на две независимые части.",[11,29,30],{},"Первая часть, распознать речь, превратить голос в текст. Она локальна и от оконной системы не зависит. Вторая, доставить готовый текст в нужное окно, вставить его туда, где стоит курсор. Вот тут и начинаются различия между X11 и Wayland.",[11,32,33,34,39],{},"Первая часть в Speech Dock полностью ",[35,36,38],"a",{"href":37},"\u002Fblog\u002Foffline-raspoznavanie-rechi","офлайн",", голос не покидает устройство. А вот вторая зависит от вашего окружения, и её стоит понимать.",[18,41,43],{"id":42},"x11-и-wayland-в-чём-разница-для-диктовки","X11 и Wayland: в чём разница для диктовки",[11,45,46],{},[47,48],"img",{"alt":49,"src":50},"Сравнение X11 и Wayland для голосового ввода в Linux: захват активного окна, автовставка текста, горячая клавиша","\u002Fblog\u002Finfographics\u002Fx11-vs-wayland.ru.png",[11,52,53],{},"X11 это старая, но всё ещё распространённая оконная система. Устроена она либерально: одно приложение спокойно «нажимает клавиши» за пользователя и видит, какое окно сейчас активно. Для голосового ввода это подарок. Автовставка текста и определение активного окна работают без всяких дополнительных настроек.",[11,55,56],{},"Wayland это современная замена X11, спроектированная с упором на безопасность и изоляцию приложений. Ровно эти принципы и усложняют автовставку. По умолчанию приложение не может просто так эмулировать клавиатуру в чужом окне или подсмотреть, какое окно активно. Это не баг, а сознательное архитектурное решение: окно не должно знать, что творится у соседа.",[11,58,59],{},"Поэтому на Wayland часть удобных мелочей придётся настроить руками, об этом ниже. Зато взамен вы получаете куда более строгую модель безопасности всего рабочего стола.",[18,61,63],{"id":62},"автовставка-текста-как-это-работает","Автовставка текста: как это работает",[11,65,66],{},"Автовставка это когда распознанный текст сразу появляется там, где стоит курсор, без ручного Ctrl+V. Как именно это сделано, зависит от оконной системы.",[11,68,69],{},"На X11 всё работает сразу после установки. Надиктовали, текст возник в активном поле, конец истории.",[11,71,72,73,77,78,81,82,85],{},"На Wayland понадобится системный сервис ",[74,75,76],"code",{},"ydotool"," с запущенным демоном ",[74,79,80],{},"ydotoold",". Он даёт приложению канал для эмуляции ввода через ",[74,83,84],{},"\u002Fdev\u002Fuinput",". Настройка разовая, один раз и забыли:",[87,88,93],"pre",{"className":89,"code":90,"language":91,"meta":92,"style":92},"language-bash shiki shiki-themes github-light github-dark","# включить и запустить демон автовставки\nsystemctl --user enable --now ydotoold\n","bash","",[74,94,95,104],{"__ignoreMap":92},[96,97,100],"span",{"class":98,"line":99},"line",1,[96,101,103],{"class":102},"sJ8bj","# включить и запустить демон автовставки\n",[96,105,107,111,115,119,122],{"class":98,"line":106},2,[96,108,110],{"class":109},"sScJk","systemctl",[96,112,114],{"class":113},"sj4cs"," --user",[96,116,118],{"class":117},"sZZnC"," enable",[96,120,121],{"class":113}," --now",[96,123,124],{"class":117}," ydotoold\n",[11,126,127,128,130,131,134],{},"Вдобавок у пользователя должен быть доступ к ",[74,129,84],{},". Обычно его дают добавлением в группу ",[74,132,133],{},"input",".",[11,136,137],{},"А если демон не настроен? Ничего страшного не происходит. Распознанный текст автоматически уходит в буфер обмена, и вы вставляете его вручную привычным сочетанием клавиш. Диктовка работает в любом случае, автоматизируется только самый последний шаг.",[11,139,140],{},"Есть и ещё один нюанс Wayland: в нём нет открытого способа узнать, какое окно сейчас активно. Так что перед диктовкой достаточно один раз убедиться, что нужное приложение в фокусе, и дальше текст пойдёт именно туда.",[18,142,144],{"id":143},"экранная-индикация-записи","Экранная индикация записи",[11,146,147],{},"Когда диктуешь, полезно видеть, что запись правда идёт. Speech Dock показывает компактную плашку-индикатор. Её поведение, как вы уже догадались, тоже зависит от окружения.",[11,149,150],{},"В Sway, Hyprland и свежих версиях KDE Plasma это полноценная плавающая индикация поверх окон. А вот GNOME не реализует нужный оконный протокол, поэтому там плашка упрощается. На саму диктовку и вставку текста это никак не влияет, страдает только красота.",[11,152,153],{},"Хороший пример того, как одна и та же функция ведёт себя на разных рабочих столах Linux совершенно по-разному. И заодно объяснение, почему готовое приложение, которое все эти различия уже разрулило, экономит вам кучу времени.",[18,155,157],{"id":156},"практический-рабочий-процесс","Практический рабочий процесс",[11,159,160],{},"Вот как выглядит удобная диктовка в повседневной работе:",[162,163,164,168,171,174],"ol",{},[165,166,167],"li",{},"Назначаете глобальную горячую клавишу, которая запускает и останавливает запись из любого приложения. Переключаться в отдельное окно не нужно.",[165,169,170],{},"Ставите курсор туда, куда хотите вставить текст. На Wayland заодно убеждаетесь, что нужное окно в фокусе.",[165,172,173],{},"Диктуете. Говорите естественно, приложение распознаёт речь локально и само оформляет текст.",[165,175,176],{},"Текст оказывается на месте. На X11 и на настроенном Wayland он вставляется сам, иначе уже ждёт вас в буфере обмена.",[11,178,179],{},"Этот процесс одинаково хорош и для быстрого сообщения в мессенджере, и для длинной заметки или черновика письма. Разница только в том, сколько вы наговорили.",[18,181,183],{"id":182},"что-проверить-перед-стартом","Что проверить перед стартом",[185,186,187,195,198,206],"ul",{},[165,188,189,190,194],{},"Стоит ли актуальная сборка для вашей системы. Пошаговая ",[35,191,193],{"href":192},"\u002Finstall\u002Flinux","инструкция по установке на Linux"," покрывает .deb, AppImage и популярные дистрибутивы.",[165,196,197],{},"Какая у вас оконная система, X11 или Wayland. Это влияет только на автовставку, не на распознавание.",[165,199,200,201,203,204,134],{},"Если хотите автоматическую вставку на Wayland: настроен ли ",[74,202,80],{}," и есть ли доступ к ",[74,205,84],{},[165,207,208],{},"Назначена ли удобная горячая клавиша для старта и остановки записи.",[18,210,212],{"id":211},"коротко","Коротко",[11,214,215,216,218],{},"Вся хитрость голосового ввода в Linux в том, что речь распознаётся одинаково везде, а вот текст до нужного окна доходит по-разному. На X11 он вставляется сам, без единой настройки. На Wayland разок придётся подружить систему с ",[74,217,76],{},", а если поленитесь, текст всё равно не пропадёт, он будет ждать в буфере обмена.",[11,220,221],{},"Так что страшилки про «голосовой ввод на Linux не работает» можно смело пропускать. Работает. Просто стоит один раз понять, на какой оконной системе вы сидите, и подкрутить под неё пару мелочей. Дальше уже диктуете и не думаете.",[223,224,225],"style",{},"html pre.shiki code .sJ8bj, html code.shiki .sJ8bj{--shiki-default:#6A737D;--shiki-dark:#6A737D}html pre.shiki code .sScJk, html code.shiki .sScJk{--shiki-default:#6F42C1;--shiki-dark:#B392F0}html pre.shiki code .sj4cs, html code.shiki .sj4cs{--shiki-default:#005CC5;--shiki-dark:#79B8FF}html pre.shiki code .sZZnC, html code.shiki .sZZnC{--shiki-default:#032F62;--shiki-dark:#9ECBFF}html .default .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}html.dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}",{"title":92,"searchDepth":106,"depth":106,"links":227},[228,229,230,231,232,233,234],{"id":20,"depth":106,"text":21},{"id":42,"depth":106,"text":43},{"id":62,"depth":106,"text":63},{"id":143,"depth":106,"text":144},{"id":156,"depth":106,"text":157},{"id":182,"depth":106,"text":183},{"id":211,"depth":106,"text":212},"Linux","2026-06-15","Почему голосовой ввод в Linux устроен сложнее, чем кажется: чем отличаются X11 и Wayland для диктовки, как работает автовставка текста и как выстроить удобный desktop-процесс.",false,"md",[241,244,247,250],{"question":242,"answer":243},"Голосовой ввод в Linux работает и на X11, и на Wayland?","Да. Само распознавание речи не зависит от оконной системы. Различия начинаются на этапе вставки готового текста в активное окно: на X11 это работает «из коробки», на Wayland иногда нужен дополнительный системный компонент.",{"question":245,"answer":246},"Почему на Wayland текст не вставляется автоматически?","Wayland из соображений безопасности ограничивает программную эмуляцию ввода. Чтобы приложение могло само вставлять текст в другое окно, нужен сервис ydotool с запущенным демоном ydotoold и доступом к \u002Fdev\u002Fuinput. Без него текст всё равно попадает в буфер обмена — его можно вставить вручную.",{"question":248,"answer":249},"Нужно ли быть в группе input?","Для автовставки на Wayland через ydotool пользователь должен иметь доступ к \u002Fdev\u002Fuinput — обычно это решается добавлением в группу input. Это разовая настройка.",{"question":251,"answer":252},"Какие окружения рабочего стола поддерживают всё полностью?","Полноценная экранная индикация записи работает в Sway, Hyprland и KDE Plasma свежих версий. В GNOME часть оконных возможностей ограничена самим окружением, поэтому индикация упрощается, но диктовка и вставка текста работают.","\u002Fog\u002Fblog\u002Fgolosovoy-vvod-linux.png",{},true,"\u002Fblog\u002Fgolosovoy-vvod-linux",{"title":6,"description":237},"blog\u002Fgolosovoy-vvod-linux",[235,260,261,262,263],"Wayland","X11","голосовой ввод","диктовка","linux-voice-input",null,"39wWnqkgvbwVfe_yDgMCFMgj35oj_gnwUJP53p0hVKI",{"id":268,"title":269,"body":270,"category":235,"date":236,"description":466,"draft":238,"extension":239,"faq":467,"image":480,"meta":481,"navigation":255,"path":482,"seo":483,"stem":484,"tags":485,"translationKey":264,"updated":265,"__hash__":488},"blogEn\u002Fen\u002Fblog\u002Flinux-voice-input.md","Voice Input on Linux: X11, Wayland, and a Workflow That Sticks",{"type":8,"value":271,"toc":457},[272,275,278,282,285,288,291,299,303,309,312,315,318,322,325,328,340,362,371,374,377,381,384,387,390,394,397,411,414,418,442,446,452,455],[11,273,274],{},"There is a funny paradox with speech recognition on Linux. The recognition engine itself stopped being a problem long ago, and local solutions work great. But \"just dictate text into any window\" turns out to be a surprisingly fiddly task. And it has nothing to do with recognition quality, it is all about how the Linux desktop is built in the first place.",[11,276,277],{},"Let's unpack why, how X11 and Wayland differ for dictation, and how to set up a workflow that genuinely saves you time.",[18,279,281],{"id":280},"why-voice-input-on-linux-is-its-own-story","Why Voice Input on Linux Is Its Own Story",[11,283,284],{},"On Windows and macOS, you can paste text into the active app through a single system API, and that question was settled years ago. On Linux, the desktop is fragmented. There are two windowing systems (the old X11 and the new Wayland), several desktop environments (GNOME, KDE, Sway, Hyprland, and others), and each one handles \"input emulation\" in its own way.",[11,286,287],{},"For voice input, that means the task splits into two independent parts.",[11,289,290],{},"The first part, recognizing speech and turning your voice into text, is local and does not depend on the windowing system. The second part, delivering the finished text into the right window and inserting it where the cursor sits, is exactly where the differences between X11 and Wayland begin.",[11,292,293,294,298],{},"In Speech Dock, the first part is fully ",[35,295,297],{"href":296},"\u002Fen\u002Fblog\u002Foffline-speech-recognition","offline",", so your voice never leaves the device. The second part depends on your environment, and it is worth understanding.",[18,300,302],{"id":301},"x11-vs-wayland-whats-different-for-dictation","X11 vs. Wayland: What's Different for Dictation",[11,304,305],{},[47,306],{"alt":307,"src":308},"X11 vs Wayland for voice input on Linux: active-window capture, text auto-paste, global hotkey","\u002Fblog\u002Finfographics\u002Fx11-vs-wayland.en.png",[11,310,311],{},"X11 is an old but still widely used windowing system. Its design is permissive: one app can happily \"press keys\" on behalf of the user and see which window is currently active. For voice input, that's a gift. Auto-pasting text and detecting the active window work with no extra setup at all.",[11,313,314],{},"Wayland is the modern replacement for X11, designed with a strong emphasis on security and app isolation. Those same principles are exactly what make auto-paste harder. By default, an app cannot simply emulate the keyboard in another window or peek at which window is active. This is not a bug but a deliberate architectural choice: a window should not know what its neighbor is doing.",[11,316,317],{},"So on Wayland you'll have to configure a few conveniences by hand, more on that below. In return, you get a far stricter security model across the entire desktop.",[18,319,321],{"id":320},"auto-paste-how-it-works","Auto-Paste: How It Works",[11,323,324],{},"Auto-paste is when recognized text appears right where the cursor sits, with no manual Ctrl+V. How exactly it's done depends on the windowing system.",[11,326,327],{},"On X11, everything works right after installation. You dictate, the text shows up in the active field, end of story.",[11,329,330,331,333,334,336,337,339],{},"On Wayland, you'll need the ",[74,332,76],{}," system service with the ",[74,335,80],{}," daemon running. It gives the app a channel for input emulation through ",[74,338,84],{},". The setup is one-time, set it and forget it:",[87,341,343],{"className":89,"code":342,"language":91,"meta":92,"style":92},"# enable and start the auto-paste daemon\nsystemctl --user enable --now ydotoold\n",[74,344,345,350],{"__ignoreMap":92},[96,346,347],{"class":98,"line":99},[96,348,349],{"class":102},"# enable and start the auto-paste daemon\n",[96,351,352,354,356,358,360],{"class":98,"line":106},[96,353,110],{"class":109},[96,355,114],{"class":113},[96,357,118],{"class":117},[96,359,121],{"class":113},[96,361,124],{"class":117},[11,363,364,365,367,368,370],{},"On top of that, your user needs access to ",[74,366,84],{},". This is usually granted by adding the user to the ",[74,369,133],{}," group.",[11,372,373],{},"And what if the daemon isn't set up? Nothing bad happens. The recognized text is automatically copied to the clipboard, and you paste it manually with your usual shortcut. Dictation works either way, only the very last step is automated.",[11,375,376],{},"There's one more Wayland quirk: it has no public way to find out which window is currently active. So before dictating, just make sure once that the right app is in focus, and the text will go exactly where you want it.",[18,378,380],{"id":379},"on-screen-recording-indicator","On-Screen Recording Indicator",[11,382,383],{},"When you're dictating, it helps to see that recording is actually happening. Speech Dock shows a compact indicator pill. Its behavior, as you might have guessed, also depends on the environment.",[11,385,386],{},"On Sway, Hyprland, and recent versions of KDE Plasma, it's a full floating indicator on top of the windows. GNOME, however, doesn't implement the windowing protocol it needs, so the pill is simplified there. This has no effect on dictation or text pasting itself, only the looks take a hit.",[11,388,389],{},"It's a good example of how the same feature behaves completely differently across various Linux desktops. And it also explains why a ready-made app that has already sorted out all these differences saves you a ton of time.",[18,391,393],{"id":392},"a-practical-workflow","A Practical Workflow",[11,395,396],{},"Here's what comfortable dictation looks like in everyday work:",[162,398,399,402,405,408],{},[165,400,401],{},"Set a global hotkey that starts and stops recording from any app. No need to switch to a separate window.",[165,403,404],{},"Put the cursor where you want the text to go. On Wayland, also make sure the right window is in focus.",[165,406,407],{},"Dictate. Speak naturally; the app recognizes your speech locally and formats the text for you.",[165,409,410],{},"The text lands in place. On X11 and on a configured Wayland, it pastes itself; otherwise it's already waiting for you on the clipboard.",[11,412,413],{},"This workflow works equally well for a quick chat message and for a long note or an email draft. The only difference is how much you've said.",[18,415,417],{"id":416},"what-to-check-before-you-start","What to Check Before You Start",[185,419,420,428,431,439],{},[165,421,422,423,427],{},"Whether the current build for your system is installed. The step-by-step ",[35,424,426],{"href":425},"\u002Fen\u002Finstall\u002Flinux","Linux installation guide"," covers .deb, AppImage, and popular distributions.",[165,429,430],{},"Which windowing system you're on, X11 or Wayland. This affects only auto-paste, not recognition.",[165,432,433,434,436,437,134],{},"If you want automatic pasting on Wayland: whether ",[74,435,80],{}," is configured and you have access to ",[74,438,84],{},[165,440,441],{},"Whether you've set a convenient hotkey to start and stop recording.",[18,443,445],{"id":444},"in-short","In Short",[11,447,448,449,451],{},"The whole trick with voice input on Linux is that speech is recognized the same way everywhere, but text reaches the target window in different ways. On X11 it pastes itself, with zero configuration. On Wayland you'll have to make friends with ",[74,450,76],{}," once, and if you can't be bothered, the text still won't be lost, it'll be waiting on the clipboard.",[11,453,454],{},"So you can safely skip the scary stories about \"voice input not working on Linux.\" It works. You just need to understand once which windowing system you're on and tweak a couple of small things for it. After that, you just dictate and stop thinking about it.",[223,456,225],{},{"title":92,"searchDepth":106,"depth":106,"links":458},[459,460,461,462,463,464,465],{"id":280,"depth":106,"text":281},{"id":301,"depth":106,"text":302},{"id":320,"depth":106,"text":321},{"id":379,"depth":106,"text":380},{"id":392,"depth":106,"text":393},{"id":416,"depth":106,"text":417},{"id":444,"depth":106,"text":445},"Why voice input on Linux is trickier than it looks: how X11 and Wayland differ for dictation, how auto-paste works, and how to build a desktop workflow that saves time.",[468,471,474,477],{"question":469,"answer":470},"Does voice input on Linux work on both X11 and Wayland?","Yes. Speech recognition itself does not depend on the windowing system. The differences only show up at the moment the finished text is pasted into the active window: on X11 this works out of the box, while on Wayland you sometimes need an extra system component.",{"question":472,"answer":473},"Why doesn't text paste automatically on Wayland?","For security reasons, Wayland restricts software input emulation. For an app to paste text into another window on its own, you need the ydotool service with the ydotoold daemon running and access to \u002Fdev\u002Fuinput. Without it, the text still lands on the clipboard, so you can paste it manually.",{"question":475,"answer":476},"Do I need to be in the input group?","For auto-paste on Wayland via ydotool, your user needs access to \u002Fdev\u002Fuinput, which is usually granted by adding the user to the input group. This is a one-time setup.",{"question":478,"answer":479},"Which desktop environments support everything fully?","A full on-screen recording indicator works on Sway, Hyprland, and recent versions of KDE Plasma. On GNOME, some window features are limited by the environment itself, so the indicator is simplified, but dictation and text pasting still work.","\u002Fog\u002Fblog\u002Fen\u002Flinux-voice-input.png",{},"\u002Fen\u002Fblog\u002Flinux-voice-input",{"title":269,"description":466},"en\u002Fblog\u002Flinux-voice-input",[235,260,261,486,487],"voice input","dictation","pFxQPpO4MgQZ2_wGotPMURb4-9QfKYKmqVQW2-W9790",1782298628017]