Состояние распознавания голоса в Linux

Распознавание речи в Linux отстает от платформ Windows и Mac, поскольку и Microsoft, и Apple вложили значительные средства и время в добавление программного обеспечения для голосовых команд или голосового помощника в свои основные операционные системы.

Хотя для Linux ситуация не безрадостная, как и для многих передовых технологий, свободная вселенная с открытым исходным кодом остается на шаг позади, особенно с помощью инструментов голосовых команд.

Родное распознавание речи в Linux

Ни один дистрибутив Linux не фокусируется на распознавании речи. Однако приложения, поддерживающие возможность распознавания речи, полагаются на несколько библиотек с открытым исходным кодом, включая Sphinx, Kaldi, Julius и Mozilla Deepspeech.

Эти библиотеки используют речевой корпус, чтобы предлагать вариации звуков для обучения ИИ и, следовательно, правильно переводить речь в текст. Тем не менее, проекты с открытым исходным кодом значительно менее сложны (потому что они вносят значительно меньший вклад в обучение ИИ), что означает, что большинство приложений преобразования текста в речь для Linux часто проваливают преобразование. Обычно так тщательно, что неясно, какой могла быть первоначальная речь.

Варианты для Linux Речь в текст

Google Assistant отображает стенограмму для экранированных звонков.

Используйте один из пяти путей решения.

Во-первых, положитесь на нативные приложения Linux, доступные в репозиториях вашего дистрибутива, если таковые имеются.

Во-вторых, Amazon сделал Alexa доступным для Linux, в том числе для Raspberry Pi. Вам нужно будет выполнить множество пользовательских настроек, чтобы это сработало, но это сработает.

В-третьих, используйте Google Speech API в своем браузере через DictationIO. Этот сервис работает только для диктовки; Вы не можете использовать его для голосовых команд, но он питается от собственного искусственного интеллекта Google, поэтому качество довольно хорошее.

В-четвертых, используйте такой сервис, как Alexa или Google Assistant, в качестве утилиты голосовых команд для Linux через Triggercmd оказание услуг. Triggercmd работает на вашем компьютере; используйте его, чтобы вызвать Alexa или Google Assistant и заставить эти инструменты выполнять конкретные сценарии Bash на основе вашей команды. Скажите что-то вроде «ОК, Google, попросите команду триггера открыть калькулятор». Google Assistant выступает в качестве посредника в Triggercmd для запуска сценария Bash, указанного в фразе «открыть калькулятор».

Наконец, используйте Wine или виртуальную машину с программным обеспечением для Windows, таким как Dragon NaturallySpeaking. При правильной настройке вы можете использовать движок Dragon для транскрипции, хотя это решение не будет работать для приложений голосовых команд.

Ссылка на основную публикацию