Состояние распознавания голоса в Linux

Содержание

1 Родное распознавание речи в Linux
2 Варианты для Linux Речь в текст

Распознавание речи в Linux отстает от платформ Windows и Mac, поскольку и Microsoft, и Apple вложили значительные средства и время в добавление программного обеспечения для голосовых команд или голосового помощника в свои основные операционные системы.

Хотя для Linux ситуация не безрадостная, как и для многих передовых технологий, свободная вселенная с открытым исходным кодом остается на шаг позади, особенно с помощью инструментов голосовых команд.

Родное распознавание речи в Linux

Ни один дистрибутив Linux не фокусируется на распознавании речи. Однако приложения, поддерживающие возможность распознавания речи, полагаются на несколько библиотек с открытым исходным кодом, включая Sphinx, Kaldi, Julius и Mozilla Deepspeech.

Эти библиотеки используют речевой корпус, чтобы предлагать вариации звуков для обучения ИИ и, следовательно, правильно переводить речь в текст. Тем не менее, проекты с открытым исходным кодом значительно менее сложны (потому что они вносят значительно меньший вклад в обучение ИИ), что означает, что большинство приложений преобразования текста в речь для Linux часто проваливают преобразование. Обычно так тщательно, что неясно, какой могла быть первоначальная речь.

Варианты для Linux Речь в текст

Используйте один из пяти путей решения.

Во-первых, положитесь на нативные приложения Linux, доступные в репозиториях вашего дистрибутива, если таковые имеются.

Во-вторых, Amazon сделал Alexa доступным для Linux, в том числе для Raspberry Pi. Вам нужно будет выполнить множество пользовательских настроек, чтобы это сработало, но это сработает.

В-третьих, используйте Google Speech API в своем браузере через DictationIO. Этот сервис работает только для диктовки; Вы не можете использовать его для голосовых команд, но он питается от собственного искусственного интеллекта Google, поэтому качество довольно хорошее.

Прочтите: Как установить программное обеспечение Linux из исходного кода

В-четвертых, используйте такой сервис, как Alexa или Google Assistant, в качестве утилиты голосовых команд для Linux через Triggercmd оказание услуг. Triggercmd работает на вашем компьютере; используйте его, чтобы вызвать Alexa или Google Assistant и заставить эти инструменты выполнять конкретные сценарии Bash на основе вашей команды. Скажите что-то вроде «ОК, Google, попросите команду триггера открыть калькулятор». Google Assistant выступает в качестве посредника в Triggercmd для запуска сценария Bash, указанного в фразе «открыть калькулятор».

Наконец, используйте Wine или виртуальную машину с программным обеспечением для Windows, таким как Dragon NaturallySpeaking. При правильной настройке вы можете использовать движок Dragon для транскрипции, хотя это решение не будет работать для приложений голосовых команд.