Распознавание речи в Linux отстает от платформ Windows и Mac, поскольку и Microsoft, и Apple вложили значительные средства и время в добавление программного обеспечения для голосовых команд или голосового помощника в свои основные операционные системы.
Хотя для Linux ситуация не безрадостная, как и для многих передовых технологий, свободная вселенная с открытым исходным кодом остается на шаг позади, особенно с помощью инструментов голосовых команд.
Родное распознавание речи в Linux
Ни один дистрибутив Linux не фокусируется на распознавании речи. Однако приложения, поддерживающие возможность распознавания речи, полагаются на несколько библиотек с открытым исходным кодом, включая Sphinx, Kaldi, Julius и Mozilla Deepspeech.
Эти библиотеки используют речевой корпус, чтобы предлагать вариации звуков для обучения ИИ и, следовательно, правильно переводить речь в текст. Тем не менее, проекты с открытым исходным кодом значительно менее сложны (потому что они вносят значительно меньший вклад в обучение ИИ), что означает, что большинство приложений преобразования текста в речь для Linux часто проваливают преобразование. Обычно так тщательно, что неясно, какой могла быть первоначальная речь.
Варианты для Linux Речь в текст
Используйте один из пяти путей решения.
Во-первых, положитесь на нативные приложения Linux, доступные в репозиториях вашего дистрибутива, если таковые имеются.
Во-вторых, Amazon сделал Alexa доступным для Linux, в том числе для Raspberry Pi. Вам нужно будет выполнить множество пользовательских настроек, чтобы это сработало, но это сработает.
В-третьих, используйте Google Speech API в своем браузере через DictationIO. Этот сервис работает только для диктовки; Вы не можете использовать его для голосовых команд, но он питается от собственного искусственного интеллекта Google, поэтому качество довольно хорошее.
В-четвертых, используйте такой сервис, как Alexa или Google Assistant, в качестве утилиты голосовых команд для Linux через Triggercmd оказание услуг. Triggercmd работает на вашем компьютере; используйте его, чтобы вызвать Alexa или Google Assistant и заставить эти инструменты выполнять конкретные сценарии Bash на основе вашей команды. Скажите что-то вроде «ОК, Google, попросите команду триггера открыть калькулятор». Google Assistant выступает в качестве посредника в Triggercmd для запуска сценария Bash, указанного в фразе «открыть калькулятор».
Наконец, используйте Wine или виртуальную машину с программным обеспечением для Windows, таким как Dragon NaturallySpeaking. При правильной настройке вы можете использовать движок Dragon для транскрипции, хотя это решение не будет работать для приложений голосовых команд.