Что такое распознавание речи?

Распознавание речи — это технология, позволяющая вводить речь в системы. Вы говорите со своим компьютером, телефоном или устройством, и оно использует то, что вы сказали, как ввод, чтобы вызвать какое-то действие. Эта технология используется для замены других методов ввода, таких как набор текста, нажатие или выбор другими способами. Это способ сделать устройства и программное обеспечение более удобными для пользователя и повысить производительность.

Существует множество приложений и областей, в которых распознавание речи используется, в том числе в военных целях, для помощи людям с ограниченными возможностями (представьте себе человека с ограниченными возможностями или без рук или пальцев), в области медицины, робототехники и т. Д. В ближайшем будущем почти все будут подвержены распознаванию речи из-за ее распространения среди распространенных устройств, таких как компьютеры и мобильные телефоны.

Некоторые смартфоны используют интересные способы распознавания речи. Устройства iPhone и Android являются тому примером. Через них вы можете инициировать вызов контакту, просто получив устные инструкции, такие как «Позвонить в офис». Также могут быть использованы другие команды, такие как «Включить Bluetooth». 

Проблемы с распознаванием речи

Распознавание речи в своей версии, известной как Speech to Text (STT), также долгое время использовалось для перевода произнесенных слов в текст. «Вы говорите, это печатает», как сказал бы ViaVoice на своей коробке. Но есть одна проблема с STT, поскольку мы знаем это. ViaVoice является одним из лучших в отрасли, поэтому представьте себе все остальное. Технология выросла и улучшилась, но речь к тексту все еще заставляет людей задавать вопросы. Одна из главных трудностей — огромные различия в произношении людей.

Не все языки допускаются в распознавании речи, и те, которые это делают, часто не поддерживаются, а также английский. В результате большинство устройств, на которых установлено программное обеспечение для распознавания речи, работают разумно только на английском языке. 

Набор требований к оборудованию затрудняет развертывание распознавания речи в определенных случаях. Вам нужен достаточно интеллектуальный микрофон, чтобы отфильтровать фоновые шумы, но в то же время достаточно мощный, чтобы естественным образом улавливать голос. 

Говоря о фоновом шуме, это может привести к отказу всей системы. В результате во многих случаях происходит сбой распознавания речи из-за шумов, которые находятся вне контроля пользователя. 

Распознавание речи оказывается лучше в качестве метода ввода для новых телефонов и технологий связи, таких как VoIP, чем в качестве инструмента повышения производительности для массового ввода текста.

Приложения распознавания речи 

Технология набирает популярность во многих областях и добилась успеха в следующих областях: 

  • Управление устройством. Просто сказать «ОК Google» на телефон Android запускает систему, которая полностью слышит ваши голосовые команды. 
  • Автомобильные Bluetooth-системы. Многие автомобили оснащены системой, которая связывает его радиомеханизм с вашим смартфоном через Bluetooth. Затем вы можете совершать и принимать звонки, не касаясь смартфона, и даже можете набирать номера, просто произнося их. 
  • Голосовая транскрипция. В тех местах, где людям приходится много печатать, некоторые интеллектуальные программы фиксируют их произнесенные слова и транскрибируют их в текст. Это актуально для определенного программного обеспечения для обработки текста. Голосовая транскрипция также работает с визуальной голосовой почтой. 

7 лучших диктофонов 2019 года

Ссылка на основную публикацию