Главная -> Статьи -> Что такое система распознавание речи?

Что такое система распознавание речи?

Что такое система распознавание речи?

Когда мы слушаем, как кто-нибудь говорит, наше внутреннее ухо анализирует частотный спектр звука и мозг воспринимает слово. Некоторые компьютеры могут имитировать этот процесс при помощи анализатора спектра.

Звуковые сигналы поступают в анализатор через микрофон, и их спектральные характеристики анализируются. Затем компьютер сравнивает полученные сигналы с запрограммированным списком фонем, или строительных акустических блоков. Кратковременные сигналы сравниваются со стандартными образцами слов и соотносятся с правилами языка и синтаксиса.

Этот процесс помогает компьютеру идентифицировать произнесенные слова. Если программа достаточно сложная, она даже может определить по контексту, было ли произнесено слово «плод» или «плот». Но может ли компьютер действительно понимать речь, как это делают люди, — по сей день остается предметом жарких дебатов. Можно запрограммировать компьютер, чтобы он мог отвечать на определенные комбинации слов, но заменит ли это настоящее понимание? Некоторые специалисты в области искусственного интеллекта верят, что через несколько десятилетий компьютер сможет вести актуальную непринужденную беседу с человеком. Тем не менее многие специалисты убеждены, что компьютер будет всегда ограничен программой, заранее составленными ответами.

Распознавание голоса

Система распознавания голоса состоит из трех отделов: ввод, анализ, принятие решения. Компьютер принимает решения относительно ввода на основе языковых и синтаксических правил.

Спектральный анализ

Звуки, произносимые долее нескольких секунд, разбиваются на более короткие временные сегменты. Затем компьютер анализирует частотные компоненты каждого сегмента.

Акустический анализ

звуковой спектрограф представляет спектр звука в видимой форме. При одном методе анализа нормальная цепочка звуков человеческого голоса разбивается на сегменты, цветовой код которых указывает на силу и частоту их компонентов. Трехмерные графы, как на иллюстрации сверху, изображают еще один способ визуализирования подобной информации.

Принятие решения

По результатам анализа компьютер решает, было ли произнесено данное слово. Компьютер сравнивает записанный анализ со списком возможных кандидатов, затем применяет правила лексики и синтаксиса, чтобы определить, соответствует ли определенный звук определенному слову.

Стандартные речевые модели

Мельчайшие единицы речи определяются в терминах частотного спектра. Стандартные образцы речи указывают, какая единица имеется в данном слове.

Звуковой спектрограф (сверху) производит акустический анализ звуков в произносимых словах. Здесь гласный звук (наверху слева) сравнивается со спектром гласных (внизу).

Человеческое ухо

Звуковые волны заставляют вибрировать барабанную перепонку. Эта вибрация передается нескольким маленьким косточкам и преобразуется в электрические сигналы, которые поступают в мозг.

 

Новости партнеров

Дешевые спиннеры от АлиЭкспресс можно заказать в интернет-магазине Mtonline.ru. Там представлена подборка спиннеров по цене и качеству.

Спиннеры от АлиЭкспресс