Что же такое голос и, непосредственно, распознание речи?
Физика голоса состоит в создании звуковых волн вследствие колебания голосовых связок человека. Таким образом, голос человека – не что иное, как звуковой сигнал. Голосовое же управление устройством (будь то ПК или смартфон) предполагает распознавание голосовых сигналов устройством при помощи специальной программы и преобразование их в необходимые пользователю команды.Что такое сигнал?
Сигнал – это нечто, сигнализирующее о чем-то. Говоря о сигналах в общем, можно говорить о сигнале маяка, светофора, автомобиля и т.д. Любой сигнал предполагает передачу одним объектом (системой) в какую-либо среду другому объекту (системе) определенного кода, знака или символа, имеющего некий смысл. То есть, сигнал является носителем информации для системы взаимосвязи между объектами. Что может послужить сигналом? По сути это физический процесс, изменение параметров которого происходит в зависимости от содержания передаваемого сообщения. Обработка физических данных позволяет создавать математические модели сигналов, которые позволяют описывать свойства сигналов, говорить о тенденциях их изменений.Когда же речь идет об управлении голосом, то имеются ввиду звуковые сигнал речи. Поскольку сегодня мы говорим о голосовом управлении устройствами, то описывают их так называемые модели речевых трактов, которых на сегодняшний день существует несколько. С их помощью отслеживаются характеристики шумов и тонов речи – высота, тембр, сила и проч.
Распространение звука в среде
Как мы уже говорили, человеческий голос, в частности, звуки речи представляют собой совокупность звуковых волн, распространяющихся в воздухе (здесь и далее в воздушной среде, в среде). Эти звуковые волны обычно представляют как наложение продольных (периодические сжатия и расширения среды) упругих колебаний среды. Распределение этих колебаний в пространстве образует акустическое поле, которое, в свою очередь, изменяется с распространением колебаний, их затуханием, ослаблением либо поглощением в среде.Чем отличается обычный звуковой сигнал, например, протяжный чистый тон от звука речи? На осциллографе эти отличия видны очень явно. Обычный чистый тон на графике дает правильную синусоиду, в то время как, скажем, фонема (первичный элемент звука речи) «А» будет представлена волновым графиком более сложного вида соответственно смещению и времени, отложенным по координатным осям.
От протяжного звука «А» будет существенно отличаться картинка осциллографа, полученная при интерпретации фонемы «С», имеющей шумовую природу. То есть, каждая воспроизводимая фонема может быть представлена в виде определенного графика – осциллограммы.
Основной задачей анализа звуков и, в частности, звуков речи, является определение акустических спектров – характеристик звуков, выражающих их частотный состав.
Предварительная аналоговая обработка сигнала. (Аналоговые фильтры до усилителя)/
Целый ряд характеристик аналоговых фильтров делает их применение незаменимым при распознавании сигналов речи. Это:- чувствительность к внешнему шуму;
- возможность отклонений характеристик во времени в зависимости от разных условий среды и, таким образом, возможность изменения коэффициентов передаточной функции;
- существенно более высокий динамический диапазон (отношение амплитуд максимального и минимального сигналов);
- отсутствие ограничений по частотному диапазону.
Предварительная обработка сигнала аналоговыми фильтрами является наиболее популярным способом подавления помех перед оцифровкой звука.
При помехах 10–20 % амплитуды полезного сигнала применяют пассивные фильтры, при больших – активные.