УДК 004.52: 04.89
Разработка информационно-аналитической системы. Распознавание речи
К. А. Глущенко, студент 355ам гр.
Национальный аэрокосмический университет им. Н.Е.Жуковского «ХАИ»
Сегодня информационная обработка естественного языка является востребованной и сложной в реализации задачей. Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования. Основным препятствием при автоматическом распознавании разговорной речи является наличие большого различия между данными, полученными в результате обучения системы и данными, полученными в реальных условиях. Целью исследования является разработка алгоритма распознавания голосовой информации в современных интеллектуальных системах.
В данном исследовании предлагается следующий алгоритм позволяющий решить частные задачи в рамках процедуры распознавания звукового потока. Входные данные - набор битов, который преобразован из амплитуд записанного сигнала. Для понижения контрастности спектра, предложено использовать функцию окна Хэмминга. Благодаря такому преобразованию, особенно хорошо проявляется гармонический состав речи. Для решения задачи спектрального анализа используется дискретное преобразования Фурье. С помощью данного преобразования аудио поток представляется в виде амплитудного спектра и информации о фазе сигнала (в реальных и мнимых коэффициентах). Используя стандартные преобразования, осуществляется переход в мел-шкалу и формирование вектора признаков. Решением задачи является определение степени наибольшего подобия между наборами входящих векторов и набором из векторов словаря эталонов. Словарь эталонов представлен векторами мелкепстральных коэффициентов. Дальнейшая классификация производится вычислением меры схожести пробных данных и уже известных.
р=(p1,р2,......pn) и q=(qI,q2,...,qn) векторы наборов признаков. Данная мера лучше всего подходит при дискретном разбиении, в отличие от расстояния Евклида. Данная система относиться к классу шаблонных по типу акустической модели, но выполнена как имитация модели состояний.
Разработанная система позволяет осуществлять распознавание речи и в фоновом режиме управлять различными программными приложениями с помощью голосовых команд. Результаты данной работы могут быть полезны, например, людям с ограниченными физическими возможностями, а также для специалистов в области безопасности.
*Научный руководитель к.т.н. доцент каф. 304, О. С. Радивоненко
РАСПОЗНАВАНИЯ РЕЧИ
Использовалась мера расстояний при p = 1 :
Нет похожих статей