Распознавание и обработка речи

Процесс, в котором происходит сравнение звуков с помощью процесса distance measurement. Получение неутверждённого вывода. Введение голоса в систему распознавания звуковых сигналов h/w и s/w. Отпечатки системы защиты, образования, контроля и диагностики.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид статья
Язык русский
Дата добавления 09.04.2016
Размер файла 219,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Распознавание и обработка речи

Марей Раад Али Салех

студент 3 курса, институт инженерных

технологий и естественных наук,

НИУ БелГУ, РФ, г. Белгород

Двадцать лет назад, появились первые системы распознавания речи. В те время, мечтой всех программистов и разработчиков была найти любой способ для того чтобы разговаривать с компьютером. Этот способ стал не только методом для помощи тех, которых сталкиваются с проблемами в использовании клавиатуры или компьютерных мышей, но и способ для благополучия людей и в пользу человечества.

Обработка речи одна из отраслей компьютерной науки, и для того чтобы компьютер обрабатывал речи, он должен в начале распознать её (speech recognition). звук распознавание защита сравнение

Система распознавания речи (speech recognition system) выполнить три процессы со времени подачи речи на компьютер до обработки его до получения выгод этой речи: Pre-processing, Recognition и Communication.

Pre-processing - это процессы которые превосходят обработки речи, эти процессы преобразует входящую речь в форму, знакомую для recognizer.

Recognizer представляется в двух формах: s/w & h/w. s/w - это программы предназначены для работы с звуковыми сигналами и их распознавания. h/w - это сам компьютер. Поэтому для обработки звуковых сигналов, компьютер выполнить процесс pre-processing, этот процесс предназначен для преобразования звуков в двоичную форму.[1]

Когда человек введет речь через микрофон, то эти звуки представляются в виде аналоговый или непрерывный (рис. 1). В аналоговом сигнале есть значение для каждого момента времени доже если человек молчит и ничего не говорит (шум).

Компьютер преобразует аналоговый сигнал в дискретный, затем в двоичный сигнал, потому двоичная форма - это единственная форма с которым работает компьютер. После этого начинает процесс quantization.

Quantization - это процесс взятия значения, расположенные между каждыми двумя уровнями, этот процесс называется threshod. Эти значения в десятичной форме, после этого эти значения переводят в 0 и 1. [3]

Размещено на http://www.allbest.ru/

Рисунок 1. Процесс квантования

Recognition разделяется на identification и verification.

1. Identification - это процесс, в котором происходит сравнения звуков используя процесс distance measurement, в результате которого получим не утверждённый вывод.

Например, есть группа студентов между ними студентка уже записали её голос или взяли отпечатку её голоса раньше, и он у нас в двоичном форме, и хотим знать есть ли она в этой группе, то мы сравним её сохраненный голос с голосом каждого студента этой группы, и если нашли совпадение с голосом одного из этих студентов, то можем сказать, что это она. Но в этом случае мы не уверены сто процентов что она, поэтому используется процесс verification.

2. verification - это процесс проверки, возьмём отдельно отпечатку голоса, в котором не уверены, что он именно голос той студентки, и поверим ещё раз он или нет. Этими заканчивается процесс recognition.[3]

Communication - это процесс введения введенного распознаваемого голоса из систем распознавания в системы h/w и s/w. Можно использовать эти отпечатки в системы защиты, образования, контроля и диагностики.

При распознавании речи существуют шум, и этот шум ухудшает работы систем распознавания речи, и невозможно его отфильтровать, потому что он распространяется по всему сигналу (white noise). [4]

Размещено на http://www.allbest.ru/

Рисунок 2 - Сигнал с шумом.

После распознавания речи идёт процесс его обработки, процесс обработки речи заключается в следующим:

1. Собирание данных и их приобретение (data collection & acquisition)

Это процесс, в котором записываются звуки в памяти программы, в виде с которым компьютер может работать.

2. Обнаружение слышные и неслышные звуки (voiced & unvoiced detection)

В речи есть слышные с большей амплитудой и неслышные звуки с маленькой амплитудой, их амплитуда близко к амплитуде шума (noise) и с zero crossing много пересекаются, и для того чтобы различать voiced и unvoiced sounds есть понятие zero crossing. Zero crossing - это количество пересечений аналоговой формы буквы с горизонтальной осью. [5]

3. определить начало и конец предложений (end-point detection)

Как и сказал раньше, что при разговоре есть моменты молчание между словами и предложениями и в этих моментах есть слабые сигналы (шум) и для того чтобы упростить обработки и процесс вычисления данных избавим от этих шумов используя фильтр.

4. Time wrapping

Например, если три студентки, произносили слова "Raad" то время и длина произносимое слова отличается. Поэтому используются специальные алгоритмы для их выравнивания и для того чтобы достичь нужный смысл слова.

Размещено на http://www.allbest.ru/

Рисунок 3 - Time wrapping.

5. framming

Во время произнесения буквы, все органы произношения станут в положении покоя, это явление не заметное и происходит в течении 20 milliseconds. Поэтому в речи происходит покой каждый 20 milliseconds и это незначительное время, поэтому разделим речь на frames, где каждый frame равно 20 milliseconds. После этого с каждого frame возьмём sample, для определения свойства это frame (это лучше, чем взять весь frame, потому, что это уменьшить количество операций и время обработки). [2]

Размещено на http://www.allbest.ru/

Рисунок 4 - framing.

6. windwing

В этом процессе уменьшаем ошибки, которые возникают из-за разделения речи на frames путём поставить на каждом frame окно "window", где каждый window пресекается с предыдущим на 50% и со следующим на 50%.[5]

Размещено на http://www.allbest.ru/

Рисунок 4 - windwing.

7. modeling:

Проблема речевого сигнала, это в том, что компьютер не может работать с аналоговым сигналом, поэтому опишем его всеми устойчивыми чертами (features) это называется modeling.

8. feature extraction:

Способы распознавания речи:

1. Isolated word recognition (IWR):

Это самый простой метод распознавания, потому что мы не сталкиваемся с проблемой co-articulation (co-articulation - это процесс встречи конец слова с началом следующего слова), где он распознаёт разделённые изолированные слова друг от друга.

2. Connected word recognition (CWR):

Распознаёт речи, но с паузой (stop) после каждого слова речи.

3. Continuous speech recognition (CSR):

Это самый сложный способ, и в нем ещё много проблем до сих пор.

4. Speech understanding (SU):

Это процесс распознавания речи, используя специальных приводчиков.

5. Speech identification (SI) & speech verification (SV).

6. Word stopping (WS):

Это способ ищет ключевые слова в предложении, для того, чтобы понять смысл предложения.[2]

Стоит отметить, что процессы распознавания и обработки речи происходят в очень короткое время, и это зависит от свойств систем. Распознавания и обработка речи ещё современная наука, и она сталкивается с проблемами шума, скорости обработки, недостатков систем распознавания и обработки, поэтому, разработчики ищут способы предотвращения этих проблем, путём улучшения алгоритмов распознавания и обработки речи и ищут способы для развивать программ и систем обработки речи.

Список литературы

1. Галунов В.И. Современные проблемы в области распознавания речи / [электронный ресурс] - режим доступа: - URL: http://auditech.ru/page/darkness.html (дата обращения: 12.03.2016).

2. Speech processing / / [электронный ресурс] - режим доступа: - URL: http://www.boosla.com/showArticle.php?Sec=Misc&id=57 / (дата обращения: 29.02.2016).

3. Speech processing Technology / / [электронный ресурс] - режим доступа: - URL:http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).

4. Speech recognition / / [электронный ресурс] - режим доступа: - URL:http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).

5. Speech recognition system / / [электронный ресурс] - режим доступа: - URL:http://www.ye1.org/forum/threads/386110/ (дата обращения: 29.02.2016).

Размещено на Allbest.ru


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.