Современные речевые технологии

Исследование основных составляющих современных речевых технологий. Изучение классов систем практического назначения. Характеристика особенностей влияния знаний о речевом поведении человека для построения систем автоматического понимания и синтеза речи.

Рубрика Иностранные языки и языкознание
Вид реферат
Язык русский
Дата добавления 05.05.2014
Размер файла 19,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

9

Современные речевые технологии

В.И. Галунов, А.Б. Викторов

речевой поведение синтез

В настоящее время наши общества вкладывают гигантское количество денег, know-how и усилий исследователей для того, чтобы решить проблемы автоматического распознавания и синтеза речи. Эта работа стимулируется практическими интересами, и исследования концентрируются на оптимальном решении задачи создания речевых технологий.

В аналитическом плане проблему "современные речевые технологии" разумно разделить на три составляющих. Первая - речевая наука, т.е. весь комплекс знаний о речевом сигнале, процессах речеобразования и речевосприятия, которыми мы владеем. Сюда же следует отнести знания по предполагаемым моделям речевого сигнала и методам обработки таковых сигналов. Вторая составляющая - собственно речевые технологии, т.е. достигнутый уровень аппаратно-программных решений обработки речевых сигналов, предлагаемых для решения практических (прикладных) задач. И, наконец, третья составляющая - собственно практические системы, т.е. системы реального применения. Связь между указанными составляющими можно представить в виде цепочки: речевая наука -> речевые технологии -> практические системы.

Есть смысл начать с последнего звена, систем практического назначения. Их, вероятно, можно разделить на три класса:

Системы военного или другого специального применения. Чаще всего стоимость таких систем не имеет значения, а функциональные свойства ограничены и жестко определены.

Коммерческие системы. Стоимость таких систем должна быть оправдана прибылью прямой или косвенной, получаемой от их применения, или другими выгодами.

"Демонстрационные" системы. Это специальный жанр. Внешне они носят вид систем практического применения, но не предполагают получения прибыли, а служат для демонстрации уровня достижений фирмы. Они могут покупаться, но не для практического использования, а на "пробу", чтобы посмотреть, что из этого можно сделать.

Следует сразу отметить, что речевые системы не являются самостоятельными. Они всегда встроены в некоторую "большую" систему, которая диктует условия использования речевой системы.

Как следствие для практических систем трудно определить их эффективность. Этого нельзя сделать через процент неправильного распознавания речевых единиц:

Цена ошибки может быть разная.

Понятие ошибки может для системы практического применения вообще исчезнуть.

Теперь о связке "речевые технологии -> практические системы". Нам кажется, что в настоящий момент наступил новый этап в развитии использования речевых систем. Произошла смена парадигмы. Вместо пассивного использования речевых систем "россыпью" (распознавание отдельно, синтез отдельно, идентификация отдельно) на первый план выдвигаются задачи интерактивного речевого взаимодействия человека с различными системами. Предыдущий этап попыток практического использования речевых систем следует признать явно неудачным. Предполагавшийся бурный рост по прогнозам 15-летней и 10-летней давность явно не произошел. В чем же причина? Основная причина в отсутствии четкой формулировки прикладных задач. Можно решить технологическую задачу. Например, распознать несколько десятков тысяч слов. Однако область использования такой системы не ясна. Вторая причина, может быть и не столь заметная, это попытка искать решения практических задач "под фонарем". А именно, решение каких-либо задач для РС. Однако РС заранее был приспособлен для зрительно-мануального взаимодействия, и попытки вклиниться в эту систему с речью были обречены на провал.

Конечно, были попытки выйти на решения некоторых прикладных задач локального типа, где все требования четко оговорены. Например, голосовой номеронабиратель телефона. Здесь сразу видно отличие постановки задачи от классически принятой среди речевиков: нет большого словаря, но зато есть помехи и есть наивный пользователь. Т.е. требуется решать совершенно другие задачи, чем те, которые ставили на РС.

Представляется, что в настоящее время речевые технологии развиваются, имея в виду две основных прикладных задачи:

Телекоммуникационный интерактивный сервис.

Мультимедийные системы.

И, возможно, третья задача - речевой перевод.

Среди более или менее ясных задач более локального типа:

идентификация и верификация говорящего (в частности для телекоммуникационного сервиса);

контроль психофизиологического состояния (стресс, опьянение);

компрессия (стандарты на MELP 2400, 1200 Baud, возможность 500-600 Baud).

Теперь о взаимоотношении “речевая наука -> речевые технологии”. Очевидно, что по естественным причинам речевые технологии более инертны, чем речевая наука. И в ситуации, когда основной задачей становится интерактивное взаимодействие человека и машины, возрастающий разрыв между принятыми в речевых технологиях моделями и моделями речевого поведения человека (что, собственно, и изучается речевой науке) становятся опасными.

Наиболее популярным (и наиболее эффективным) в автоматическом распознавании речи является использование марковских моделей. Перспективность применения этого метода представляется весьма сомнительным. Прежде всего, речь отчетливо не является структурой, подчиняющейся вероятностным законам. (По крайней мере, только вероятностным.) Во-вторых, опыт исследования компилятивного синтеза речи с помощью аллофонов или дифонов говорит о том, что количество структурных единиц речи, обладающих физическим и перцептивным единством, составляет многие сотни. Это заметно превышает количество таковых элементов, предполагаемых в современных марковских моделях речи. Почему же марковские модели столь эффективны при распознавании речи? Причина в достаточно мощном (следовательно, и громоздком) вычислительном аппарате. Здесь можно процитировать Е.Вигнера, который говорит об эффективности математики: "Мы похожи на человека со связкой ключей, который, пытаясь открывать одну дверь за другой, всегда вставляет правильный ключ с первой или второй попытки. Это заставляет его сомневаться относительно однозначного соответствия между ключами и замками. Невероятная эффективность математики в естественных науках есть нечто граничащее с мистикой, ибо никакого рационального объяснения этому факту нет".

Следует напомнить хорошо известный в истории науки пример. Геоцентрическая модель Птолемея математически достаточно хорошо все описывала, но потребовался переход к Коперниковской гелиоцентрической модели, чтобы математическое описание стало простым, вследствие прямого соответствия физической сути явления.

Еще раз повторим, что наиболее активно и успешно используемый в автоматическом распознавании метод на основе марковской модели носит статистический характер, что явно не соответствует механизму речевого поведения человека. Можно возразить, что указанный метод все-таки решает задачу. Однако есть вероятность, что на каком-то уровне метод станет не работоспособным. Кроме того, он достаточно громоздок.

С теоретической точки зрения более интересным представляется анализ речевых процессов у человека. Близость систем автоматической обработки речи к организации обработки речи у человека представляется критической. Математические модели обработки речевой информации показали свою ограниченность и не позволяют решить сложные, но решаемые легко человеком проблемы, связанные с распознаванием слитной речи без подстройки под диктора.

В свою очередь следует указать, что наши знания о процессах восприятия речи, распознавания речевых элементов, организации продуцирования речи, которые были бы полезны для оптимизации технических систем, довольно ограничены. Можно сказать даже, они в значительной степени ошибочны, и, более того, мы не знаем, в чем они ошибочны. Научные исследования, нацеленные на изучение речевого поведения, часто не могут быть переведены в вид моделей, доступных для компьютерного моделирования и дальнейшей их проверки. Это приводит в дальнейшем к невозможности их использования в речевых технологиях. Вследствие этого, в последние годы речевые исследования и речевые технологии развиваются в значительной степени независимо. К сожалению, последние успехи в области речевых технологий используют незначительную часть наших знаний о речевом поведении человека, и развитие речевых технологий мало что добавляет к нашим знаниям о процессах обработки речевой информации у человека.

Мы считаем, что знания о речевом поведении человека могут быть полезны для построения систем автоматического понимания и синтеза речи по следующим причинам:

Наши знания и результаты исследований в области речевого поведения человека являются важным, но пока слабо используемым источником прогресса в области автоматического распознавания и синтеза речи;

Необходимо учесть тот факт, что перспективным направлением практического использования систем распознавания и синтеза является их взаимодействие с человеком.

Известны многочисленные попытки использовать наши знания о структуре периферии слуховой системы для построения системы первичного анализа при автоматическом распознавании речи. При этом предполагалось, что это должно значительно повысить надежность и помехозащищенность таких систем.

К сожалению, проверка этого предположения с использованием нескольких моделей периферии в стандартных САРР не только не выявила "ошеломляющего выигрыша", но в ряде случаев продемонстрировала ухудшение распознавания. Эта неудача, по-видимому, не определяется некоторым расхождением характеристик использованных моделей с биологическим прототипом. Возможны несколько ее объяснений: 1 - преимущества периферического слухового описания могут быть оценены только в общей модели восприятия речи, включающей центральные уровни обработки, а САРР, принципы анализа в которых иные, чем в слуховой системе, неадекватны для этой цели; 2 - периферический анализатор не является идеальным с точки зрения анализа речи, поскольку он сформировался для выполнения других задач задолго до появления речи, и преимущества слухового восприятия в целом обусловлены центральными уровнями обработки, которые компенсируют, в частности, и определенные недостатки периферического анализа. Очевидно, что оба объяснения требуют проверки с использованием модели центральной обработки, однако, на сегодня отсутствует не только такая модель, но даже четкие представления о характере преобразований в центральных отделах.

Поскольку в реальных условиях восприятие происходит в присутствии постоянных помех, то помехоустойчивость должна быть одним из основных свойств системы речевосприятия, также как и любой другой перцептивной системы. Для обеспечения этой способности в процессе эволюции сформировался ряд механизмов. Можно сказать, что все развитие слуховой системы в значительной степени определялось задачей обеспечения помехоустойчивости. Большая часть этих механизмов сформировалась для задач обнаружения и локализации звука еще до появления речевой коммуникации, но успешно используется и при восприятии речи.

Защита от помех большой интенсивности, а также от маскировки собственным голосом при восприятии внешней речи во время речевоспроизведения реализуется с помощью стременной мышцы среднего уха, сокращение которой увеличивает жесткость цепи слуховых косточек, что уменьшает проводимую ими энергию (так называемый акустический рефлекс).

Определенную роль в выделении речи из шума играет бинауральное взаимодействие (взаимодействие правого и левого каналов слуховой системы), приводящее к снижению порогов обнаружения (до 15 дБ) и повышения разборчивости (до 6 дБ) речи.

Для элементов слуховой системы характерна также кратковременная адаптация, проявляющаяся в уменьшении реакции в течение первых 50-100 мс действия стимула, что способствует подчеркиванию его переднего фронта и подавлению реакции в перерывах между сигналами.

Принципиальное значение для обеспечения помехоустойчивости восприятия, по нашему мнению, имеет многоканальная организация слухового анализатора, в основе которой лежит деление на каналы по признаку частотных диапазонов. Пространственная упорядоченность нейронов, соответствующая распределению резонансных частот на базилярной мембране, характерна для всех уровней слуховой системы. Она является не только способом кодирования информации о частоте сигнала, но, прежде всего, служит основой для выделения локальных по спектру особенностей сигнала, отражающихся в определенных частотных каналах. Это при наличии большого числа каналов, содержащих элементы с различными свойствами (порогами и типами реакции, постоянной времени, характеристическими частотами, динамическим и частотным диапазонами реакции и др.) обеспечивает детальное представление сигнала в слуховой системе.

Существование же в каждом канале элементов с различными свойствами обеспечивает способность выделения различных признаков стимулов. Так, наличие быстро и медленно адаптирующихся элементов дает возможность выделять соответственно стационарные и изменяющиеся во времени отрезки сигнала. Все это позволяет при маскировке одних признаков сигнала (или неэффективности какого-либо способа обработки) распознавать сигнал с помощью других его признаков (или способов обработки), устойчивых в данных условиях. Примером решения одной задачи несколькими способами может служить обнаружение изменений частоты основного тона гласного, которое может осуществляться посредством оценки изменений 1-ой гармоники или других более мощных гармоник, а также по изменению средней спектральной огибающей сигнала.

Анализ современных данных позволяет предположить, что обработка речи в левом полушарии осуществляется преимущественно последовательно, т.е. распознаванию смысла сообщения предшествует процесс выделения временных составляющих сигнала, соответствующих лингвистическим единицам (фонемам, слогам), определение характеристик и идентификация этих составляющих. Правое полушарие использует преимущественно целостный способ обработки, при котором поступающие сигналы сопоставляются с хранящимися в памяти эталонами акустической картины целых слов.

Роль правого полушария возрастает при восприятии речевых сигналов в помехах, что, вероятно, объясняется, во-первых, увеличением участия механизма вероятностного прогнозирования, во-вторых, тем, что признаки, на которых предположительно базируется целостный способ обработки (мелодика, ритмика) является наиболее помехоустойчивым. Кроме того, шум, осложняя процесс обработки сигналов, приводит к возрастанию нагрузки на элементы анализирующей системы и, соответственно, их утомлению. Естественно, наличие второго параллельного канала (полушария), выполняющего часть обработки, увеличивает помехоустойчивость всей системы. И еще раз напомним, что правое полушарие не обладает способностью делить речевое сообщение на элементы, подобные фонемам.

Мы хотели бы указать дополнительно на некоторые особенности восприятия речи человеком, о которых обычно не вспоминают или даже о них не знают.

Прежде всего, это отдельный от общей слуховой системы механизм восприятия речи. На рис. показана обычно предполагаемая структура обработки речевого сигнала в слуховой системе. На рис. показана структура, скорее всего, реализуемая человеком.

В пользу такой модели говорит целый ряд экспериментальных фактов.

Дихотическое восприятие синтезированных речевых слогов.

Соответствующий эксперимент выглядит следующим образом. Испытуемому предъявляются синтетические слоги, обладающие структурой представленной на рисунке. Соответствующие синтезированные звуки воспринимаются как чисто речевые слоги без примеси какого-либо неречевого звука. Предъявленные отдельно переходные участки третьей форманты воспринимаются как неречевые звуки. При одновременном предъявлении переходных участков и стационарных составляющих при постепенном увеличении интенсивности переходных участков испытуемый начинает слышать на фоне речевого слога неречевую составляющую. Такой эксперимент отчетливо говорит, во-первых, о раздельности речевой и неречевой составляющих слуховой системы и, во-вторых, о функциональной блокировке речеслуховой системой механизмов восприятия неречевых составляющих звука.

Врожденная способность младенцев отличать речь от неречи: уменьшение б-ритма на энцефалограмме, снимаемой с левого полушария при подаче речевого сигнала.

Наличие способности младенцев различать речевые признаки до овладения речью. При этом способность различать некоторые признаки, которые не используются в данном конкретном языке, исчезает по мере овладения речью.

Наличие отдельного речевого канала в значительной степени объясняет cocktail-party эффект.

Следует указать еще на одну особенность восприятия речи человеком, которая хорошо известна исследователям, работающим в области техники связи, но абсолютно не учитываемая при автоматическом распознавании речи. Речевой сигнал достаточно хорошо воспринимается человеком даже в очень узкой полосе частот, причем расположенной в любой части речевого диапазона. Существует мера разборчивости, обладающая свойством аддитивности при расширении частотного диапазона: индекс артикуляции или формантная разборчивость. Такое свойство речевого сигнала и речеслуховой системы совершенно не соответствует механизмам обработки речи, принятым в системах автоматического распознавания. На рисунке показано, как индекс артикуляции (формантная разборчивость) зависит от ширины полосы. В нижней части рисунка показана связь слоговой и словесной разборчивости с формантной разборчивостью. Видно, что даже при очень узкой полосе пропускания и расположенной в довольно произвольной части спектра разборчивость речи остается на уровне, недоступном для ныне существующих систем автоматического распознавания речи.

Размещено на Allbest.ru


Подобные документы

  • Коммуникативно-прагматический аспект речевых актов admonishing и rebuking, роль в речевом общении. Изучение особенностей эксплицитных способов выражения оценочного значения в речевых актах, зависимости вербальных способов выражения от иллокутивной цели.

    дипломная работа [100,1 K], добавлен 11.10.2014

  • Рассмотрение особенностей комплимента в теории речевых актов и определение их места в этикете и речевом поведении коммуникантов. Выявление основных тематических групп комплиментов, адресатов и адресантов, их интенции в английской лингвокультуре.

    курсовая работа [33,6 K], добавлен 12.10.2014

  • Развитие риторической теории в современных условиях. Сущность речевого события, дискурса. Анализ основных понятий риторики и лингвопрагматики, использующихся в речевом поведении человека в процессе общения, изложенных в главах книги А.К. Михальской.

    реферат [22,8 K], добавлен 21.03.2011

  • Проблема понимания речи. Роль слова в понимании текста. Различные подходы к проблеме понимания текста и моделированию понимания в психолингвистике. Концепция специфики индивидуального лексикона. Акцентирование внимания на синтаксической проблематике.

    реферат [26,6 K], добавлен 07.02.2011

  • Характеристика лексических, морфологических, синтаксических, стилистических и коммуникативных ошибок. Анализ конкретных речевых материалов с точки зрения орфографии и грамматики. Изучение основных нарушений коммуникативных норм: неуважение, грубость.

    контрольная работа [37,8 K], добавлен 29.01.2010

  • Ретрактивные речевые акты сквозь призму прагматического направления лингвистики. Классификация иллокутивных актов. Интерактивный подход к рассмотрению и классификации речевых актов. Ретрактивные речевые акты с позиций теории коммуникативных неудач.

    дипломная работа [111,8 K], добавлен 07.03.2011

  • Ортология - наука культуры речи. Три составляющих компонента: нормативный, коммуникативный и этический. Использование коммуникативных качеств в речевом взаимодействии. Фонетические и орфоэпические нормы русского языка. Совокупность правил устной речи.

    контрольная работа [27,5 K], добавлен 22.04.2009

  • Исследование общих сведений о грамматическом строе. Изучение особенностей грамматики синтетических языков. Характеристика закономерностей построения правильных осмысленных речевых отрезков. Падежи и склонения латинского языка. Окончания существительных.

    контрольная работа [28,2 K], добавлен 17.01.2013

  • Общая характеристика форм речи. Сущность доказательства. Ораторское искусство. Эвристическая риторика. Логика речи. Стилистические приёмы ораторской речи. Лексические приёмы ораторской речи.

    реферат [27,9 K], добавлен 10.09.2007

  • Состояние культуры речи у представителей СМИ. Классификация речевых, стилистических и орфоэпических ошибок, звучащих в эфире. Анализ речевых фрагментов устной речи теле- и радиоведущих, её соответствие современным орфоэпическим и акцентологическим нормам.

    курсовая работа [74,5 K], добавлен 01.07.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.