Автоматическое определение частоты тона при помощи линейной комбинации различных методов
Процедуры точного автоматического определения частоты основного тона на материале четырех дикторов. Определение ЧОТ при помощи линейной комбинации спектральных, автокорреляционных и осциллографических методов. Определение участков и границ ларингализации.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | статья |
Язык | русский |
Дата добавления | 26.03.2020 |
Размер файла | 34,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.Allbest.Ru/
Размещено на http://www.Allbest.Ru/
Размещено на http://www.Allbest.Ru/
Автоматическое определение частоты тона при помощи линейной комбинации различных методов
Д.А. Кочаров
Россия, Санкт-Петербург
Введение
При решении многих задач разработчикам необходимо применять процедуры точного автоматического определения частоты основного тона (далее - ЧОТ). Несмотря на то, что эту задачу начали решать еще в 1960-х годах, она до сих пор остается актуальной. Знание точных границ периодов ЧОТ является критичным, например, для правильной модификации речевого сигнала в системах автоматического синтеза речи по тексту [1].
В данной работе предлагается определять ЧОТ при помощи линейной комбинации различных спектральных, автокорреляционных и осциллографических методов. Коэффициенты линейной комбинации вычислялись автоматически в процессе обучения системы. В статье описаны применявшиеся алгоритмы и результаты, полученные на материале четырех дикторов, у которых исследовалось по одному часу речи.
1. Определение частоты основного тона
В работе использовалась линейная комбинация шести оценок ЧОТ, полученных различными методами. Эти методы можно разделить на основные и вспомогательные:
основные алгоритмы:
1) автокорреляционный метод;
2) анализ через синтез;
3) спектральный анализ;
вспомогательные алгоритмы:
4) вычисление отношения длин соседних периодов;
5) вычисление корреляции соседних периодов;
6) определение энергии пиков сигнала, перед которыми находятся переходы через ноль.
Для унификации решений о возможных точках нахождения границ периодов ЧОТ было решено, что границы периодов ЧОТ могут находиться только на переходах речевого сигнала через ноль от отрицательного значения к положительному. Поэтому в качестве потенциальных значений ЧОТ принимались только те частоты, чьи периоды равны расстоянию от начальной точки до точек переходов речевого сигнала через ноль, находящихся в диапазоне возможных периодов ЧОТ. Вследствие этого решения речевой сигнал предварительно нормализовался так, чтобы он в общем стал симметричным относительно нуля. Это производилось вычитанием из каждого значения сигнала среднего арифметического сигнала.
Для уменьшения потенциальных точек границ периодов ЧОТ речевой сигнал перед обработкой и выделением акустических признаков фильтровался. После определения границ периодов ЧОТ в фильтрованном сигнале определялись границы периодов в не фильтрованном сигнале: брались ближайшие левые точки перехода нефильтрованного речевого сигнала через ноль к местам границ периодов в фильтрованном сигнале.
Для получения автокорреляционной оценки ЧОТ использовался стандартный алгоритм [2]. Акустической характеристикой является отношение значения автокорреляционной функции речевого сигнала в интересующих нас точках и ее значения в начале окна обработки. Чем выше значение характеристики, тем более вероятно, что данная точка является границей периода ЧОТ.
1.1 Метод анализа через синтез
Общая схема определения ЧОТ методом анализа через синтез описана в диссертации Стилиану [3] и выглядит следующим образом.
Вначале определяется ряд потенциальных значений ЧОТ. Для каждой частоты вычисляются ее гармоники -- частоты, кратные ЧОТ. Далее генерируется ряд сигналов, состоящих из частот-кандидатов и соответствующих им гармоник. Последовательно вычисляется разница между анализируемым сигналом и синтезированными сигналами. Частота, порождающая наиболее близкий к оригиналу сигнал, определяется как ЧОТ.
Использованный в данном исследовании алгоритм отличается от описанной выше схемы. Основное отличие заключается в том, что генерируется не сам сигнал, а его спектр. А сравнение сигналов происходит в частотной области, а не временной. Для вычисления разницы между сигналами вычисляется сумма Евклидовых расстояний между гармониками сгенерированного сигнала и соответствующими им частотами исследуемого сигнала.
1.2 Спектральная оценка ЧОТ
Спектральная оценка ЧОТ основана на предположении, что ЧОТ является первым, начиная с нуля, интенсивным пиком в частотной области. Естественно, встает вопрос, насколько интенсивным должен быть такой пик, чтобы с одной стороны отсечь интенсивные субгармоники ЧОТ, а с другой -- не определить в качестве ЧОТ ее первую или вторую гармонику. Здесь это решается за счет настраиваемых параметров. Идея метода заключается в том, что ищется первый локальный максимум в частотной области.
Спектр речевого сигнала получается при помощи быстрого преобразования Фурье (далее -- БПФ). Длина анализируемого участка речевого сигнала равна максимальной длине периода. Окно анализа БПФ равно 2048 отсчетам. Длина анализируемого участка речевого сигнала меньше окна анализа БПФ, поэтому сигнал дополняется нулями до необходимой длины.
Степень интенсивности определяется количеством соседних с локальным максимумом отсчетов -- таких, что они меньше этого максимума. Значение числа отсчетов является параметром, отвечающим за достаточную интенсивность первого локального максимума. Таким образом, в качестве спектральной оценки ЧОТ выступает первый отсчет M такой, что:
M > {M - N/2 … M + N/2}, (1)
где N -- необходимое количество отсчетов, меньших M.
По результатам проведенных экспериментов наилучшие результаты были получены при использовании N = 10.
Акустической характеристикой, основанной на спектральной оценке ЧОТ, является расстояние между периодом возможной ЧОТ и M.
1.3 Вспомогательные методы
Эти методы применялись не для оценки ЧОТ, а для корректировки результатов, полученных при помощи вышеперечисленных методов.
Вычисление отношения длин соседних периодов и корреляции соседних периодов производилось исходя из предположения, что соседние периоды основного тона не должны сильно отличаться друг от друга как по длине, так и по внутренней структуре. Сравниваются предыдущий период ЧОТ и участки речевого сигнала между началом текущего периода ЧОТ и его возможными правыми границами. Полученные значения используются в линейной комбинации методов и влияют на конечный результат. Так как при определении первого периода ЧОТ в озвонченном участке речевого сигнала нет предыдущего периода ЧОТ, то значения этих характеристик для всех потенциальных правых границ периода ЧОТ устанавливаются равными 1, поэтому они не влияют на окончательное принятие решения.
Определение энергии пиков сигнала, перед которым находится переход через ноль, основано на предположении, что чаще всего первый пик в периоде ЧОТ имеет максимальную энергию. Для нормализации полученной энергии ее значение делилось на количество отсчетов в этом пике.
1.4 Линейная комбинация методов
Для вычисления итоговой оценки ЧОТ используется линейная комбинация логарифмов полученных величин Mi:
(2)
где I - количество комбинируемых характеристик (в данном случае I = 6).
Оптимальные значения коэффициентов были получены экспериментальным путем и имеют следующие значения:
a1 = 1 (автокорреляционный метод);
a2 = 1 (анализ через синтез);
a3 = 3 (спектральный анализ);
a4 = 2 (отношение длин соседних периодов);
a5 = 1 (корреляция соседних периодов);
a6 = 1 (энергии пиков сигнала).
Отсчет сигнала, получивший максимальную оценку L, считается правой границей текущего периода ЧОТ и левой границей следующего.
автоматический частота основной тон диктор
2. Результаты экспериментов
Полученные в ходе экспериментов результаты можно увидеть в таблице.
Таблица
Результаты определения ЧОТ в речи отдельных дикторов
В целом результаты можно считать успешными. Выбивается только третий диктор, у которого плохие результаты связаны не с определением ЧОТ, а с переходом от фильтрованного сигнала к нефильтрованному.
Полученные результаты были проанализированы. На основе этого анализа можно выделить 4 группы ошибок:
1) 40% ошибочных меток приходится на участки речевого сигнала, где в речевом сигнале нет основного тона
2) 40% ошибок появляется при неправильной постановке меток границ периодов ЧОТ в нефильтрованном сигнале, тогда как в фильтрованном сигнале они стоят верно;
3) 15% неправильного определения ЧОТ: то, что определяется как ЧОТ, на самом деле является субгармоникой ЧОТ;
4) 5% остальные ошибки.
Первый тип ошибок связан с неправильным определением звонких участков или с недостаточно точным определением их границ.
Второй тип ошибок связан с ошибками переноса границ периодов ЧОТ из фильтрованного сигнала в нефильтрованный.
Третий тип ошибок предсказуем, и сейчас разрабатываются средства борьбы с такими ошибками.
В четвертую категорию попали все остальные виды ошибок, причина которых непонятна. Количество таких ошибок очень мало, и если удастся эффективно решить первые три проблемы, то ЧОТ и ее периоды будут определяться практически идеально, так как на эту категорию приходится менее 0,5% всех ошибок.
Заключение
Полученные результаты свидетельствуют об эффективности предложенного способа определения ЧОТ и границ ее периодов. Анализ ошибок позволил выявить три категории, которые покрывают 95% всех ошибок. Дальнейшее развитие системы автоматического определения ЧОТ будет направлено на решение проблем, вследствие которых появляются эти ошибки. Предполагаются следующие направления работы:
- более точное определение озвонченных участков;
- определение начала первого и последнего периода озвонченного участка речевого сигнала;
- определение субгармоник ЧОТ;
- определение участков ларингализации и границ ларингализованных периодов.
Примечания
1. Работа выполнялась в рамках проекта «Разработка и реализация в виде программного обеспечения технологии синтеза речи на русском языке с учетом синтаксического и семантического анализа русского текста с высоким качеством звучания».
2. Rabiner L.R. On the Use of Autocorrelation Analysis for Pitch Detection // IEEE Trans. on Acoustics, Speech, and Signal Analysis. 1977. Feb.Vol. ASSP-25. No. 1. P. 24-33.
3. Stylianou Y. Harmonic plus Noise Models for Speech, Combined with Statistical Methods, for Speech and Speaker Modification: PhD thesis. S. l., 1996.
Размещено на allbest.Ru
Подобные документы
Структурные схемы гомоморфной обработки и анализа речевых сигналов. Комплексный кепстр речи. Компонент речевого сигнала. Период основного тона и частоты формант. Модуль передаточной функции речевого тракта. Оценивание основного тона на основе кепстра.
реферат [297,1 K], добавлен 19.11.2008Структурная схема микропроцессорного устройства для определения частоты сигнала. Выбор микроконтроллера, описание алгоритма нахождения частоты. Алгоритм работы программы управления микропроцессорным устройством. Программа работы микропроцессора.
курсовая работа [605,7 K], добавлен 24.11.2014Нелинейные системы, описываемые нелинейными дифференциальными уравнениями. Методы анализа нелинейных систем: кусочно-линейной аппроксимации, гармонической линеаризации, фазовой плоскости, статистической линеаризации. Использование комбинации методов.
реферат [230,8 K], добавлен 21.01.2009Структура замкнутой линейной непрерывной системы автоматического управления. Анализ передаточной функции системы с обратной связью. Исследование линейной импульсной, линейной непрерывной и нелинейной непрерывной систем автоматического управления.
контрольная работа [1,6 M], добавлен 16.01.2011Определение передаточных функций элементов системы автоматического регулирования (САР) частоты вращения вала двигателя постоянного тока. Оценка устойчивости и стабилизация разомкнутого контура САР. Анализ изменения коэффициента усиления усилителя.
курсовая работа [2,3 M], добавлен 13.07.2015Использование статической модели системы автоподстройки промежуточной и средней частоты для поддержания ее равенства. Вид дискриминационной характеристики, ее графическое и алгебраическое выражение. Устойчивость линейной системы авторегулирования.
реферат [655,0 K], добавлен 18.03.2011Понятие и назначение усилителя низкой частоты. Разработка и расчет принципиальной схемы. Проектирование усилителя низкой частоты, состоящего из двух каскадов и RC-цепочки связи. Анализ работы схемы при помощи программы Electronics Workbench Version 5.12.
курсовая работа [1,0 M], добавлен 27.08.2010Расчет коэффициента усиления системы автоматического управления (САУ). Определение передаточной функции исходной САУ, проверка на устойчивость и моделирование переходных характеристик. Построение частотных характеристик эквивалентной разомкнутой САУ.
курсовая работа [1,0 M], добавлен 16.04.2014Общие сведения об усилителях звуковой частоты. Электрический расчет схемы прибора. Разработка узлов радиоэлектронной аппаратуры. Определение номиналов пассивных и активных элементов схемы усилителя низкой частоты, которые обеспечивают работу устройства.
курсовая работа [355,0 K], добавлен 13.10.2017Модели частичного описания дискретного канала. Система с РОС и непрерывной передачей информации (РОС-нп). Выбор оптимальной длины кодовой комбинации при использовании циклического кода в системе с РОС. Длина кодовой комбинации.
курсовая работа [664,4 K], добавлен 26.01.2007