Система голосового перекладу мови в реальному часі
Проектування системи для розпізнавання людської мови і отримання синхронного перекладу. Побудова діаграм варіантів використання, аналізу і послідовності класів. Отримання звукового і відеосигналу, розпізнавання голосу. Переклад тексту на потрібну мову.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | украинский |
Дата добавления | 19.07.2017 |
Размер файла | 184,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.Allbest.ru/
Міністерство освіти і науки, молоді та спорту України
Кременчуцький національний університет імені Михайла Остроградського
Факультет електроніки та комп'ютерної інженерії
Кафедра інформатики і вищої математики
КУРСОВА РОБОТА
З дисципліни «Проектування програмного забезпечення»
Тема:
Система голосового перекладу мови в реальному часі
Виконав Заїка А.В.
студент групи І-10-1
Керівник Т.А. Григорова
Кременчук - 2014
РЕФЕРАТ
Курсова робота містить 18 сторінок, 4 рисунки, 4 літературних джерела.
Метою проекту є створення системи для розпізнавання людської мови і отримання синхронного перекладу з однієї мови на іншу у вигляді голосового сигналу.
Об'єктом дослідження є процес проектування системи для розпізнавання людської мови і отримання синхронного перекладу з однієї мови на іншу у вигляді голосового сигналу.
У ході дослідження були використані наступні методи: аналіз літератури, вивчення систем розпізнавання, перекладу і синтезу мови. Курсовий проект складається з двох частин: У першій главі описується постановка задач, загальні відомості про систему управління, предметна область і архітектура системи. Індивідуальне завдання розроблено в другому розділі. Спроектовано діаграми варіантів використання і діаграма аналіза класів, діаграма послідовності та діаграма компонентів.
Проект розроблений за допомогою діаграм UML в середовищі Rational Rouse.
Rational rose, діаграма використання, діаграма аналіза класів, діаграма послідовності, діаграма компонентів.
ЗМІСТ
Вступ
1. Предметна область
2. Постановка задачі
3. Методи реалізації
4. Проектування системи
4.1 Діаграма варіантів використання
4.2. Діаграма аналізу класів
4.3 Діаграма послідовності класів
Висновок
Список використаної літератури
ВСТУП
Однією з проблем у спілкуванні між людьми є те, що вони говорять на різних мовах і не завжди розуміють один одного.
Враховуючи інтенсифікацію процесів інтеграції ресурсів людей, інтересів, культур проблема взаєморозуміння за рахунок різниці мов ставати все більш актуальною. Кожен з нас стикався з безліччю скрутних ситуацій. Спілкування в Skype з іноземними колегами або друзями важко при поганому знанні мови, поганий зір створює перешкоди для спілкування та порозуміння під час подорожей по світу, так як людині важко користуватися звичайним словником або перекладачем і виникає необхідність синхронного голосового перекладу з однієї мови на іншу в реальному режимі часу. У даній роботі представлений варіант вирішення подібних проблем.
Провідні фірми займаються вирішенням вище описаних проблем. На сьогоднішній день розроблені програми, які можуть перекладати текст з однієї мови на іншу, але більш популярними стають системи, де немає необхідності введення тексту. Досить вимови певного слова, після чого, утиліта відтворює його на потрібній для вас мові. Наприклад, iTranslate Voice ( Sonico GmbH ). Суть цієї програми для iPhone полягає в тому, що досить просто проговорити слово по-російськи і додаток відповість вам тим же, тільки на іншій мові, заздалегідь обраній. Існують і інші програми зі своїми особливостями, такі як: Google Translate (Google ), SayHi Translate ( SayHI, LLC ) і т.д.
Відтворення мови людини відкриває величезні переваги в спілкуванні. За допомогою такої системи відкриваються можливості спілкуватися в мережі інтернет на необхідній вам мові, записувати лекції або виступи, відтворювати їх на будь-якій наданій в системі мові вашим голосом. Додатки особливо актуальні для туристів і тих людей, яким часто доводиться подорожувати по різних країнах, а також відкривається можливість відчувати себе більш впевнено людям з обмеженими можливостями.
1. Предметна область
В епоху глобальних комунікацій і інтеграцій велику популярність придбали міжнародні конференції. Сьогодні проведення міжнародних конференцій - це необхідність в досягненні правильного і здорового співробітництва жителів планети, компаній різних країн і держав.
Жоден захід за участю іноземних гостей не обходиться без синхронного перекладу. Якщо на заході задіяні понад, ніж дві робочі мови, наприклад, російська, англійська, французька, арабська, то єдиний спосіб у досягненні розуміння - це синхронний переклад. Оренда обладнання для синхронного перекладу необхідна при організації міжнародних заходів.
Обладнання дозволяє виконувати переклад одночасно з промовою оратора, з відставанням в 2-3 секунди. Перекладач - синхроніст здійснює переклад в звукоізольованій кабіні, тим самим, не заважаючи аудиторії і оратору. Учасники заходу слухають переклад за допомогою приймачів синхронного перекладу і навушників, з можливістю вибору каналу своєї рідної мови для комфортного сприйняття інформації.
Синхронний переклад має значні переваги перед послідовним перекладом: оперативність, скорочення часу заходи, чіткість, точність перекладу, можливість відключення свого навушника слухачем (у разі, якщо він розуміє мову і вважає за краще оригінал). Для заходів за участю людей різних національностей синхронний переклад дозволяє одночасно переводити виступи на різні мови, синхроністи, перебуваючи у своїх кабінках, не заважають оточуючим.
Синхронний переклад може здійснюватися двома варіантами:
- переклад заздалегідь підготовленого тексту з можливими змінами мови оратора в ході виступу;
- без наявності попереднього тексту і підготовки синхроніста, безпосередньо по мірі надходження інформації.
Але зараз у всьому світі намагаються автоматизувати такі системи синхронного перекладу. Щоб можна було обходитись без участі людей.
Метою проекту є створення системи для розпізнавання людської мови і отримання синхронного перекладу з однієї мови на іншу у вигляді голосового сигналу.
Об'єктом дослідження є процес проектування системи для розпізнавання людської мови і отримання синхронного перекладу з однієї мови на іншу у вигляді голосового сигналу.
2. Постановка задачі
Для створення системи розпізнавання людської мови і отримання синхронного перекладу з однієї мови на іншу у вигляді голосового сигналу необхідно вирішити наступний ряд задач:
- Дослідження літературних джерел,
- Побудова діаграми варіантів використання,
- Побудова діаграми аналізу класів,
- Побудова діаграми послідовності класів,
- Отримання звукового сигналу,
- Отримання відеосигналу,
- Розпізнавання жестів,
- Розпізнавання голосу,
- Висновок голосового сигналу у вигляді тексту,
- Переклад тексту на потрібну мову,
- Синтез мови.
Системні вимоги для роботи системи розпізнавання людської мови і отримання синхронного перекладу з однієї мови на іншу у вигляді голосового сигналу:
Мінімальні системні вимоги:
Процесор: 50 MHz;
Оперативна пам'ять: 64 Mb RAM;
Вільне місце на HDD: 50 Mb;
Пристрої взаємодії з користувачем: клавіатура, мікрофон, веб-камера;
Інші пристрої: звукова карта, колонки.
Рекомендовані системні вимоги:
Процесор: 70 MHz;
Оперативна пам'ять: 128 Mb RAM;
Вільне місце на HDD: 50 Mb;
Пристрої взаємодії з користувачем: клавіатура, мікрофон, веб-камера;
Інші пристрої: звукова карта, колонки.
Програма у вигляді утиліти може працювати під операційною системою Windows XP, Windows 7, Windows 8. Потребує підключенні до Інтернету для коректної роботи, при цьому необхідно щоб мова говорить задовольняло ряду критеріїв
- Розбірливість мови;
- Природність ( натуральність ) мови.
У систему голосового перекладу може надходити голосовий сигнал або здійснюється введення текстової інформації з клавіатури. Так само передбачено розпізнавання жестів для людей з обмеженими можливостями. На виході системи є можливість отримати перекладений текст на екрані, отримати звукове відтворення стандартним голосом. Програма підтримує роботу з базою даних і здійснює переклад з російської на англійську і навпаки.
3. Методи реалізації
Для автоматичного розпізнавання мови можна використовувати бібліотеку Google Speech. Першочерговим завданням є запис звуку у форматі FLAC з частотою 8 кГц. Є можливість почати автоматичну запис при перевищенні рівня на якийсь поріг. Такий алгоритм позбавляє від необхідності натискати кнопки початку запису і зупинки. При відповідних настройках рівнів і кількості спрацьовувань програма відловлює факт наявності корисної складової з мікрофона, далі відбувається відправка в Google для розпізнавання і прийом відповіді. Записаний файл за допомогою бібліотеки Synapse відправляється в Google на розпізнавання.
Наступний етап роботи системи - це здійснення перекладу тексту на потрібну мову. Існує кілька методів перекладу тексту: послівний переклад (слова вихідного тексту перетворюються в слова переказного тексту); інтерлінгвістичний машинний переклад (вихідний текст трансформується в абстрактне уявлення, яке не залежить від мови); системи машинного перекладу, засновані на прикладах; статистичний машинний переклад (порівняння великих обсягів мовних пар). Враховуючи всі переваги і недоліки існуючих систем в роботі була використана система статистичного машинного перекладу, яка адекватно справляється з усіма видами лексики.
Перевагами статистичного машинного перекладу є:
* Швидка настройка;
* Легкість додавання нових напрямів перекладу;
* Гладкість перекладу.
Наступним завданням є синтез мови. Для того, щоб синтезоване мовлення звучала натурально, необхідно вирішити цілий комплекс завдань, пов'язаних як із забезпеченням природності голосу на рівні тембру, плавності звучання і інтонації, так і з правильною розстановкою наголосів, розшифровкою скорочень, чисел, абревіатур і спеціальних знаків.
Синтезатор мови складається з двох частин - аналізатор мови і синтезатор звуків мови. Синтезатор на основі параметрів, отриманих від аналізатора, синтезує звуки мови. Таким чином, стає можливим імітувати голоси. Аналізатор може бути автоматичним, або ж дані можуть бути підготовлені для введення в синтезатор вручну. Голосовим джерелом вважаються коливання повітря, вироблені голосовими зв'язками. Самим джерелом звуку є перша похідна за часом від об'ємної швидкості потоку. Деякі автори говорять, що додатково потрібно враховувати і другу і третю похідну. Коливання зв'язок відбуваються в обсязі, тому додатково розглядається поршневий джерело, який виходить в результаті вертикального зсуву зв'язок.
Структура ідеалізованої системи автоматичного синтезу мови складається з декількох блоків.
1) Визначення мови тексту (відбувається за допомогою особливого програмного комплексу, що надається зазвичай розробниками систем машинного перекладу. Все, що потрібно для визначення мови тексту - це ввести його в спеціальну форму, і натиснути кнопку « Визначити мову »).
2) Нормалізація тексту (здійснюється поділ введеного тексту на слова і решта послідовності символів. До символів належать, зокрема, знаки пунктуації та символи початку абзацу).
3) Лінгвістичний аналіз: синтаксичний, морфемний аналіз і т.д. (кожному слову тексту (кожної словоформи) необхідно приписати інформацію про його вимові, тобто перетворити на ланцюжок фонем або, інакше кажучи, створити його фонемну транскрипцію).
4) Формування просодичних характеристик (здійснюється трьома основними блоками, а саме: блоком розстановки синтагматичних кордонів (паузи), блоком приписування ритмічних і акцентних характеристик (тривалості та енергія), блоком приписування тональних характеристик (частота основного тону)).
* Фонемний транскриптор.
* Формування керуючої інформації.
* Отримання звукового сигналу.
Вона не описує ні одну з існуючих реально систем, але містить компоненти, які можна виявити в багатьох системах. Автори конкретних систем, незалежно від того, чи є ці системи вже комерційним продуктом або ще перебувають у стадії дослідної розробки, приділяють різне увагу окремим блокам і реалізують їх дуже по-різному, відповідно до практичних вимог.
Алгоритм методу аналізу і синтезу мови:
1. мовний сигнал надходить на вхід звукової карти комп'ютера, яка перетворює його в цифрову форму;
2. здійснюється сегментація мовного потоку з метою виділення елементарних мовних фрагментів і визначення їх параметрів: вокалізованості, розмітки на періоди основного тону вокалізованих фрагментів, параметрів спектра. Розмір і структура фрагментів залежить від завдань розв'язуваних синтезом;
3. елементарні мовні фрагменти об'єднують в звукову базу;
4. відповідно до структури синтезованої мовної послідовності здійснюється вибір фрагментів з бази і модифікація їх просодичних характеристик, в результаті чого формується звуковий сигнал;
5. сформований цифровий мовний сигнал відтворюється звуковою картою комп'ютера або зберігається у файл для подальшого зберігання та / або обробки.
синхронний переклад текст звуковий відеосигнал
4. Проектування системи
4.1 Діаграма варіантів використання
Для більш чіткого уявлення проектованого програмного забезпечення була побудована загальна модель діаграми варіантів використання.
Рисунок 1 - Діаграма варіантів використання
Згідно з постановкою завдання, на діаграмі (Малюнок 1) показаний один актор - це безпосередньо «Користувач». Заходячи в систему «Користувач» відразу стає доступним інтерфейс системи голосового перекладу мови в реальному режимі часу. У інтерфейсі є наявність вибору варіантів: «Запис жестів», «Запис звуку», «Введення тексту», «Редагування тексту».
«Запис жестів» - користувач за допомогою веб-камери записує жести.
«Запис звуку» - користувач за допомогою мікрофона записує пропозиції які він говорить. « Введення тексту » - користувач вводить текст який потрібно перекласти. «Редагування тексту » необхідно користувачу при неправильному введенні тексту.
Так само «Користувач» доступно «Відтворення» і «Відображення тексту». «Відтворення» - це синтез мови користувача вже перекладений на потрібну мову тексту.
Самій системі доступні наступні варіанти використання:
«Розпізнавання», «Переклад», «Відтворення» і «Відображення тексту».
«Розпізнавання» - система розпізнає слова в звуковому сигналі або жести на відео. «Переклад» - системі доступний переклад розпізнаного або введеного тексту.
4.2 Діаграма аналізу класів
Рисунок 2 -Діаграма аналізу класів
Controller - це головний клас, який керує всім процесом роботи системи і управляє формою програми, змінюючи її в залежності від обраних параметрів.
Main_form - це діалогове вікно, в якому користувач може обирати мову і метод введення даних в систему.
Obrabotka_text - це керуючий клас, який готує текст для подальшого його перекладу.
Recognition_audio - це керуючий клас, який обробляє звуковий сигнал, розпізнаючи людський голос і переводить його в текст.
Recognition_video - це керуючий клас, який обробляє відео сигнал, розпізнаючи жести і переводить їх у текстовий формат.
Translate - це керуючий клас, який отримує текст для перекладу, розбиває пропозиції на слова, слова на частини, окремі частини слів він відправляє на переклад в кожен клас, отримує частини слів, збирає слова, і пропозиції.
Morfolog_anal - це клас який зв'язуючись з базою даних визначає леми слів і виявляє морфологічні ознаки.
Lexical_categorixation - це клас який зв'язуючись з базою даних визначає контекст слова, позначки і уточнення.
Leks_transfer - це клас який зв'язуючись з базою даних шукає відповідні леми для перекладу.
Strukture_ transfer - це клас в якому відбувається узгодження слів.
Morfolog_generation - це клас в якому створюються словоформи переказного тексту.
Controller викликає Main_form, де користувач вибирає який вид інформації подаватиметься в систему, після чого в залежності від даних, вона подається в один з керуючих класів: Obrabotka_text,
Recognition_audio, Recognition_video. Після того як виконуються методи в цих класах, дані повертаються в Controller у вигляді тексту. При виборі параметрів, Main_form змінює свій вигляд. Translate отримує текст для перекладу, де розбиває пропозиції на слова, слова на частини, окремі частини слів він відправляє на переклад в кожен клас, отримує частини слів, збирає слова, і пропозиції. Після чого перекладений текст подається в Controller, де далі виводиться на Main_form і стає доступним користувачеві.
4.3 Діаграма послідовності класів
Діаграма послідовності для аудіо має наступні етапи роботи з об'єктами:
1. Користувач запускає головний клас controller.
Рисунок 3 - Діаграма послідовності для аудіо
Рисунок 4 - Діаграма кооперації для аудіо
2. Клас controller, в свою чергу, створює main_form і відображає її для введення даних.
3. Користувач вибирає вхідні дані.
4. Користувач вибирає мову введення і виведення.
5. Користувач вводить самі дані на main_form.
6. З main_form записані дані користувачем відправляються в клас controller.
7. Клас control перенаправляє дані, отримані з main_form в клас Recognition_video для обробки тексту.
8. Клас Recognition_video повертає оброблений текст в controller.
9. З класу controller текст відсилається в клас translate для перекладу.
10. У класі translate перекладається текст.
11. Перекладений текст повертається в клас controller.
12. controller передає текст для відображення на main_form.
13. При бажанні користувача текст відтворюється.
ВИСНОВОК
У роботі був представлений проект системи голосового перекладу мови в реальному часі. Система може розпізнавати людську мову російською та англійською мовою і отримати синхронний переклад з однієї мови на іншу у вигляді голосового сигналу. Так само система дозволяє розпізнавати мову жестів, який теж перекладає. У програмі реалізований введення слів і фраз як з клавіатури, так і прийом голосових повідомлень від користувача. Висновок результату здійснюється за бажанням користувача, або на екран пристрою, на якому знаходиться система голосового перекладу, або у вигляді звукового сигналу.
Умовою використання розробки є те, що програма залежить від підключення до мережі Інтернет, так як для розпізнавання голосу була обрана бібліотека Google Speech API.
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ
1. Джозеф Шмуллер. Освой самостоятельно UML 2 за 24 часа. Практическое руководство = Sams Teach Yourself UML in 24 Hours, Complete Starter Kit -- М.: Вильямс, 2005. -- 416 с.
2. Джон Хопкрофт, Раджив Мотвани, Джеффри Ульман. Введение в теорию автоматов, языков и вычислений = Introduction to Automata Theory, Languages, and Computation -- М.: Вильямс, 2002. -- 528 с.
3. Фаулер М., Скотт К. UML. Основы. -- Пер. с англ. -- СПб: Символ-Плюс, 2002. -- 192 с.
4. Основы открытого образования / Андреев А.А., Каплан С.Л., Краснова Г.А., Лобачев С.Л., Лупанов К.Ю., Поляков А.А., Скамницкий А.А., Солдаткин В.И.; Отв. ред. В.И. Солдаткин. - Т. 2. - Российский государственный институт открытого образования. - М.: НИИЦ РАО, 2002. - 680 с.
Размещено на Allbest.ru
Подобные документы
Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту.
курсовая работа [1,7 M], добавлен 19.05.2014Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання.
реферат [61,7 K], добавлен 23.12.2013Розробка моделі системи "Автомобільного магазину". Вивчення основи мови моделювання UML. Створення її для визначення, візуалізації, проектування й документування програмних систем. Використання діаграм кооперацій, послідовності, станів та класів.
курсовая работа [257,8 K], добавлен 10.12.2014Автоматизований та машинний види перекладу. Можливості подолання мовного бар’єру у спілкуванні. Існуючі класифікації систем машинного перекладу. Лінгвістичне дослідження міри автоматизованості перекладацької системи. Словник і синтаксис вхідної мови.
статья [23,5 K], добавлен 14.08.2017Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.
дипломная работа [291,0 K], добавлен 14.10.2010Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування.
дипломная работа [1,6 M], добавлен 02.07.2014Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію.
дипломная работа [182,5 K], добавлен 07.05.2012Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.
реферат [21,5 K], добавлен 19.02.2011Особливості автоматизованого перекладу іноземних мов. Розробка програми для перекладу слів та певних мовних конструкцій молодіжного сленгу на загальновживану мову. Опис структури файлів. Специфікація функцій програми, оцінка достовірності результатів.
курсовая работа [943,8 K], добавлен 15.03.2014Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних.
реферат [24,5 K], добавлен 19.11.2008