Система перевірки правопису та перекладу

Проблеми в інформаційній і перекладацькій діяльності. Історія розвитку систем машинного перекладу. Основні рівні подання мовної інформації: орфографічний, морфологічний, синтаксичний і семантичний. Програмне середовище обробки текстів природною мовою.

Рубрика Программирование, компьютеры и кибернетика
Вид реферат
Язык украинский
Дата добавления 26.08.2013
Размер файла 20,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Реферат

на тему:

„Система перевірки правопису та перекладу”

Розширення міжнародного обміну інформацією, виникнення нових форм міжнародних інформаційних контактів і співробітництва в сфері обміну документальною інформацією, а також нові перспективні форми обробки документів і нові форми самих документів, що виникають в міжнародній практиці, - все це ставить нові проблеми в інформаційній і перекладацькій діяльності. При цьому центральною проблемою стає застосування обчислювальної техніки не лише в системи пошуку інформації, але і в процеси перекладу, тобто впровадження систем машинного перекладу в інформаційне обслуговування спеціальних комунікацій.

Включення України в загальну світову сферу міжнародної комунікації - обов'язкова умова інтенсифікації розвитку науки і техніки, інтеграції нашої країни в річище загальноєвропейського і загальносвітового економічного і культурного розвитку, подолання кризових явищ в національній економіці України. Однією з істотних форм збагачення сфери міжнародної комунікації є переклад іноземної літератури і документації. Закономірності розвитку світової економічної системи показують, що інтенсифікація міжнародних комунікацій неможлива без розв'язання проблем машинного перекладу. Ця проблема поставлена на порядок денних достатньо давно (ще у 50-х рр. ХХ ст.), однак доступні системи машинного перекладу з'явилися в комп'ютерній техніці порівняно недавно (80-ті рр.), з того моменту і до нашого часу системи машинного перекладу постійно вдосконалювалися, з іншого боку, вимоги до кваліфікації кінцевого користувача і сукупна вартість володіння засобами машинного перекладу неухильно знижувалися. В цьому контексті поява текстового процесора Microsoft Word з вбудованими функціями перекладу іншомовних текстів є етапною подією в індустрії інформаційних технологій. Вперше система машинного перекладу інтегрується як допоміжна частина у найбільш популярну в світі (й в Україні) програму обробки текстових документів. В той же час питання, щодо обсягу функціональних можливостей вбудованих функцій перекладу іншомовних текстів в Word 2002 залишається відкритим. Отже, актуальність теми полягає у необхідності дослідження функціональних можливостей наявних на ринку систем машинного перекладу, з огляду на доцільність і необхідність їхнього практичного використання.

Перші системи машинного перекладу з'явилися ще у 50-х рр. ХХ ст. Однак обмежені можливості тогочасних комп'ютерів і недосконалість алгоритмів, що лежала в основі цих систем не дозволили їм вийти за стадію експериментальних розробок.

Розвиток апаратної частини обчислювальної техніки й удосконалення програмного забезпечення (зокрема високорівневих мов програмування) дозволили значно підвищити якість систем машинного перекладу (МП) і призвели наприкінці 70-х - на початку 80-х рр. до нової хвилі ентузіазму з приводу їх промислового і комерційного використання. Серед інших факторів цьому сприяли, з одного боку, такі яскраві свідчення можливості застосування МП для розв'язання реальних задач, як використання системи SYSTRAN для перекладу англійською мовою російської космічної документації в рамках програми радянсько-американського співробітництва “Аполлон - Союз”, а з іншого - активне включення в розробку систем МП японських комп'ютерних і перекладацьких фірм, котрі і зараз успішно освоюють дану область і все більш продуктивно конкурують з провідними фірмами - розробниками таких систем в США і Європі.

Розробка вітчизняних систем МП визначалася роботам по двох основних напрямках перекладу: послівного і глобального.

Історія розвитку систем МП в СРСР пов'язана з групою “Статистика мови”, що була створена на початку 70-х рр. в Ленінградському педінституті імені Герцена професором Р. Г. Піотровським. В 1976 р. цією групою була розроблена одна з перших в СРСР систем машинного перекладу. Трохи раніше цієї події, в 1974 р. почала самостійні пошуки група, очолювана учнем Р. Г. Піотровського В. В. Рожковим. Потім цією групою був створений електронний перекладач “Сарма”, який став прототипом системи Socrat. Ідеї Ленінградської школи виявилися напрочуд плідними і послужили основою для багатьох комерційних систем машинного перекладу - окрім Promt та Socrat на цих же принципах засновані, наприклад, системи Multis і Pars.

Всі ці системи, хоча і розроблялися самостійними групами, мають досить багато спільного, їх можна охарактеризувати як системи, що реалізують “послівний” переклад. Між тим, давно відомо, що текст не можна подати як просту сукупність слів, які мають той чи інший зміст. Левова доля сенсу міститься не в самих словах, а там, де вони вступають у відносини між собою. Наприклад, підводний човен - це не човен під водою. Ринок і базар - синоніми. Але птичий ринок та птичий базар - зовсім різні речі. Біляча клітка в технічному жаргоні не має нічого спільного ані з білкою, а ні з кліткою, це позначення короткозамкненого ротора електродвигуна. Це не ефектні виключення, за оцінкою Г. Г. Білоногова, що очолює колектив розробників МП RETRANS, в розвиненому мовному співтоваристві налічуються десятки, якщо не сотні мільйонів понять, а слів - всього біля мільйону. Отже, достатньо велика частина понять виражається фіксованою комбінацією слів - серед них і птичий базар, і біляча клітка (навіть переставити слова в такому словосполученні не можна - клітка біляча - це вже не технічний термін, а цінник в магазині). Наша мова знаходиться в більш жорстких рамках, ніж нам здається: можна сказати: їхав автобусом, але не можна сказати їхав велосипедом, увагу приділяють (чому-небудь) або звертають (на що-небудь), висновок роблять, перевагу віддають, роль грають, значення мають, перемогу здобувають і т. ін. Такі словосполучення в лінгвістиці називають стійкими словосполученнями.

Чи здатний комп'ютер навчитися подібним тонкощам, і якщо так, то як? Спроба дати відповідь на це питання і послужила розвитку другого напрямку в розробці систем МП. До нього насамперед належить лінгвістична школа. Це експериментальні системи ЕТАП і RETRANS.

Система МП ЕТАП розробляється в лабораторії комп'ютерної лінгвістики Інституту проблем передачі інформації (ІППІ РАН). Абревіатура ЕТАП, вказувала на “електротехнічний автоматичний переклад”. На протязі ряду років розробку очолював академік Ю. Д. Апресян (керівник авторського колективу “Нового великого англо-російського словника” - найбільш повного з існуючих на сьогодні англо-руських словників), а потім його учень, доктор філологічних наук І. М. Богуславський. Система заснована на лінгвістичній теорії “СЕНС - ТЕКСТ”, основоположником якої є російський вчений І. А. Мельчук, що проживає зараз у Канаді.

Згідно з цією теорією виділяються декілька рівнів подання мовної інформації: орфографічний, морфологічний, синтаксичний і семантичний. Якщо ж мова йде про машинний переклад, то інформація однією мовою повинна послідовно пройти ці стадії від введення вихідного тексту до отримання сенсу, зашифрованого за допомогою спеціальної семантичної мови. Потім процес йде у зворотному порядку: від семантичного рівня (сенсу) до орфографічного (конструювання готового тексту) мовою перекладу. Для цього необхідно пройти наступні етапи аналізу вихідного тексту: морфологічний аналіз, синтаксичний, семантичний, і в зворотному порядку такі ж етапи синтезу. Це складний процес. Так, наприклад, щоб правильно упоратися з синтаксичним аналізом речень, системі перекладу слід “мати уявлення” про те, які типи зв'язків з іншими словами характерні для того чи іншого слова. Так, про дієслово “купити” система повинна знати: купити може хтось що-небудь у кого-небудь за скільки-небудь і т.д.

Одиницею перекладу в цих системах вважається не окреме слово, а речення, з його синтаксичною структурою.

Інший підхід до глобального перекладу реалізований у системі RETRANS (автор концепції - професор Г. Г. Білоногов). Процес перекладу в цьому випадку складається з наступних основних стадій:

Перша стадія - аналіз вихідного тексту. На основі “локального семантико-синтаксичного аналізу” тексту розпізнаються фразеологічні одиниці: дієслівні сполучення, іменні словосполученні й інші відрізки тексту, для яких має сенс шукати перекладні еквіваленти в машинному словнику.

Друга стадія - нормалізація і формування пошукових образів. Пошуків образ - це нормалізоване уявлення текстової одиниці (для іменника - це називний відмінок однини, для дієслів - основа, що має спеціальний код, який характеризує тип словозміни і т.д.).

Третя стадія - пошук в словнику.

Нарешті, остання стадія - синтез вихідного тексту, котрій виконується на основі синтаксичного аналізу тексту-оригінала.

Серйозна проблема МП - багатозначність (полісемія). Поява неоднозначностей в тексті є природною, але вона відносно малоймовірна, якщо основною структурною одиницею тексту і словника є не слово, а фраза або словосполучення: багатозначних фраз і мовних зворотів набагато менше, ніж багатозначних слів. Взагалі, чим менше відрізок тексту, тим менш ймовірною є полісемія. Багатозначних коренів і слів в мові більше, ніж багатозначних слів, котрих, в свою чергу значно більше, ніж багатозначних словосполучень.

Додатковим засобом розв'язання проблем, пов'язаних з багатозначністю є тематичні словники, де для багатозначного слова або фрази вказується пріоритетний перекладний еквівалент, специфічний для даної предметної області. Методика застосування додаткових словників істотно розрізняється в різних програмних продуктів. Стандартні засоби перекладу в Word передбачають можливість підключення словників з Інтернету (для зареєстрованих користувачів), деякі системи не дозволяють користувачу обирати словник самостійно (додаткові словники обираються автоматично на основі ключових слів з тексту, які програма інтерпретує як належні до певної предметної області). Такий алгоритм реалізований у системі Pragma компанії Trident Software. Більшість представлених для Word комерційних систем машинного перекладу реалізують алгоритми глобального перекладу, стандартні ж засоби Word орієнтовані більшою мірою на технологію перекладу послівного. Слід однак зазначити, що конкретні програмні продукти як правило поєднують алгоритми різних видів, сполучають в різних пропорціях велику кількість інженерних ідей і рішень.

Історія розробки систем машинного перекладу показала, що традиційна лінгвістика, яка не ставила перед собою задач створення точних і одночасно вичерпних описів мов і майже не займалася проблемою відповідності між мовами, дуже мало займалася семантикою і навіть синтаксисом окремих мов, далека від потреб забезпечити розробки по системам МП готовими відомостями. “Складність виявилася не в тому, щоб формалізувати і “машинізувати” дещо відоме про мови, а в тому, щоб зрозуміти, якого роду інформація про мови необхідна в даному зв'язку, а потім навчитися добувати і описувати цю інформацію”. Тим самим велика доля відповідальності зі існування автоматичного перекладу виявилася покладеною на лінгвістику. З'ясувалося, що спочатку повинна бути проведена досить трудомістка лінгвістична робота з формалізованого опису мов, і тільки потім її результати можуть бути використані для побудови системи МП, в той же час МП - це та експериментально-прикладна галузь, де лінгвістичні теорії, описи, гіпотези і т.п. можуть проходити перевірку практикою.

Однією з головних особливостей сучасної технічної діяльності є системний підхід до об'єктів дослідження і проектування. В термін “система” вкладаються різні поняття, але у всіх випадках система являє собою підмножину взаємопов'язаних елементів, виділених з множини елементів будь-якої природи у відповідності з вимогами вирішуваної задачі. Система являє собою певну цілісність, що складається з взаємозалежних частин, кожна з яких робить свій внесок в характеристику цілого.

З функціональної точки зору будь-яке програмне середовище обробки текстів природною мовою (в тому числі і система МП) включає в себе:

- програмно-математичне забезпечення системи;

- лінгвістичне забезпечення системи;

- інформаційне забезпечення системи;

- технічне забезпечення системи;

- кадрове забезпечення системи.

Всі ці складові в комплексі забезпечують роботу системи. При відсутності якого-небудь компонента функціонування системи неможливе, при цьому різні види забезпечення системи повинні бути узгоджені один з одним. Тому представники різних наукових дисциплін повинні спільно обирати і розробляти як будову усієї системи, так і окремих її частин. Наприклад, математики і лінгвісти повинні спільно обрати тип граматики, встановити допустимий вид граматичних правил і т. ін. Після того, як рамки встановлені, заповнення цих рамок, тобто конкретні розробки в кожній галузі, можуть вестися представниками кожної спеціальності самостійно. “Якість розробки лінгвістичного забезпечення залежить значною мірою (якщо не повністю) від професіоналізму лінгвістів”.

Під програмно-математичним забезпеченням (ПМЗ) розуміють комплекс програм і алгоритмів, які дозволяють автоматизувати деякий процес.

Лінгвістичне заезпечення системи включає дані про граматику (тобто морфологічну, синтаксичну і семантичну інформацію) вхідної і вихідної мови та набір алгоритмів обробки цих даних, що називається лінгвістичним процесором. Дані про мову подаються у вигляді спеціально організованих словників. Словарна стаття містить інформацію, подану машинними кодами. Навчитися визначати, яка інформація використовується в процесі перекладу, які мовні рівні інформативні для перекладу (наприклад, для російської мови інформативність явно починається з морфологічного рівня мови, а для китайської - з лексичного), ці задачі стоять перед лінгвістами-перекладачами.

Інформаційне забезпечення системи включає словники предметної області і програми для їхньої обробки. Для систем МП в якості інформаційного забезпечення виступають перекладні електронні словники. Ці словники подібні до перекладних книжкових словників і місять слово вихідного тексту і його перекладні еквіваленти. В залежності від ідеології, закладеної в розробку системи МП можуть використовувати одночасно від одного до декількох перекладних словників. Словарну повноту системи МП важко визначити на основі яких-небудь ознак, окрім кількісних. В експериментальних системах МП використовуються словники від 60 до 10 тис. слів, в практично діючих системах МП - обсяг словників досить істотно розрізняється: так, в словнику МП Плай 4.02 - 360 тис. слів, Socrat 4.1 (Personal Edition) - 115 тис., L-Master - 540 тис. і т.д.

Вважається, що для практичного перекладу текстів з певної тематики (наприклад, з радіоелектроніки або мікробіології) достатньо словника в 10-12 тис. слів.

Технічне забезпечення включає технічні засоби (в теперішній час це ПЕОМ), на яких реалізована система. Технічні характеристики системи обов'язково повинні вказуватися у супровідній документації. Технічні характеристики містять наступну інформацію:

- тип ПЕОМ, на якій працює дана система (як правило, вказується клас процесора);

- вимоги до обсягу оперативної пам'яті;

- вимоги до наявності вільного обсягу дискової пам'яті.

За даними корпорації Microsoft для роботи зі стандартними засобами перекладу в Word необхідний процесор Pentium 166, 128 Мб оперативної пам'яті, 150 Мб вільного місця на жорсткому диску, для стабільної роботи бажано також використовувати ОС Windows XP. Програма є досить ресурсоємною; більш вимоглива до обсягу оперативної пам'яті, ніж до потужності процесора. машинний переклад мовний інформація

Кадрове забезпечення системи на етапі її функціонування включає людей, котрі експлуатують дану систему. Більшість систем машинного перекладу орієнтовані не на кінцевого користувача (спеціаліста в певній області, який не володіє вихідною мовою), а на користувача-перекладача, тобто такі системи МП є засобом інтенсифікації праці перекладача. В цьому контексті стандартні засоби перекладу Word є виключенням; система позиціонується корпорацією Microsoft як інструмент для бізнес-користувача, сервісні можливості якого, хоч і поступаються спеціалізованим програмним продуктам (системам МП, програмам розпізнавання мови, OCR-системам), є достатніми для ведення ефективного електронного документообігу.

З точки зору розробника, система поділяється на три основні компоненти:

- інтерфейс користувача;

- підсистема обробки мовної інформації (тобто лінгвістичний процесор);

- підсистема ведення електронних словників (тобто інформаційне забезпечення системи).

Для кінцевого споживача програмного продукту інтерфейс користувача має особливе значення: вдало продуманий інтерфейс здатен забезпечити програмі популярність і комерційний успіх, його непродуманість - завадити пакету зайняти гідне місце на ринку програмного забезпечення (навіть при наявності видатних функціональних можливостей).

Інтерфейс користувача - це програмний комплекс, що вирішує завдання взаємодії (діалогу) користувача і системи. Інтерфейс користувача включає сервісні програми, котрі дозволяють:

- мати доступ до текстових вхідних файлів (тобто до текстів, які необхідно перекласти);

- встановлювати режими перекладу (пакетний або діалоговий);

- встановлювати мовні пари (з якої на яку мову перекладати, якщо система має декілька напрямків перекладу);

- використовувати вбудовані редактори (тобто редагувати вихідний текст не виходячи з системи МП);

- мати засоби поповнення словників (тобто система меню, що дозволяє поповнювати електронний словник новими словниковими статтями);

- видаляти непотрібні користувачеві словникові статті і вносити зміни в старі словникові статті при необхідності);

- мати доступ до режиму друку на принтері вхідного та вихідного текстів.

З усіх перелічених функцій особливе значення має редагування тексту, безпосередньо в системі МП. Відомо, що жодна з існуючих на даний момент програм-перекладачів не може перекладати текст безпомилково. Вихідний текст практично завжди потребує редагування. В той же використання вбудованого в систему МП редактора потребує певного часу на оволодіння навичками роботи з ним, що дещо знижує продуктивність праці користувача, саме тому більшість існуючих систем МП передбачають функцію інтеграції з текстовим процесором Microsoft Word: ця програма стала стандартом дефакто для підготовки текстів і практично кожний користувач ПК має певні навички у роботі з нею, отже для більшості користувачів простіше здійснювати переклад безпосередньо в Word, використовуючи зручний і зрозумілий інтерфейс цієї програми. Інтеграція систем МП і Word відбувається шляхом додавання в Word нових інтерфейсних елементів (меню та панелей інструментів), склад і призначення яких відрізняються в залежності від конкретної системи МП.

Размещено на Allbest.ru


Подобные документы

  • Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.

    реферат [21,5 K], добавлен 19.02.2011

  • Автоматизований та машинний види перекладу. Можливості подолання мовного бар’єру у спілкуванні. Існуючі класифікації систем машинного перекладу. Лінгвістичне дослідження міри автоматизованості перекладацької системи. Словник і синтаксис вхідної мови.

    статья [23,5 K], добавлен 14.08.2017

  • Причини та історія виникнення машинного перекладу. Його функції, можливості, переваги та недоліки. Основні підходи до автоматичного перекладу. Принцип роботи Google Translator Toolkit, порівняння системи з її аналогами та іншими онлайн-сервісами.

    дипломная работа [1,7 M], добавлен 16.07.2013

  • Порядок використання комп'ютера для автоматичного перекладу текстів, умови доцільності використання спеціального програмного забезпечення. Характеристика програми PROMT, її можливості та опис інтерфейсу, принцип та правила роботи. Переклад Web-сторінок.

    реферат [14,9 K], добавлен 21.09.2009

  • Загальна характеристика ТОВ "WED". Програмне забезпечення і система документообігу підприємства. Технічні засоби охорони об’єктів від витоку інформації. Резервне копіювання інформації. Встановлення антивірусу. Впровадження криптографічного захисту.

    курсовая работа [697,1 K], добавлен 01.06.2010

  • Особливості автоматизованого перекладу іноземних мов. Розробка програми для перекладу слів та певних мовних конструкцій молодіжного сленгу на загальновживану мову. Опис структури файлів. Специфікація функцій програми, оцінка достовірності результатів.

    курсовая работа [943,8 K], добавлен 15.03.2014

  • Загальна характеристика підприємства АТВТ "Суми-Авто", напрямки його діяльності та облікова політика. Опис автоматизованої системи обробки економічної інформації, яка використовується на підприємстві, процес обробки інформації конкретної задачі в ній.

    контрольная работа [20,4 K], добавлен 27.07.2009

  • Аналіз терміносистеми дослідження. Поняття, сутність та складові інформаційної діяльності організації або установи. Сутність та аналіз експертних систем. Можливості застосування в інформаційній діяльності організації або установи експертних систем.

    курсовая работа [55,0 K], добавлен 28.05.2010

  • Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.

    контрольная работа [25,1 K], добавлен 26.07.2009

  • Структура економічної інформації підприємства, її основні елементи та їх взаємозв’язок. Структуризація економічної інформації. Класифікація та різновиди інформаційних систем. Особливості СУБД Approach, Paradox, Access, перспективи їх подальшого розвитку.

    контрольная работа [28,9 K], добавлен 27.07.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.