Машинный перевод

Перевод с одного языка на другой. История машинного перевода. Принципы работы и классификация систем машинного перевода. Программы машинного перевода. Преобразование текста на одном естественном языке в эквивалентный по содержанию текст на другом языке.

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык русский
Дата добавления 17.01.2011
Размер файла 44,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

25

Размещено на http://www.allbest.ru/

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ ЭЛЕКТРОННОЙ ТЕХНИКИ

(ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Факультет иностранных языков

Машинный перевод

Курсовая работа

студентки 32 группы.

Орлова В.А

«К защите»

___________________________

Научный руководитель

Арефьева О.Н.

Москва 2010.

Содержание

  • Введение
  • Глава 1: Машинный перевод
  • 1.Практическое задание.
  • Глава 2: История машинного перевода
  • Глава 3: Принципы работы систем машинного перевода
  • Глава 4: Классификация систем машинного перевода
  • 4.1Задачи, которые решает система машинного перевода.
  • 4.2.Программы машинного перевода.
  • Заключение
  • Список литературы

Введение

Перевод имеет долгую историю. Своими корнями он восходит к тем далеким временам, когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, знавших несколько языков и способных выступать в роли посредников при общении представителей разных языковых общин[3]. Известный переводовед А. Д. Швейцер определяет перевод, как однонаправленный и двухфазный процесс межъязыковой и межкультурной коммуникации, при котором на основе подвергнутого целенаправленному ("переводческому") анализу первичного текста создается вторичный текст ("метатекст"), заменяющий первичный в другой языковой и культурной среде; процесс, характеризуемый установкой на передачу коммуникативного эффекта первичного текста, частично модифицируемый различиями между двумя языками, между двумя культурами и двумя коммуникативными ситуациями".

Переводоведение впервые оформилось в самостоятельную дисциплину как раздел языкознания в 1930-х годах. В настоящее время эта область научных исследования имеет вполне установившиеся традиции. В теоретическом и языковедческом плане переводоведение тяготеет к социолингвистике, психолингвистике, сопоставительному языкознанию, грамматике текста и касается таких важных разделов науки о языке, как язык и мышление, язык и картина мира, язык и культура[3].

XXI век ставит новые задачи в информационном пространстве человечества. Благодаря массовой информации роль перевода в жизни человечества неуклонно возрастает. Сегодня переводческие связи охватывают почти все сферы человеческой деятельности. Движение информационных потоков не знает ни границ, ни времени, ни пространства.

Круг деятельности, охватываемой понятием «перевод», очень широк. Переводятся с одного языка на другой стихи, художественная проза, научные и научно-популярные книги из различных областей знания, дипломатические документы, деловые бумаги, статьи политических деятелей и речи ораторов, газетные материалы, беседы лиц, разговаривающих на разных языках и вынужденных прибегать к помощи переводчика, дублируются кинофильмы. Вполне логично, что по мере увеличения потока информации и распространения каналов связи существует возрастающая потребность в переводе этой информации с одного языка на другой. При этом, прибегать к помощи специалиста для получения сведений, например, на иностранном сайте, не всегда целесообразно. Поэтому стремление автоматизировать процесс перевода вполне естественно, а проблемы машинного перевода являются очень актуальными и не потеряют этой актуальности в будущем.

Перевод может осуществляться:

с одного языка на другой - неродной, родственный, близкородственный;

с литературного языка на его диалект и наоборот, или с диалекта одного языка на другой литературный язык;

с языка древнего периода на данный язык в его современном состоянии (например, с древнерусского языка на современный русский, со староанглийского на современный английский и т.д.).

Следует заметить, что для машинного перевода характерен лишь пункт 1, поскольку, как известно из экономики, спрос рождает предложение: спрос на программу-переводчика, скажем, с английского или немецкого языка на русский намного превышает спрос на перевод с любого из праязыков.

Целью работы является рассмотрение проблем современного машинного перевода. Для этого необходимо сначала проанализировать проблемы, которые лингвистам и разработчикам уже удалось решить на протяжении недолгой истории машинного перевода, а затем - проблемы, с которыми им приходится сталкиваться в настоящее время.

Глава 1: Машинный перевод

Машинный перевод -это выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия. Современный машинный, или автоматический перевод осуществляется с помощью человека: пред-редактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интер-редактора, который участвует в процессе перевода, или пост-редактора, который исправляет ошибки и недочеты в переведенном машиной тексте.

Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 - L2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Стоит также уделить внимание и качеству машинного перевода. Оно зависит от тематики и стиля исходного текста. Машинный перевод произвольных художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей по определённой тематике и незначительной настройке системы на особенности того или иного типа текстов возможно получение перевода вполне приемлемого качества. Результат машинного перевода в этом случае нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем качественнее возможен перевод. Наилучших результатов можно достичь при использовании машинного перевода для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

язык перевод машинный

1.Практическое задание

Для подтверждения этих слов следует привести пример переводов небольшого отрывка художественного текста. И затем сравнить перевод, сделанный электронным переводчиком, и перевод, осуществленный человеком- переводчиком.

The shore was fledged with palm trees. These stood or leaned or reclined against the light and their green feathers were a hundred feet up in the air. The ground beneath them was a bank covered with coarse grass, torn everywhere by the upheavals of fallen trees, scattered with decaying coconuts and palm saplings. Behind this was the darkness of the forestбproper and the open space of the scar. Ralph stood, one hand against a greyбtrunk, and screwed up his eyes against the shimmering water. Out there, perhaps a mile away, the white surf flinked on a coral reef, and beyond that the open sea was dark blue. Within the irregular arc of coral the lagoon wasбstill as a mountain lake-blue of all shades and shadowy green and purple. The beach between the palm terrace and the water was a thin stick, endless apparently, for to Ralph's left the perspectives of palm and beach and water drew to a point at infinity; and always, almost visible, was the heat. ( William Golding “Lord of the Flies” ).

Ниже будет приведен перевод этого художественного текста осуществленный Е.А. Суриц.

Берег был весь опушен пальмами. Они стояли, клонились, никли в лучах, а зеленое оперенье висело в стофутовой выси. Под ними росла жесткая трава, вспученная вывороченными корнями, валялись гнилые кокосы и то тут, то там пробивались новорожденные ростки. Сзади была тьма леса и светлый проем просеки. Ральф замер, забыв руку на сером стволе, и щурясь смотрел на сверкающую воду. Там, наверное, в расстоянии мили лохматилась у кораллового рифа белая кипень прибоя и дальше темной синью стлалось открытое море. В неровной дуге кораллов лагуна лежала тихо, как горное озеро - разнообразно синее, и тенисто-зеленое, и лиловатое. Полоска песка между пальмовой террасой и морем убегала тонкой лукой неведомо куда, и только где-то в бесконечности слева от Ральфа пальмы, вода и берег сливались в одну точку; и, почти видимая глазу, плавала вокруг жара.

А ниже приведен результат перевода этого же отрывка с помощью PROMT - переводчика.

Берег был оперен с пальмами. Они стояли или наклонялись или откидывались против света, и их зеленые перья были сто футов в воздухе. Основание ниже них было банком, покрытым грубой травой, порванной всюду переворотами упавших деревьев, рассеянных с распадающимися кокосовыми орехами и молодыми деревьями пальмы. Позади этого была темнота надлежащего леса и открытой площади шрама. Ральф стоял, одна рука против серого ствола, и ввернул его глаза против мерцающей воды. Там, возможно на расстоянии в одна миля, белый прибой flinked на коралловом рифе, и кроме того открытое море было темно-синим. В пределах нерегулярной дуги коралла лагуна была все еще как гора, синяя озером из всех оттенков и темного зеленого цвета и фиолетовая. Берег между террасой пальмы и водой был тонкой палкой, бесконечной очевидно, поскольку слева от Ральфа перспективы пальмы и берега и воды тянули к пункту в бесконечности; и всегда, почти видимый, была высокая температура.

Видно, что переводы довольно сильно различаются. В первом переводе сохранена правильные грамматические , синтаксические структуры. Во втором тексте слова , по большей части, не связаны друг с другом. Конечно же, главная мысль и идея текста понятна, это описание окружающей природы. Однако, не соблюдается огромное количество правил. Отсюда можно сделать вывод. Система машинного перевода не усовершенствована. Человеческий фактор играет огромное значение. Второй текст нуждается в обстоятельном исследовании и корректировке.

Глава 2: История машинного перевода

Для начала, следует обозначить некоторые важные даты в истории машинного перевода:

1947 - дата рождения машинного перевода, как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие, как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий. 1947 - А.Бут и Д.Бриттен разработали подробный "код" для пословного машинного перевода. 1948 - Р.Риченс предложил правила разбиения словоформ на основу и окончание. 1952 - первая конференция по машинному переводу в Массачусетском технологическом институте. 1954 - представлена первая система машинного перевода - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития машинного перевода. 1967 - специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом. 70-е годы - новый подъем работ в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов. 80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным. 90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet. Возможности перевода в режиме он-лайн позволяют преодолеть языковой барьер и осуществлять навигацию по иностранным сайтам.

А сейчас следует рассмотреть эти факты подробнее:

Итак, впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., Наука, 1981).

Мысль использовать ЭВМ для перевода была высказана в 1946 году, сразу после появления первых ЭВМ. Датой рождения МП как области исследований принято считать 1947 г.: все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и, наконец, были выделены средства на исследования. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году.Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода «слово за словом», «фраза за фразой». Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (от английского слова transfer - преобразование).

Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

А к середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

· MARK (в Департаменте иностранной техники ВВС США);

· GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведенных текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом ее выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми род людской взялся полвека назад за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

· FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод;

· HAMT (Human-assisted machine translation) - машинный перевод при участии человека;

· MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).

Глава 3: Принципы работы систем машинного перевода

Извлечение информации из текста производится на основании набора атрибутов: морфологических, синтаксических, лексических, семантических и т.п. Атрибуты не указаны в тексте в явном виде, их нужно предварительно получить. Для этого производятся различные виды анализа текста с целью выделения атрибутов, используемых алгоритмом извлечения информации. Анализ, как правило, носит многоуровневый характер и выполняется модулем лингвистического процессора. Обычно выделяют следующие составляющие анализа текста:

- графематический анализ (выделение слов и предложений);

- морфологический анализ;

- синтаксический анализ;

- семантический анализ;

- построение модели предметной области (сценария или ситуации).

На каждом уровне фрагментам текста сопоставляются новые атрибуты. На основании таких наборов атрибутов алгоритм извлечения информации выполняет поиск фрагментов текста, релевантных цели. Естественно, не всегда нужно использовать все уровни текста в полном объеме. Все зависит от предметной области, информации, которую нужно извлечь, источников информации, а также точности и полноты, с которой эту информацию нужно извлекать. Например, разрешение анафоры и кореферентности являются очень сложными задачами, и даже их приближенное решение удается получить лишь в некоторых предметных областях с использованием знаний об этой конкретной предметной области. Не говоря уже об универсальном алгоритме. Поэтому эти шаги зачастую исключаются из числа этапов анализа текста.

Теперь следует рассмотреть каждый

1. Графематический анализ

Графематический анализ - это программа начального анализа естественного текста, вырабатывающая информацию, необходимую для дальнейшей морфологической и синтаксической обработки. В задачу графематического анализа входят:

- разделение входного текста на слова, разделители и т.д.

- сборка слов, написанных в разрядку;

- выделение устойчивых оборотов, не имеющих словоизменительных вариантов;

- выделение фамилии, имени и отчества, когда имя и отчество написаны инициалами;

- выделение электронных адресов и имен файлов;

- выделение предложений из входного текста;

- выделение абзацев, заголовков, примечаний.

2. Морфологический анализ

Алгоритмы морфологического анализа делятся на две группы: словарные и бессловарные. Бессловарные алгоритмы более компактны и производительны, но не обладают высокой скоростью, поэтому их применение целесообразно лишь для выявления простых морфологических атрибутов и только в том случае, если нет требования к высокой точности. Если же предполагается использовать синтаксический анализ, то высокая точность является необходимым требованием, и применяется словарный метод.

Словарный метод предполагает наличие словаря основ и флексий. По словарю отыскиваются допустимые наборы атрибутов для каждой графемы. В случае отсутствия слова в словаре, выполняется предсказание парадигмы (аналогично бессловарным методам). Одной графеме может соответствовать несколько наборов атрибутов. Такие случаи - морфологическая омонимия - довольно часто встречаются в русском языке. Существуют алгоритмы для решения этой проблемы с высокой вероятностью успеха.

Еще несколько лет назад словосочетание «компьютерная морфология» было понятно только узкому кругу специалистов, сейчас морфология является неотъемлемой частью интеллектуальной поисковой машины. Вероятно, в ближайшем будущем та же участь постигнет и синтаксический анализ.

3. Синтаксический анализ

Аналогию между системой языка и шахматами впервые предложил швейцарский лингвист Фердинанд де Соссюр. Как не меняются суть и правила игры в зависимости от размера доски или цвета фигур, так и сохраняют сходство грамматические структуры и законы внешне абсолютно разных языков. Белопольный слон никогда не займет черную клетку; каждое слово занимает только отведенное его роли место в структуре или линейном порядке предложения (например, в русском существительное не может стоять до предлога, от которого оно зависит). Любая удачная комбинация в партии есть продуманная последовательность ходов, где каждая фигура защищена другой, и если фигура удалена от «своих» и остается без защиты, она будет съедена или заперта фигурами противника, а партия проиграна. Грамматически верное и однозначное высказывание - результат хорошо построенной непрерывающейся структуры, где каждое слово имеет хозяина, и если слово не связано ни с одним из других слов в предложении, оно «выбивается» из контекста, искажая смысл всего высказывания.

Целью синтаксического анализа является построение синтаксических групп на одном морфологическом варианте одной клаузы, т.е. одного простого предложения в составе сложного.

Теоретическую лингвистику интересуют сравнение грамматик естественных языков и синтаксические законы, применимые одновременно к большому количеству разных языков, то есть типология. Целью компьютерной лингвистики в области синтаксиса является построение автоматизированного анализатора отдельного языка. Этот анализатор должен уметь выделять простые предложения в составе сложного, устанавливать связи между словами и по возможности строить полное синтаксическое дерево предложения. Если теоретические исследования описывают как письменный язык, так и устную речь, то компьютерные программы имеют дело только с грамматикой письменного языка. С одной стороны, круг задач в компьютерной лингвистике значительно уже по сравнению с теоретической, но с другой - их решение требует значительно большей строгости и формальности описания.

Сложность реализации высокоточного анализатора связана с наличием тесной связи между синтаксисом и семантикой, присутствием в текстах различных языков большого количества синтаксически омонимичных конструкций, не допускающих однозначной интерпретации без привлечения знаний о семантической сочетаемости слов. Такова, например, проблема управления глагола предложно-падежными конструкциями. В синтаксически эквивалентных фразах «человек стрелял из ружья» и «человек стрелял из окна», объект «ружье» представляет аргумент предиката «стрелять» в роли косвенного дополнения, а объект «окно» - обстоятельство места, которое является дополнительной характеристикой всей ситуации в целом.

Чтобы разрешить проблему с анализом синтаксически омонимичных конструкций, необходимо построение дерева синтаксических зависимостей между словами во фразе. В случае удачного разбора предложение сворачивается в полносвязное дерево с единственной корневой вершиной.

Поскольку одна словоформа может соответствовать нескольким грамматическим формам слова, в том числе формам различных слов, в ходе анализа необходимо производить свертку предложения для всех возможных вариантов грамматических форм. Те грамматические формы, которые обеспечивают максимальную свертку дерева (минимальное число висячих вершин), следует считать наиболее достоверными [7].

Как показала практика, для снятия большей части омонимии (около 90%) не требуется полный синтаксический анализ, обеспечивающий полную свертку дерева. Достаточным оказывается включение правил согласования слов в именных и глагольных группах, свертки однородных членов, согласования подлежащего и сказуемого, предложно-падежного управления и нескольких прочих - всего в пределах 20-ти правил, описываемых бесконтекстной грамматикой.

Порядок применения правил управляется алгоритмом разбора, который на каждом шаге проверяет возможность применения очередного правила к очередному фрагменту фразы (паре-тройке слов, знаков препинания и т.п.) и, если удается, сворачивает фрагмент. Свертка фрагмента обычно заключается в его замене одним главным словом - удалением подчиненных слов, после чего разбор продолжается. В случае невозможности дальнейшего применения правил на любом из шагов совершается откат - последний свернутый фрагмент восстанавливается и делается попытка применить другие правила. Окончательным вариантом разбора следует считать такую последовательность применения правил, которая порождает максимальную свертку фразы [10].

4. Семантический анализ

Семантический анализ строит семантическую структуру одного предложения. Семантическая структура состоит из семантических узлов и семантических отношений. Семантический узел - это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные - те, которые получаются из экстралингвистических источников. Из определения следует, что семантический узел может быть построен только в самом конце семантического анализа. Собственно говоря, главная цель семантического анализа - построение семантических узлов, которое подразумевает заполнение всех валентностей.

Семантический анализ представляет собой выявление в тексте смысловых связей и групп. Этот тип анализа представляется в виде набора составляющих, направленных на выявление различных семантических связей.

Во-первых, это выделение именованных сущностей, объектов, которые имеют различную форму записи в тексте и могут принимать различные значения. Примерами именованных сущностей являются такие объекты как дата, физическое измерение, географическое название, название организации, имя персоны и т.п. В результате слову или группе слов приписывается атрибут, определяющий вид именованной сущности, и его в дальнейшем можно использовать для идентификации извлекаемой информации.

Второй полезной составляющей является механизм выявления семантических классов. К семантическому классу относится группа понятий, связанных с одной предметной областью и являющихся одной и той же частью речи. Например, семантический класс глаголов, связанных с производственной деятельностью человека.

Третий момент связан с расширением кореферентности в тексте. Под кореферентностью понимается ссылка разными словами на один и тот же объект действительности. Например, фраза «глава Российского государства» и «президент России» обозначает одно и то же лицо. Задача разрешения кореферентности сводится к автоматическому установлению референта для выражения (при наличии модели предметной области) или просто установлению кореферентной связи (признака того, что выражения ссылаются на одни и тот же объект) между выражениями.

Четвертым элементом семантического анализа является разрешение анафоры. Анафора - это использование языковых выражений, которые могут быть интерпретированы лишь с учетом другого, как правило, предшествующего фрагмента текста. Разрешение анафоры сводится к установлению связи между анафорическим выражением и его интерпретацией (антецедентом). Частным случаем этой проблемы является разрешение местоименной анафоры, где в роли анафорического выражения выступает местоимение.

Последний момент при семантическом анализе - выявление семантических ролей и связей. Этот подход основан на использовании словаря моделей управления. Словарь описывает способы синтаксической реализации в тексте различных типов смысловых отношений между понятиями и представляет собой список предикатов русского языка (глаголов в прямых и возвратных формах и отглагольных существительных), отражающих некоторую ситуацию. Словарная статья описывает семантические роли участников этой ситуации и способы их выражения в тексте. После выявления семантических ролей можно выделить и различные семантические связи между участниками ситуации. Виды ролей определяются при составлении словаря, а виды связей задаются, как правило, уже при решении конкретной задачи [9].

5. Построение модели предметной области

Наиболее сложным, но и приносящим наиболее точные результаты этапом является построение модели ситуации или предметной области, которая описывается в тексте. Этот этап реализует представление в структурном виде, отражающем все значимые смысловые связи, всего текста или набора текстов. Но так как задача построения модели очень сложна, в прикладных системах редко прибегают к ее использованию [8].

Глава 4: Классификация систем машинного перевода

1.Задачи, которые решает система машинного перевода

Работа над программой, которая переводит с одного языка на другой, разбивается на три очевидные подзадачи:

· создать достаточно полный словарь или набор тематических словарей;

· научить систему распознавать не только слова, но и устойчивые обороты;

· формализовать правила перевода с учетом грамматики языков.

2.Как уже выше было сказано, с практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории: полностью автоматический перевод, автоматизированный машинный перевод, выполняемый при участии человека, и перевод, осуществляемый человеком с использованием компьютера. Рассмотрим их более подробно.

2. Полностью автоматический перевод

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.

2. Автоматизированный машинный перевод, выполняемый при участии человека.

Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка [8]. Главным критерием такой программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронных писем и онлайновых разговорных сеансов.

В системах на основе контролируемого языка реализован переход от свободного входного языка к контролируемому входному языку. Контроль входного языка предусматривает определённые ограничения лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

Также при работе с исходным текстом, необходимо учитывать ряд особенностей МТ-программ, что, по словам разработчиков программы Promt, «не решает всех проблем машинного перевода, но помогает отвоевать несколько очков в противостоянии компьютера и естественного языка»:

· машинный переводчик не умеет исправлять ошибки и распознавать неправильно написанные слова (здесь могут оказаться полезными специальные программы проверки орфографии);

· пропущенный или, наоборот, избыточный знак препинания может помешать электронному переводчику правильно понять синтаксическую структуру предложения;

· как правило, электронный переводчик не воспринимает слова с русской буквой ё, а также слова с ударениями.

· следует правильно расставлять знаки диакритики;

· использование простых синтаксических конструкций с прямым порядком слов существенно улучшает качество перевода. Например, на первом месте должно идти подлежащее или его группа. На втором месте - сказуемое, выраженное глаголом. Дальше идут обстоятельства, выраженные разными частями речи.

· следует обращать особое внимание на регистр букв: маленькая буква в слове вполне может стать большой (например, в начале предложения, в заголовке), и это учитывается при разработке систем машинного перевода; большая же буква, напротив, маленькой становится редко, причем в большинстве случаев это связано с образованием нового слова, например, при переходе собственного имени в разряд имен нарицательных.

· рекомендуется избегать пропуска служебных слов (даже если это разрешено грамматикой). Например, при переводе английского предложения "Your e-mail address is the address other people use to send e-mail messages to you" на русский язык при помощи переводчика Promt, получается не совсем понятный текст: «Ваш адрес электронной почты -- адрес другое использование людей, чтобы послать почтовые сообщения Вам». Если восстановить единственное пропущенное слово -- союз that, получится вполне корректный вариант: «Ваш адрес электронной почты -- адрес, который другие люди используют, чтобы послать почтовые сообщения Вам».

· следует избегать использования жаргонных выражений. Одна сторона проблемы состоит в том, что такого рода слова появляются в речи быстрее, чем их успевают фиксировать словари. Другая сторона - в том, что не всегда целесообразно добавлять неологизмы в словарь - зачастую они входят в употребление очень небольшой группы лиц, либо исчезают так же внезапно, как и появляются [14].

· следует использовать только общепринятые сокращения. Неправильный перевод сокращения -- это только половина проблемы. Дело в том, что даже одно непереведенное слово может помещать электронному переводчику правильно проанализировать синтаксическую структуру предложения (а аббревиатуры участвуют в синтаксических связях наряду с обычными словами).

Неприятные последствия может иметь тот факт, что некоторые аббревиатуры совпадают по написанию с часто используемыми словами. Например, «ПО» (программное обеспечение) пишется так же, как русский предлог «по» (регистр букв в данном случае не играет роли, так как ничто не запрещает нам написать предлог «по» большими буквами, например, в составе заголовка). Поэтому, увы, вполне закономерно выглядит перевод фразы "Я часто использую это ПО" как "I frequently use it ON." С другой стороны, если написать "Я часто использую это программное обеспечение" мы получим в переводе "I frequently use this software."

3. Перевод, осуществляемый человеком с использованием компьютера

Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Использование технологии ТМ повышает скорость перевода за счет уменьшения объема механической работы. Однако TM не выполнит перевод за переводчика, но значительно облегчит его работу. Принцип работы технологии ТМ довольно прост - в процессе перевода пары «исходный текст - конечный (переведенный) текст» накапливаются в базе (или базах) данных и затем используются для перевода новых документов. Вообще, понятие массива документов очень важно для машинного перевода. Большинство специалистов сходится во мнении, что машинный перевод возможен только для прикладных, технических текстов, которые могут быть заданы определенными, порой гигантскими массивами [4]. Для облегчения обработки информации и сравнения различных документов система Translation Memory разбивает весь текст на отдельные кусочки, которые называются сегментами. Такими сегментами чаще всего являются предложения, но могут быть и другие правила сегментации. При переводе нового текста система сравнивает все сегменты текста с уже имеющимися в базе. Если системе удается найти полностью или частично совпадающий сегмент, то его перевод отображается с указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, подсвечиваются. Это своего рода "подсказки", в некоторой мере облегчающие труд переводчика и сокращающие время, необходимое для редактирования перевода. Как правило, задается порог совпадений на уровне не ниже 75%. При меньшем проценте совпадения слишком возрастают затраты на редактирование текста, и этот сегмент быстрее перевести вручную. Выходит, что при работе с TM переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ, и необходимости переводить одно и то же дважды не возникает. Данная технология помогает заметно сократить расход средств и времени на перевод технической документации за счет использования повторяющихся фрагментов текста. Помимо снижения трудоемкости перевода системы, TМ позволяет выдержать единство терминологии и стиля во всей документации, а также сократить затраты на последующую верстку переведенных документов.

Cистемы машинного второй и третьей категорий также подразделяют на основанные на правилах (rule-based) и основанные на примерах (example-based). В первых языковая грамматика проработана глубже, языковых правил больше. Системы второго типа - самообучающиеся, они строятся на динамическом порождении языковых правил для конкретных текстовых примеров. Границы между системами example-based и rule-based не очень четкие, поскольку и те и другие используют словари (статическая информация о языке) и правила работы со словарями.

Заключение

Бесконечное разнообразие современного мира передается при помощи средств информации в ощущениях и интерпретациях многочисленных участников международного информационного процесса - журналистов, корреспондентов, комментаторов, телеоператоров. Поэтому постоянно растет значение переводческой деятельности. Перевод был важен всегда. Научный прогресс дошел до изобретения машинного перевода, который во многом облегчил жизнь переводчикам. Конечно, и сейчас, существует огромное количество недостатков и в таком, казалось бы, совершенном изобретении. Но мы должны приложить все усилия , что бы развивать машинный перевод. И к этому имеются стимулы. Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый - собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка - от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Второй стимул - социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации - разработка или принятие единого языка, а также изучение иностранных языков - не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Список литературы

1. Архипов А.Ф. Самоучитель перевода с немецкого языка на русский. - М.: Высшая школа, 1991.

2. Бархударов Л.С. Язык и перевод. - М.: Международные отношения, 1975.

3. Бреус Е.В. Основы тории и практики перевода с русского языка на английский. - М.: УРАО, 2000.

4. Васильев А. Компьютер на месте переводчика. // Подводная лодка. - 1998, № 6.

5. Винокуров А.А., Чуканов В.О.Новый метод оценки машинного перевода.// Информационные технологии и системы. Hardware Software Security. Тенденции и перспективы - Сборник статей: М., Международная академия информатизации, 1997.

6. Егорушкин А. У каждого свой язык? // Компьютерра. - 2002, №21.

7. Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. - М., 2002.

8. Каничев М. Встреча компьютерных толмачей. // Мир ПК. - 1998, № 8.

9. Кормалев Д.А. Приложения технологии извлечения информации из текста: теория и практика. - Переяславль-Залесский, 2003.

10. Ножов И. Синтаксический анализ. // Компьютерра. - 2002, №21.

11. Сокирко А. Будущее машинного перевода. // Компьютерра. - 2002, №21.

12. Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5.

Размещено на Allbest.ru


Подобные документы

  • Перевод и другие виды языкового посредничества, их виды, формы и жанры. Место машинного перевода в общей классификации, его краткая характеристика. Содержание проблемы переводимости при машинном переводе, направления и перспективы ее разрешения.

    курсовая работа [42,2 K], добавлен 17.11.2014

  • Перевод — лингвистический процесс, межъязыковое преобразование или трансформация текста на одном языке в текст на другом языке; средство обеспечить возможность общения (коммуникации) между людьми, говорящими на разных языках. Коммуникативная лингвистика.

    шпаргалка [54,3 K], добавлен 14.01.2009

  • Основные понятия и функциональные стили лингвостилистики. Принципы работы и типы систем машинного перевода. Сопоставительный анализ отрывков научно-технического текста и их переводов на русский язык с помощью различных СМП - трансфертной и статистической.

    дипломная работа [4,0 M], добавлен 23.06.2011

  • Изучение морфологических и синтаксических особенностей научно-технического стиля, в аспекте применения автоматизированных средств перевода. Анализ принципа работы и типов систем машинного перевода. Сравнение текстов, переведенных машиной и переводчиком.

    дипломная работа [4,0 M], добавлен 20.06.2011

  • Психолингвистические и когнитивные проблемы перевода в России и стратегия для их решения. Процесс передачи содержания, выраженного на одном языке средствами другого. Широкое использование технических средств в процессе синхронного и устного перевода.

    контрольная работа [26,5 K], добавлен 11.03.2014

  • Изучение особенностей антонимического перевода. Использование его на примере произведения С. Майер "Twilight", перевода художественного текста на русский язык с английского. Применение грамматических трансформаций, преобразование структуры предложения.

    курсовая работа [33,5 K], добавлен 03.12.2014

  • Особенность звуковой передачи имен и названий на другом языке. Принципы перевода имен собственных путем транслитерации, транскрипции и транскрипции с элементами транслитерации. Анализ данных методов на примере перевода научной статьи Франсуа Грожана.

    курсовая работа [47,0 K], добавлен 19.11.2014

  • Периодизация истории развития перевода и подходов к нему. Понятие перевода, подходы к переводу текста. Особенности перевода с английского на русский. Специфика работы с иноязычным текстом. Варианты подхода к изучения феномена "ложных друзей переводчика".

    курсовая работа [47,7 K], добавлен 10.01.2017

  • Характеристика стилистических особенностей художественного текста. Стиль детской литературы. Приемы перевода художественного текста для придания эмоционального эффекта. Эмоциональная выразительность языка перевода произведения "Винни Пух и все-все-все".

    курсовая работа [87,2 K], добавлен 24.10.2014

  • Характеристика и главные трудности перевода художественного текста. Стилистические средства художественной речи. Эквивалентность как важнейшая характеристика перевода. Классификация переводческих трансформаций. Анализ перевода стилистических средств.

    дипломная работа [84,7 K], добавлен 26.05.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.