Использование информационных технологий в литературоведении
Применение ЭВМ в стилистических исследованиях. Особенности статистической обработки текста. Процесс создания частотных словарей и их значение для литературоведения. Сущность статистических методов в языкознании. Особенности проведения атрибуции.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 10.12.2014 |
Размер файла | 45,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Введение
Становление современного информационного общества приводит к изменениям во всех сферах деятельности человека. Использование информационных технологий позволяет пользователю более быстро и эффективно получить необходимую информацию. Сегодня информационные технологии широко используются в отечественном и зарубежном литературоведении, открывают новые возможности для обработки и анализа текстов (в том числе и анонимных).
Актуальность нашей работы обусловлена недостаточным освещением данной проблемы в отечественной науке.
Цель реферата ? ознакомить с современными информационными технологиями, которые используются в литературоведении.
Реализация поставленной цели требовала решения следующих задач:
изучить научную литературу по теме реферата;
описать современные информационные технологии, которые используются литературоведами;
установить основные направления использования информационных технологий в литературоведении.
Цель и задачи определили структуру реферата.
Реферат состоит из 1 главы, которая включает 5 разделов.
В первом разделе говорится о применении ЭВМ в стилистических исследованиях; о статистических методах, которые применяются в литературоведении; раскрывается понятие атрибуции текста и специфика программы «Лингвоанализатор», а также актуальность создания подобной программы на белорусском языке для применения в современном литературоведении.
Во втором разделе обращается внимание на создание частотных словарей (по отдельным авторам, целым произведениям или определённой эпохе) и их использование в современном литературоведении для установления авторства «спорных» текстов.
Третий раздел посвящен созданию обратных словарей и словарей рифм с помощью компьютерных технологий; нами также обосновывается необходимость создания подобных словарей на белорусском языке.
В четвёртом разделе раскрывается понятие компьютерной лексикографии, описаны её задачи; обосновывается необходимость создания электронных словарей и энциклопедий для современного литературоведения; подробно описывается первая русская электронная компьютерная энциклопедия в сфере литературоведения «Всё о Пастернаке».
В пятом разделе обращается внимание на использование ЭВМ для обработки древних текстов и создание информационно-поисковой системы на основе агиографического жанра.
1. Использование информационных технологий в литературоведении
В условиях информационного общества невозможно представить работу современного учёного (в том числе и литературоведа) без использования компьютерных технологий. Ознакомившись с литературой по информатике, мы пришли к выводу, что современные информационные технологии широко используются в литературоведческих исследованиях и значительно облегчают работу учёного-литературоведа. Подробно остановимся на описании некоторых из них.
Применение ЭВМ в стилистических исследованиях. Статистическая обработка текста
Оценка особенностей текстов, принадлежащих к различным стилям, выявление индивидуальных стилистических особенностей авторов представляют собой достаточно сложный процесс, поскольку для решения таких задач необходимо исследовать тексты большого объёма. Поэтому ЭВМ всё чаще используются для проведения таких исследований.
Научные работы по этой проблеме позволяю нам сделать вывод, что для оценки текстов, которые принадлежат к различным языковым, речевым и авторским стилям, могут быть использованы следующие текстовые характеристики:
длина слова в буквах;
длина предложения в словах;
частота употребления существительных;
частота употребления прилагательных;
частота употребления глагола;
частота употребления наречий;
структура предложения;
частота употребления подлежащего;
частота употребления сказуемого;
типы используемых придаточных предложений;
частота употребления временных форм глагола;
частота употребления отдельных служебных слов (частиц, союзов, предлогов):
частота употребления слов определённой семантической группы;
иные характеристики.
Статистические методы в языкознании ? это методы использования счёта и измерений для изучения языка и речи. Объектом их применения обычно является текст (в первую очередь его лексический состав).
«Использование разных слов, с одной стороны, позволяет каждому человеку при построении предложений выдерживать индивидуальность, а с другой стороны, каждую индивидуальность речи можно отличить формальными математическими характеристиками текста» [1, p. 83]. На это обстоятельство впервые обратил внимание русский учёный Н.А. Морозов (1854?1946): «Каждый «литературно образованный» человек знает, что все оригинальные авторы отличаются своим складом речи, даже в том случае, если мы сравниваем их с писателями того же самого поколения. В английской литературе склад речи Теккерея совсем не похож на склад речи Диккенса. Возьмём хотя бы в нашем русском языке два легко заменяемых друг другом выражения: «так как» и «потому что»… В оригинале одни авторы могут машинально употреблять почти исключительно первую из этих «служебных частиц речи», редко вспоминая о существовании второй, другие же авторы поступят совершенно наоборот» [1, p. 83]. По мнению этого исследователя, служебные частицы распоряжаются нашей речью, поэтому он предлагает называть их распорядительными частицами (с их помощью различают индивидуальные особенности склада речи писателя). Для этого, по мнению Н.А. Морозова, надо перевести распорядительные частицы на графики, обозначая их на горизонтальной линии, а число их повторений ? на вертикальной, и сравнить эти графики у различных авторов. Подобные графики были названы лингвистическими спектрами, а исследование различных текстов с их помощью ? лингвистическим анализом. Предложенная им технология этого анализа заключена в следующем: отсчитывается первая тысяча слов любого текста и подсчитывается количество употреблений в этом фрагменте той или иной служебной частицы. По подсчётам Н.А. Морозова оказалось, что часто повторяющимися у русских авторов являются предлоги в, на, с. Современные же компьютерные технологии позволяют проверить результаты исследователя. Так, для произведений одного автора графики имеют одинаковый количественный и качественный характер, в то время как для произведений различных авторов графики резко отличаются (последнее характеризует индивидуальность каждого автора).
При машинных стилистических исследованиях определяется принадлежность текстов к разным языковым стилям и жанрам, выявляются индивидуально-авторские особенности стиля писателя путём анализа его текстов большого объёма. Так, по подсчётам А.В. Зубова и А.А. Лихтаровича, в процессе анализа трёх стилей русского языка (драматургия, публицистический и научный) средняя длина слова в текстах этих стилей оказалась равной 4,74; 5,6 и 6,46 буквы соответственно [2, p. 88]. Сравните: в немецкой художественной литературе среднее число слогов в слове 1,5?1,9; научной ? 1,9?2,3 (английской 1,5?1,8). В то время как в английской литературе эти показатели следующие: 1,3?1,5 и 1,5?1,8 слогов в художественной и научной литературе соответственно [3, p. 37]. Результаты по авторам: самые скупые на слоги Райнер Мария Рильке, Эрнест Хемингуэй (в литературоведении его стиль определяется как «нулевой градус письма»), Чарльз Диккенс, самые щедрые Карл Маркс и Александр Гумбольдт [3, p. 37]. Отметим, что индивидуальность авторского стиля проявляется также в употребительности различных типов придаточных предложений. В таблице 1 ниже приведены данные (в %) об употребительности различных типов придаточных предложений у различных авторов, полученные при помощи компьютера:
Таблица 1
Тип придаточного предложения (в %) |
||||||
Авторский стиль |
подлежащное |
условия |
цели |
времени |
причины |
|
Шолохов М. |
4,7 |
1,9 |
5,6 |
18,7 |
3,3 |
|
Леонов Л. |
6,7 |
4,9 |
6 |
9,6 |
6,4 |
атрибуция словарь литературоведение
Однако компьютер по формам слов не может определить со 100-процентной вероятностью тип предложения. Поэтому использование компьютером стилевых показателей возможно только в том случае, если текст перед вводом специальным образом готовится. С помощью специальной системы индексов (помет) указывается часть речи, время глагола, тип придаточного предложения и так далее.
Для атрибуции текстов можно использовать программу «Лингвоанализатор», разработанную Дмитрием Хмелёвым, аспирантом кафедры теории вероятностей Московского государственного университета имени М.В. Ломоносова. По сути, «Лингвоанализатор» ? это первая в мире программа, которая позволяет литературоведам и текстологам с большой вероятностью установить авторство текста. Программа определяет имена трёх возможных его авторов, однако её недостатки, на наш взгляд, заключаются в относительно небольшом количестве (128) авторов, занесённых в базу данных и в способности анализировать только тексты отдельного жанра. Кроме того, «Лингвоанализатор» находит три произведения каждого из авторов, которые наиболее близки данному тексту, что в литературоведении можно объяснить влиянием одного автора на творчество другого. Применяемая методика определения авторства произведений основана на математической модели, в которой учтены такие формальные характеристики языка автора, как:
число служебных слов (предлогов, союзов и частиц);
используемые в словах морфемы (приставки, корни, суффиксы, окончания) и их последовательности;
сложность используемых грамматических конструкций;
собственно словарь, используемый автором.
Программа выдаёт меньше ошибок при анализе текстов большого объёма [4]. Мы считаем, что создание подобной программы на белорусском языке очень важно для отечественного литературоведения, ибо это позволить, например, установить авторство анонимных бесед 19 столетия.
Проведение атрибуции особенно важно при изучении так называемых «спорных» произведений. Например, статистический анализ был использован в исследовании «Илиады» Гомера. Чтобы доказать, что Гомера не было, и все 24 песни «Илиады» ? это самостоятельные произведения, соединенные в эпос позднее без значительной переработки с целью унификации, Л.С. Клейном была использована статистическая методика. Окончательный вывод исследователя состоит в том, что разное употребление предлогов и частиц указывает на то, что эти 24 песни были созданы различными авторами и позже объединены в единое целое [5, p. 39].
В Эдинбурге (Англия) был разработан аналитический метод, основывающийся на учете зависимости частоты употребляемого слова и длины предложения, в котором оно появляется. Этот метод получил название «диаграммы накапливающихся сумм». С его помощью установлено, что каждому человеку свойствен неизменный индивидуальный стиль. Например, стиль В. Скотта в «Антикварии» (1816) полностью совпадает с его стилем в «Замке опасностей», написанном после перенесённых 3 инсультов, в результате чего у писателя была нарушена речь. Этот метод позволяет выявить «инородные» вставки, обнаруживает попытки «сымитировать» авторский стиль. Приведём другой пример: английская писательница Джейн Остин не окончила повесть «Сандиция», которая обрывается на 73 предложении 11 главы. Литературоведами было установлено, что повесть была дописана другой писательницей (подтверждается с помощью этого метода).
Долгое время в СССР велись споры об авторстве известного романа-эпопеи о жизни донского казачества «Тихий Дон». Дело в том, что литературоведы и писатели (например, А. Солженицын) усомнились в авторстве М. Шолохова из-за молодого возраста автора (роман глубоко раскрывает жизнь и характер донского казачества) и отсутствия рукописи. В работу включились скандинавские учёные под руководством Г. Хьетсо, которые взяли тексты, бесспорно принадлежащие М. Шолохову, и тексты другого донского писателя ? Ф. Крюкова, которому приписывалось авторство названного выше романа, и проанализировали их, выявив особенности творческой манеры каждого писателя. Так, учёные сравнили длину предложений, распределение частей речи, сочетание частей речи в начале и в конце предложения, частоту применения союзов в начале предложений, лексические группы, повторяемость слов при помощи вычислительной техники. Математическая статистика при контрольной выборке на ЭВМ 12 тысяч фраз была представлена исследователями в 250 таблицах. Вывод, к которому пришли исследователи: из двух претендентов на авторство «Тихого Дона» Ф. Крюком обладает меньшим правом. Позднее, в 1999 году, была найдена рукопись первых двух книг знаменитого романа, написанная рукой М. Шолохова, что окончательно утвердило право этого писателя на авторство.
Тот факт, что объём активного лексикона Шекспира составляет от 15 до 24 тысяч слов и что количество новых слов, введённых Шекспиром, превышает 3200 единиц, свидетельствует о том, что Шекспир ? это коллективный псевдоним, под которым писал произведения не один человек. Сравните: у современного англичанина с высшим образованием словарный запас включает около 4 тысяч лексем.
Нужно отметить, что статистическая обработка текста также используется для восстановления текстов по их фрагментам (описание структуры текста на основании очень ограниченной исходной информации), что очень важно для проведения литературоведческих и текстологических исследований.
2. Создание частотных словарей и их значение для литературоведения
Статистическая обработка текста используется также для создания частотных словарей по текстам отдельных авторов, произведений, предметных областей. Они являются основой для создания электронных словарей, компьютерных переводчиков, систем семантического поиска, реферирования и аннотирования текстов, автоматизации изучения стилистических особенностей отдельных авторов и так далее.
Машинные частотные словари составляются по всем текстам отдельных авторов (например, такие словари составлены по произведениям А.С. Пушкина, С. Есенина) и по отдельным произведениям авторов (известны частотные словари по «Капитанской дочке» А.С. Пушкина, «Незнакомке» А. Блока). Подобные словари дают возможность изучать стилистические особенности автора в сравнении с другими авторами, позволяют проследить за изменением стилистических особенностей отдельных авторов в разные периоды их творчества.
Заметим, что компьютер не может объединить различные словоформы в каноническую (словарную) форму, поэтому с его помощью строят лишь частотные словари словоформ (ЭВМ рассортировывает список словоформ по частоте и алфавиту). Алгоритм построения частотного словаря приведен в приложении.
Надёжные выводы по словарям о лексике определенной предметной области, об авторской манере письма можно получить лишь в том случае, если соответствующий частотный словарь построен по текстам достаточно большого объёма. Однако процесс построения частотных словарей очень сложный. То, что человек делает в течение 2?3 лет, машина может сделать за несколько месяцев (с учётом кодирования текстов на машинные носители информации). Чтобы составить подобный словарь вручную, нужно выбрать все страницы, где употреблялось каждое слово, и указать его адрес: том, страницу, произведение. Затем подсчитать, сколько раз встречается каждое слово в текстах. Распределить их по периодам творчества, жанрам, отдельным произведениям. Известно, что коллектив научных сотрудников трудился 20 лет, чтобы составить частотный словарь по полному собранию сочинений А.С. Пушкина. Просчитать требовалось около 600 тысяч слов, причём свыше 21 тысячи слов в текстах были различны. В итоге, каждое слово было выписано на отдельную карточку, содержащую адрес слова. С помощью ЭВМ составлены частотные словари М. Лермонтова (за 600 часов), С. Есенина, Т.Г. Шевченко и других поэтов и писателей [6, p. 73].
Считаем нужным отметить, что создание частотных словарей имеет важное практическое значение для современного литературоведения, потому что их помощью определяется авторство «спорных» текстов. Общеизвестно, что в юношеском возрасте М.Ю. Лермонтов написал несколько «юнкерских» поэм, которые не были опубликованы (существовали в списках). Стиль поэм М.Ю. Лермонтова имитировали и другие писатели. Для того чтобы определить, какие из дошедших в списках поэм принадлежат М. Ю. Лермонтову, и используются литературоведами и текстологами частотные словари. Например, если в «спорном» тексте «лермонтовские» слова встречаются так же часто, как и в произведениях, бесспорно написанных М. Ю. Лермонтовым, то, скорее всего, и этот текст написан им.
Заметим, что текстов, авторство которых до конца не установлено, в истории мировой литературы достаточно много. Например, датский исследователь А. Кристенсен полагает, что не все рубаи (из 500 только 12) Омара Хайяма принадлежат этому поэту. В этом случае литературоведы и текстологи могут проверить авторство, в том числе с помощью частотных словарей.
Как нами уже отмечалось, у каждого писателя свой стиль, своя манера изложения материала, что, безусловно, находит отражение в частотных словарях.
Частотные словари авторов определённой эпохи дают возможность языковедам и литературоведам проанализировать развитие литературного языка в этот период.
3. Создание обратных словарей. Словари рифм
С помощью ЭВМ составляются и обратные словари, в которых слова размещаются по алфавиту, однако сначала идут слова, которые оканчиваются на «а», в конце словаря ? слова на «я» (например, «жаба», «раба», «последняя», «передняя»). Так, обратный словарь русского языка, составленный ЭВМ, включает 150 тысяч слов [6, p. 76].
С помощью компьютера составляются и словари рифм. Например, в США в 1974?1975 годах под руководством профессора Д.Т. Шоу были выпущены словари рифм Пушкина, Батюшкова, Баратынского. Отметим, что подобные словари важны не только для изучения творчества ранее названных поэтов, но и могут быть полезными, например, литературоведам при изучении поэзии и языка конкретной эпохи. Так, словарь рифм А.С. Пушкина включает 3 раздела: словарь концевых слов (нерифмованных и рифмованных), свод рифм (собственно словарь рифм), и указатель стихотворных произведений [7, pp. 196-201].
Считаем необходимым подробнее остановиться на описании структуры словаря рифм. Словарь концевых слов включает 3 части: первую (основную) ? слова, написанные кириллицей, вторую ? латиницей, третью ? непечатные слова, представленные в словаре дефисами, заменяющими буквы. Слова приводятся в тех же формах, что и в базовом тексте (например, слово амура повторяется два раза ? в родительном и винительном падеже) с грамматическими пометами. Около каждой лексемы указаны две цифры: первая обозначает число строк, где она является концевым срифмованным, вторая ? число строк, где она концевое, но не срифмованное. Также в лексемах помечаются гласные последних слогов, а предударная часть отделена апострофом.
Свод рифм включает 4 части (соответственно типам клаузул): рифмы с мужскими, женскими, дактилическими и гипердактилическими клаузулами соответственно. Каждая часть делится на рифмованные гнёзда, в которых объединены слова с идентичными рифмованными сегментами. Рифмованный сегмент у большинства слов совпадает с заударной частью (в тех случаях, когда заударная часть состоит из одной гласной, рифмованный сегмент содержит предударную согласную: разорв'ал ? очаров'ал, текл'и ? дал'и). Рифменный сегмент выносится в заголовок с тремя цифрами, которые обозначают: число концевых слов, что сожержат этот сегмент; число рифмованных и не рифмованных строк, что оканчиваются этим сегментом. Например: (?'еком 4 4 1). Рифменные гнёзда построены в алфавитном порядке заударных частей сегментов.
Указатель произведений ? это список с названиями произведений автора, расположенный по хронологическому принципу. У каждого заглавия указывается расположение произведения в исходном тексте, а также код и числовой порядковый номер, год и статистические показатели.
Отметим, что создание подобных словарей также занимает много времени, ведь сначала нужно обработать исходные тексты вручную. Позже в ходе машинной обработки выдаётся готовый свёрстанный текст, готовый к печати.
Однако словарь рифм Пушкина, выпущенный Д.Т. Шоу, имеет значительные недостатки: он основан на графических свойствах рифм, а не на фонетических. Вследствие такого подхода лексемы, которые обладают идентичными рифменными сегментами, попадают в разные рифменные гнёзда. Например, поп ? лоб, искусство ? чувство. В то время как при фонетическом подходе учитываются: омонимичность, звуковые характеристики рифм. За разработку словаря рифм Пушкина, построенного по фонетическому принципу, взялся советский учёный В.Е. Холшевников. По замыслу этого ученого, второй раздел (свод рифм) включает 4 части (по типу клаузул), а каждая часть ? рифменные гнёзда (соответствуют фонетическим рифменным сегментам). При этом должно учитываться правило оглушения согласных, что ярко отражает особенность произношения русских слов.
Создание словарей рифм классических белорусских поэтов (например, Я. Купалы, Я. Коласа, М. Богдановича), на наш взгляд, имеет важное практическое значение для отечественного и зарубежного литературоведения.
Значение создания электронных словарей и энциклопедий для современного литературоведения
Как известно, объёмы печатных текстов с каждым годом увеличиваются, и возникают проблемы хранения и поиска необходимой информации. Помочь решить подобные проблемы должна компьютерная лексикография. Компьютерная лексикография ? это раздел прикладной лингвистики, который ставит целью создать компьютерные словари и лингвистические базы данных [8, p. 65]. К основным задачам компьютерной лексикографии относятся:
1) определение структуры словаря и зон словарной статьи;
2) разработка принципов составления различных видов словарей.
Энциклопедией называется научно-популярное или научное издание, которое содержит систематизированный блок знаний.
Отличие электронных словарей и энциклопедий заключается в гипертекстуальности. Например, гиперссылки могут быть заложены за любым элементом словарной статьи, что позволяет пользователю быстро осуществлять переход к необходимой информации, находить синонимы и антонимы к исходному слову, слова той же семантической группы и многое другое. Гиперссылки позволяют легко связать разные словари друг с другом. Получив некую информацию, например, о значении некой лексемы, пользователь может быстро перейти по ссылке к комментированию этой лексемы в других словарях (например, терминологических). Считаем необходимым подробнее остановиться на преимуществах электронных словарей и энциклопедий:
1) электронные словари и энциклопедии позволяют по-разному представить содержание словарной статьи, в том числе с помощью разных графических и мультимедийных средств;
2) можно быстро получить информацию, которая находится в «недрах» словаря, и отвечает определенному запросу;
3) электронные словари и энциклопедии быстро реагируют на изменения (например, языковые), поэтому внесение изменений в него не занимает много времени. Так, в результате реформы белорусского правописания 2008 года в Республике Беларусь возникла необходимость переиздавать научную литературу в области литературоведения: поэтические словари, словари литературоведческих терминов и так далее.
Поэтому мы считаем, что компьютерная лексикография является перспективным и очень важным направлением компьютерной лингвистики (в том числе и белорусской), ибо созданные ею продукты отличаются мультимедийностью, объединением новейших технологических решений и способностью дать пользователю доступ к необходимой информации.
Подробнее остановимся на описании первой русской электронной компьютерной энциклопедии в сфере литературоведении. Работа по созданию компьютерной энциклопедии Бориса Пастернака (ПИСК ПАСТЕРНАК, или Поисково-Информационная Система Компьютерная «Всё о Пастернаке») началась в 1997 году [9, p. 315]. Это объясняется тем, что Борис Пастернак является одним из наиболее изучаемых русских поэтов 20 века, о котором написано огромное количество трудов (возникла потребность в систематизации этого материала). Действительно, за период своего творчества гениальный поэт опубликовал роман в стихах, десять книг лирики, поэмы и статьи, перевёл огромное количество поэтических произведений с английского, французского, украинского немецкого и иных языков, чем и объясняется огромное количество критического материала об этом писателе.
Предполагается, что на компакт-дисках будет размещено полное собрание сочинений, а также критические и биографические материалы о гениальном русском писателе. В результате любой пользователь (в том числе и литературовед) может в кратчайший срок получить необходимую информацию, связанную с жизнью и творчеством Бориса Пастернака. Так, в системе имеются текст и словари (алфавитный и частотный). Например, в частотном словаре слова расположены таким образом, что сначала расположены наиболее частотные слова определённого произведения (то есть по убыванию). Так, не прочитав произведения, можно предполагать о теме того или иного произведения. Например, частотный словарь по очерку «Люди и положения» Бориса Пастернака (с указанием в скобках количества употребления) выглядит следующим образом: год (62), жизнь (38), человек (35), время (34), дом (32), Маяковский, новый (по 28), музыка (26), отец (24), большой, поэт, Цветаева (по 22), Блок, мир, Москва (по 21). На основании этих данных можно говорить, что в названный ранее очерк посвящен теме поэта и поэзии
Электронная энциклопедия включает следующие основные разделы: «Поэзия», «Проза», «Музыкальные произведения Пастернака», «Критика о Пастернаке», «События», «Спутники», «Иконография», «Звучащий Пастернак». Система позволяет прочесть на дисплее стихотворения и прозу, написанные в разное время, ознакомиться с частотным и алфавитным словарём, ознакомиться с биографией автора, стихотворными размерами, ритмом, поэтическим синтаксисом, системой рифм, строфикой, звуковым оформлением, критическими отзывами о любом произведении. Если возникнет необходимость, то пользователь может переписать интересующий его материал на дискету или вывести на печать.
Таким образом, ПИСК ПАСТЕРНАК совмещает черты собрания сочинений; факсимильного издания рукописей; алфавитного и частотного словарей; конкорданции (это значит, что выделив любое слово в словаре, читатель может увидеть в окне все случаи употребления этого слова в текстах поэта, а также название книги и произведения, с которого оно взято)
Считаем необходимым более подробно остановиться на описании структуры данной энциклопедии. Так, в разделе «Поэзия» читателю предложены тексты стихотворений, автографы, данные обо всех публикациях каждого поэтического произведения, алфавитный и частотный словари, словарь образов каждого стихотворения, метрические и ритмические характеристики, поэтический синтаксис и строфика.
Раздел «Проза» даёт возможность пользователю ознакомиться с текстом произведения, алфавитным и частотным словарями, данными о публикации прозаических текстов.
Раздел «Критика о Пастернаке» включает четыре окна, в одном из которых читатель видит название всех произведений. Пользователь должен навести курсор на то произведение, информацию о котором он хочет получить (1 окно). После этого в следующем (2) окне появляются фамилии критиков, которые проявляли интерес к его творчеству (насколько известно составителям энциклопедии). Следующее действие пользователя: навести курсор на имя того критика, который ему необходим. Тогда в (3) окне появляются названия, выходные данные критика об этом произведении. В (4) окне кратко излагается отзыв. Приведем пример:
ПРОИЗВЕДЕНИЯ: Когда разгуляется. АВТОР ОТЗЫВА: Баевский В. С. Данин Д. С., Иванова Т. В., Эткинд Е. Г. (Например, выбираем имена Данина и Эткинда). ВЫХОДНЫЕ ДАННЫЕ КНИГИ: Данин Д. С. Бремя стыда. М., 1996. О ЧЕМ ГОВОРИТСЯ: С. 6. О природе и истории. С. 152--153. О подмосковной природе. ВЫХОДНЫЕ ДАННЫЕ КНИГИ: Эткинд Е. Г. Материя стиха. М., 1998. О ЧЕМ ГОВОРИТСЯ: С. 353--354. О «звуковых метафорах».
Раздел «Музыкальные произведения Пастернака» содержит 3 нотных текста Бориса Пастернака, а их звучание ? в разделе «Звучащий Пастернак». Данные, что содержатся в разделах «События» и «Спутники» дают дополнительную информацию о произведениях. Так, в разделе «События» описываются события, связанные с тем или иным произведением: Например, окно «СОБЫТИЯ» включает следующие данные о романе Бориса Пастернака «Доктор Живаго»: «Передача романа в «Новый мир» и «Знамя». В окне «КОГДА ПРОИЗОШЛО» размещена запись: «Март 1956 года». В окне «ПОЯСНЕНИЕ» появляются ссылки на страницы книг, в которых зарегистрирован этот факт.
Раздел «Иконография» включает рубрики: «Фотографии Пастернака», «Рисунки, гравюры, скульптуры», «Личные вещи», «По памятным местам». Например, в рубрике «Фотографии Пастернака» представлены снимки поэта и его родных. В раздел «Звучащий Пастернак» включены исполненные автором и артистами произведения.
Но всё же мы должны констатировать тот факт, что данная энциклопедия имеет некоторые недостатки. Основной её недостаток, на наш взгляд, заключается в том, что в данной энциклопедии освещены биографии и творчество Бориса Пастернака только 1950-х, поэтому ее нельзя считать завершенной.
Мы считаем, что опыт создания подобных энциклопедий должно перенять отечественное литературоведение. Например, в белорусском и мировом литературоведении накоплено достаточно много материала для создания энциклопедий Максима Богдановича, Василия Быкова и иных писателей, широко известных за рубежом. Например, с каждым годом увеличивается объём критического материала про Василия Быкова (его произведения переведены на 50 языков мира), в которых освещается его связь с французскими экзистенциалистами.
4. Автоматизация обработки древних текстов
Автоматическая обработка древних рукописей и подготовка их к последующему изданию привлекает сегодня специалистов из самых различных областей: литературоведов, текстологов, историков языка и так далее. Например, перед литературоведами и текстологами стоит задача объективно проанализировать текст с точки зрения языка, стилистических особенностей, установить авторство, место и время написания (по возможности).
При вводе древних текстов в компьютер исследователи могут столкнуться со следующей трудностью: нельзя использовать сканер, так как:
тексты древних рукописей нелинейные: имеются надстрочные знаки;
встречаются слитные написания 2 или более букв (лигатуры);
в самых ранних текстах нет деления на слова;
знаки препинания расставлены неверно;
нельзя использовать программу выявления опечаток и орфографических ошибок, так как одно и то же слово может иметь различные варианты написания.
После ввода текста его обязательно нужно выверить. Так, как в древних текстах отсутствуют орфографические нормы, то перед исследователем стоит ответственная задача: посимвольно сравнить введенный текст и исходный.
Затем на основании текста составляются конкордансы (для каждого слова приводятся все минимальные контексты), словоуказатели и индексы (слова расположены в алфавитном порядке с обязательным указанием адресов в тексте), словари (частотный, алфавитный или алфавитно-частотный). Например, в алфавитно-частотном словаре лексемы расположены в алфавитном порядке, причём для каждого из них указана частота в тексте.
Любая программа составления словарей включает 3 части:
ввод текста в оперативную память, выделение единиц текста и обязательное выделение их параметров (например, адресов);
сортировка единиц по определённому параметру (например, по частоте употребления);
вывод результата на экран, запоминающее устройство или принтер.
Важной проблемой, требующей решения, при составлении словарей является трудность определить грамматические характеристики словоформы а также отождествление разных графических вариантов лексемы.
Приведем пример разработки автоматизированного банка данных по памятникам русской агиографии (агиобиографиии) 15?16 веков. Заметим, что русская филологическая школа достаточно долго исследовала древнеславянскую литературу конфессионального жанра. Исследования по автоматизации обработки древнерусских текстов начали проводиться в 1980 году на кафедре математической лингвистики ЛГУ, ИРЛИ АН СССР и ГПБ имени М.Е. Салтыкова-Щедрина [10, pp. 512-513]. Учёные обратились к изучению памятников агиографического жанра, потому что эти памятники были менее изученными и дают представление о развитии литературного языка 11?17 веков. Кроме того, создание подобного банка данных имеет большое значение для литературоведов, ибо он позволит проанализировать историю литературы и развитие литературного языка.
На первом этапе литературоведами была создана картотека канонизированных русских святых (причем были учтены разные издания текстов). Отметим, что работы по созданию электронного словаря на основе агиографического жанра на данный момент не окончены.
В процессе моделирования любого языка особое место занимают словоуказатели, ибо с их помощью можно получить ценную информацию о лексическом составе памятника. Планируется, что данный словоуказатель будет включать все словоформы одной лексемы с обязательным указанием её адреса. В дальнейшем информационно-поисковая система позволит пользователю ознакомиться:
с адресами словоформ;
с минимальным контекстом определённой словоформы;
с целым текстом памятника, в котором встречается запрашиваемая словоформа;
с грамматическими формами слова (это важная информация для историков языка);
с орфографическими нормами слова;
с обратным словарём словоформ.
В итоге пользователю необходимо будет указать словоформу, и компьютер выдаст для этого слова все контексты и адреса.
Отметим, что создание подобных информационно-поисковых систем важно для широкого круга пользователей: историков языка, текстологов, литературоведов, любителей языка.
Заключение
Как показало наше исследование, современные учёные-литературоведы широко используют в своей работе компьютерные технологии. Так, при машинных стилистических исследованиях определяется принадлежность текстов к разным языковым стилям и жанрам, выявляются индивидуально-авторские особенности стиля писателя путём анализа его текстов большого объёма. Для атрибуции же текстов литературоведы и текстологи могут использовать программу «Лингвоанализатор». Для восстановления текстов по их фрагментам (описание структуры текста на основании очень ограниченной исходной информации) литературоведами и текстологами может быть использована статистическая обработка текста.
Во всём мире ещё с 20 века создаются машинные частотные словари (отдельного произведения, языка писателя или определённой эпохи), с помощью которых литературоведы могут определить авторство «спорных» текстов или изучить стилистические особенности произведений по сравнению с произведениями других авторов, проанализировать эволюцию стилистических особенностей отдельных писателей в различные периоды их творчества.
Сегодня перспективным направлением прикладной лингвистики является компьютерная лексикография. Это, на наш взгляд, объясняется тем, что созданные ею продукты отличаются мультимедийностью, объединением новейших технологических решений и способностью дать пользователю доступ к необходимой информации. С помощью ЭВМ создаются обратные словари, словари рифм, электронные словари, энциклопедии, информационно-поисковые системы в области литературоведения. Мы считаем, что традиционная литература должна в скором времени перейти в электронную, ибо последняя имеет заметные преимущества над первой. Например, электронные словари и энциклопедии быстро реагируют на изменения (например, языковые), поэтому внесение изменений в него не занимает много времени.
На основе сказанного раннее, мы пришли к выводу, что в начале 21 века учёный-литературовед не может обойтись в своей исследовательской деятельности без информационных технологий.
Размещено на Allbest.ru
Подобные документы
Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.
курсовая работа [46,4 K], добавлен 16.09.2011Понятия, определения и терминология информационных технологий. Роль и значение ИТ для современного этапа развития общества и их значение для экономики стран. Методы обработки информации в управленческих решениях. Классификация информационных технологий.
реферат [1,8 M], добавлен 28.02.2012Функции текстового редактора как программы для работы с текстом. Использование редактора MS Word в научной деятельности исследователя-ономаста. Технология распознавания текста и организация работы с программой FineReader. Системы распознавания речи.
реферат [979,3 K], добавлен 16.10.2013Основные черты современных информационных технологий и компьютерной обработки информации. Структура экономической системы с позиции кибернетики. Ключевые функции системы управления: планирование, учет, анализ. Классификация информационных технологий.
контрольная работа [45,9 K], добавлен 04.10.2011Определение IT технологий и искусственного интеллекта. Особенности информационных процессов по законодательству РФ. Информационная технология как аналог переработки материальных ресурсов. Роль и значение информационных технологий. IT в военном деле.
презентация [7,7 M], добавлен 22.08.2017Основные свойства информационных технологий в экономике. Классификация, главные компоненты и структурная схема информационных технологий. Системные и инструментальные средства. Особенности взаимодействие информационных технологий с внешней средой.
презентация [217,3 K], добавлен 22.01.2011Сущность понятия "коллаж". Особенности создания эффекта фотоколлажа. Техника мозаики, пазла. Понятие о центровом варианте (центрировании). Использование эффектов фильтра при создании работы. Процесс создания огненного текста "CrossFire" в AdobePhotoshop.
контрольная работа [6,6 M], добавлен 05.01.2013Информационные технологии, сущность и особенности применения в строительстве. Анализ деятельности информационных технологий, основные направления совершенствования применения информационных технологий, безопасность жизнедеятельности на ООО "Строитель".
дипломная работа [1,7 M], добавлен 26.09.2010Появление и развитие компьютеров. Разработка технологий управления и обработки потока информации с применением вычислительной техники. Свойства информационных технологий, их значение для современного этапа технологического развития общества и государства.
презентация [148,7 K], добавлен 13.01.2015Теоритические аспекты информационных технологий на предприятиях. Системы, используемые в информационных технологиях. Особенности применения информационных технологий в маркетинговой деятельности. Влияние информационных технологий на туристическую отрасль.
курсовая работа [498,9 K], добавлен 29.10.2014