Создание электронного корпуса "Русский Паскаль" на основе переводческих текстов произведения Блеза Паскаля "Мысли"

Понятия корпусной лингвистики, методы создания корпуса. Описание проекта "Весь Толстой в один клик". Описание языка программирования Hypertext Preprocessor, взаимодействие с HyperText Markup Language. Раздел электронного корпуса текстов Русский Паскаль.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 21.09.2016
Размер файла 72,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Создание электронного корпуса "Русский Паскаль" на основе переводческих текстов произведения Блеза Паскаля "Мысли"

Оглавление

Введение

Глава I. Общие сведения о корпусной лингвистике

1.1 Понятия корпусной лингвистики

1.2 Методы создания корпуса

1.3 Обзор корпуса "Русский Шекспир"

1.4 Описание проекта "Весь Толстой в один клик"

1.5 Параллельный корпус переводов "Слова о полку Игореве"

Глава II. Описание языка и средств разработки

2.1 Описание языка программирования PHP

2.2 Описание HTML. Взаимодействие PHP и HTML

2.3 Описание средств разработки

Глава III. Электронный корпус текстов "Русский Паскаль"

3.1 Разработка электронного корпуса текстов "Русский Паскаль"

3.2 Раздел "Биография"

3.3 Раздел "О "Мыслях"

3.4 Раздел "Переводы"

3.5 Другие разделы

Заключение

Библиография

Приложение

Введение

Современная лингвистика в значительной степени отличается от лингвистики прошлого века. Раньше сфера лингвистических исследований была связана с изучением основ языка, его истории. На сегодняшний день поле деятельности лингвиста намного шире, что позволяет изучить не только глубинные основы языка, но и всю языковую систему.

Современная лингвистика расширяет свои границы. Сегодня очень популярной является область компьютерной лингвистики, которая позволяет уже сейчас изучить язык с разных точек. При помощи компьютера лингвист способен создавать программы по обработке естественного языка, по распознаванию голоса, создавать лингвистические словари, оцифровывать тексты.

Совсем недавно появилась новая отрасль компьютерной лингвистики, такая как лингвистика корпусов. Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения и использования корпусов текстов с применением компьютерных технологий. Это современный инструмент изучения языка при помощи специально размеченных текстов. Корпус текстов дает возможность решить новые языковые задачи, о которых лингвисты не задумывались ранее. Сегодня корпусная лингвистика - это новый подход к изучению использования языка в современном мире при помощи компьютерного инструментария.

На сегодняшний день корпусная лингвистика имеет большую популярность в изучении языков и литературы. Корпус - это информационная система, основанная на сборе текстов на некотором языке и представленная в электронной форме. Собрание переводческих текстов произведения французского философа Блеза Паскаля предоставляет возможность решить новые задачи и углубиться в исследование его творчества. Его произведение "Мысли", или же "Мысли господина Паскаля о религии и некоторых других предметах", является классикой французской литературы, а также главным предметом изучения лиц, заинтересованных в удивительной жизни Блеза Паскаля. "Мысли" содержат около тысячи фрагментов, записок, различных по объему и жанру их написания, лишь частично классифицированных по темам самим автором. Многие из этих фрагментов отражают различные философские воззрения Паскаля: о человеке и природе, о познании и философии, и другое. Труд французского философа и литератора интересовал многих исследователей и переводчиков. Иначе говоря, ознакомиться с текстом "Мыслей" в переводах на русский язык можно использовав издания разных авторов, что представляется интересным для данной работы и обуславливает актуальность темы. Новизна работы заключается в составлении корпуса переводческих текстов произведения "Мысли" французского философа Блеза Паскаля.

Объектом изучения являются переводческие тексты "Мыслей" разных авторов, рассматриваемых в данной работе: Долгова С., Линецкой Э.О., Гинзбург Ю.А. и Хомы О.И. Предметом изучения является электронный корпус переводческих текстов "Русский Паскаль".

При создании данной работы были использованы различные методы. При сборе материала был использован метод сплошной выборки, при анализе и описании - описательный метод, основанный на сборе и описании материала и его характеристик, а также биографический метод изучения литературы.

Теоретическо-методологическую базу данной работы составляют работы Захарова В.П. и Богдановой С.Ю. по корпусной лингвистике, Плунгяна В.А. по вопросам современной лингвистики и других авторов, Кузнецова М.В. по вопросам программной части, Тарасова Б.Н. и Кашлявик К.Ю. по творчеству Блеза Паскаля.

Изначально задуманное произведение Блезом Паскалем "Апология христианской религии" должно было содержать критику атеизма и защиты веры. Однако в ходе работы над своим трудом Паскаль углублялся в проблемы религии и со временем замысел произведения изменился. Сохранившиеся фрагменты философского труда были собраны в одно издание под названием "Мысли". Тысячи фрагментов уже представляли собой некий корпус воззрений о человеке, природе, философии. Произведение не раз переводилось на многие языки мира, в том числе и русский язык. Поэтому идея собрать известные издания переводов в один корпус текстов послужило основой для выбора темы данной работы - "Создание электронного корпуса текстов "Русский Паскаль".

Таким образом, можно сформулировать цели и задачи.

Цель работы - создать электронный корпус "Русский Паскаль" на основе переводческих текстов произведения Блеза Паскаля "Мысли". Поставленную цель можно реализовать путем выполнения следующих исследовательских задач:

1. Ознакомиться с концепциями корпусных исследований;

2. Изучить языковые и программные средства корпусной лингвистики;

3. Получить навыки с программными средствами и информационными ресурсами необходимыми для создания электронного корпуса;

4. Исследовать жизнь и творчество французского философа Блеза Паскаля;

5. Ознакомиться с переводами "Мыслей" Блеза Паскаля, входящих в базу электронного корпуса.

Для решения выше поставленных задач используется комплексная методика: метод статистической обработки данных, метод лингвистического анализа, метод наблюдения и описания языковых фактов, метод оценки.

Данная работы включает в себя несколько частей. Первая глава является теоретической и объясняет основные понятия корпусной лингвистики. Вторая глава объясняет теоритическую часть по средствам разработки электронного корпуса. Третья глава - практическая, включающая в себя результаты создания электронного корпуса текстов "Русский Паскаль". В заключении подведены итоги, согласно поставленной цели и отражены выводы, полученные в ходе работы.

Теоретическая значимость исследования заключается в том, что работа является вкладом в разработку нового подхода в изучении творчества Блеза Паскаля с использованием компьютерного инструментария на основе корпусных исследований.

Практическая значимость работы состоит в том, что результаты исследования могут стать базой для исследования творчества Блеза Паскаля, а также основанием для дальнейших исследований по сравнению переводов.

Глава I. Общие сведения о корпусной лингвистике

1.1 Понятия корпусной лингвистики

Корпусная лингвистика - это "раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий". Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. - Иркутск: ИГЛУ, 2011. - 161 с. Под корпусом текстов понимается большой массив структурированных языковых данных с разметкой в электронном виде для решения лингвистических задач.

Существует много значений понятия "корпус". Национальный корпус русского языка (НКРЯ) определяет корпус как "информационно-справочную систему, основанную на собрании текстов на некотором языке в электронной форме". Национальный корпус русского языка. [Электронный ресурс]. Режим доступа: http://ruscorpora.ru/index.html, свободный. - Загл. с экрана. Дата обращения: 22.03.2016. Определение корпуса из учебника Финегана Э. следующее - "корпус - репрезентативное собрание текстов, обычно в машиночитаемом формате и включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории". Finegan E. LANGUAGE: its structure and use. - N.Y.: Harcourt Brace College Publishers, 2004. Рыков В.В. говорит, что "корпус текстов как некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты и воплощенная в правилах организации текстов в корпус, алгоритме и программе анализа корпуса текстов, сопряженной с этим идеологии и методологии". Рыков В.В. Корпус текстов как реализация объектно-ориентированной парадигмы // Труды Международного семинара Диалог-2002. - М.: Наука, 2002. Вилсон Э. и МакЭнери Т. утверждают, что "корпус - это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка". McEnery T., Wilson, A. Corpus Linguistics. - Edinburgh: Edinburgh University Press, 2001.

Другими словами, можно сказать, что лингвистические корпусы - это набор текстов, размеченных по определённым параметрам и снабженные специальной системой поиска для извлечения необходимых лингвистических данных. Главными признаками корпуса являются - машиночитаемый формат, репрезентативность, металингвистическая информация.

Согласно определениям, можно говорить, что корпусная лингвистика включает в себя два основных аспекта: первое - создание корпуса, разметка данных, а также устройство системы для поиска; второе - лингвистический аспект исследования на базе созданных корпусов.

Понятие "корпус текстов" включает в себя корпусный менеджер - поисковую систему, которая содержит программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов в определенном формате.

Поиск по корпусу позволяет построить конкорданс для каждого слова - список всех употреблений слова в контексте с ссылками на источник. Корпусы используются для получения различных статистических данных о единицах языка и речи. К примеру, на основе данных из корпуса можно получить информацию о частоте словоформ, лексем, грамматических категорий, узнать об изменениях частот и контекстов в разные временные периоды, извлечь информацию о совместной встречаемости лексических единиц и т.д.

По мнению Финегана Э., корпусная лингвистика - это деятельность, которая необходима для использования корпуса и его создания, и направлена на исследования языка и его естественного употребления. Finegan E. LANGUAGE: its structure and use. - N.Y.: Harcourt Brace College Publishers, 2004. Из этого определения можно видеть двойственность лингвистики корпусов - это создание корпусов и их использование. Таким образом можно говорить и о двойственном характере объекта корпусной лингвистики - во-первых, корпус текстов может быть использован как речевой материал для лингвистики корпусов и других дисциплин, во-вторых, корпус текстов - это результат деятельности самой корпусной лингвистики.

Плунгян В.А. говорит о том, что лингвистика корпусов - это инструмент, использование которого меняет наше представление о языке. Корпус дает возможность решать абсолютно новые задачи, о которых ранее не задумывались лингвисты. Прежде всего это задачи, связанные с изучением массивов текста больших по объему, - если ранее эта задача была сверхтрудоемкой, то сейчас лингвистам исследовать данную область гораздо легче, так как есть такой инструмент как корпус текстов. Плунгян В.А. Почему современная лингвистика должна быть лингвистикой корпусов. [Электронный ресурс] / Полит.Ру. Лекции. Режим доступа: http://www.polit.ru/article/2009/10/23/corpus, свободный. - Загл. с экрана. Дата обращения: 22.03.2016.

Предметом корпусной лингвистики являются - теоретическая основа и практический механизм, которые используются для создания, а также представления больших объемов лингвистических данных для исследований в области языка.

На сегодняшний день корпусная лингвистика понимается как новый подход в лингвистике, который связан с использованием языка "реальной жизни" при помощи компьютерных технологий и электронных корпусов. Говоря о корпусной лингвистке как о самостоятельной дисциплине, можно выделить следующее: 1) тональность словесного материала, который используется, 2) своеобразие инструментария.

Корпусная лингвистика - такая методология, применимая ко многим аспектам исследований языка. Корпусную лингвистику называют "пучком методов из разных областей лингвистических исследований". Lьdeling A., Kytц M., eds. Corpus Linguistics. An International Handbook. Volumes 1, 2. - Berlin & New York: Walter de Gruyter, 2008. Как метод лингвистического анализа, корпусная лингвистика связана также с исследованиями, которые направлены на установление фактов между языками - общих и отдельных, диалектами или вариантами языка в ходе сопоставительного изучения. Гвишиани Н.Б. Практикум по корпусной лингвистике: Учеб. пособие по английскому языку. - М.: Высшая школа, 2008.

1.2 Методы создания корпуса

Создание любого корпуса предусматривает несколько этапов, а также некоторых вопросов, отражающих его структуру. Прежде всего необходимо решить тематику жанровой структуры корпуса: что является текстом в корпусе, что считается отдельным фрагментом и другие не менее важные вопросы. Также важна и хронология. Считается, что для каждого корпуса должны быть свои хронологические рамки.

Корпус разрабатывается для широкого круга пользователей, а также для решения самых различных задач. Как правило, такие задачи возникают в процессе проектирования, а решение находят при непосредственном создании и эксплуатации корпуса.

Технологию создания корпуса можно описать следующим образом.

1. Поступление текстов в соответствии с источниками.

2. Преобразование документов в машиночитаемый формат.

3. Предварительная обработка текстов и анализ данных - филологическая выборка и корректировка, а также описание библиографических и экстралингвистических данных.

4. Конвертирование и графематический анализ.

5. Разметка текста, включающая в себя дополнительную информацию о тексте и его компонентах (метаданные).

6. Корректирование автоматической разметки.

7. Конвертирование размеченных текстов в информационно-поисковую систему.

8. Реализация доступа к корпусу.

9. Создание документации, где содержится информация о разработке и использовании корпуса.

Но стоит отметить, что для каждого отдельного корпуса количество этапов его создания может отличаться от вышеперечисленных.

Отбор источников

Одной из особенностей корпуса текстов является то, что при его разработке возникает ряд проблем, касающихся отбора источников информации. Что будет являться единицей корпуса? Каким будет его объем? Сколько источников будут представлено и какие они, из какой области? - основные задачи при отборе данных.

Основной единицей в корпусе могут быть словоупотребления, основы и предложения. Объем проектируемого корпуса зависит от целей его разработки. При этом также встают вопросы касательно жанров и хронологии текстов. Ответом на них создатели обычно используют метод анкет, а также консультируются со специалистами в области языкознания. "Специалисты определяют общий объем корпуса текстов, время издания текстов, число текстов и размер элементарной выборки, жанры отбираемых текстов и их количество, число элементарных выборок из каждого жанра". Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. - Иркутск: ИГЛУ, 2011. - 161 с.

Процессы обработки естественного языка.

В современном понимании корпус - это компьютерная база данных, в процессе разработки которого проходит ряд программ и специальных процедур. Например, токенизация - процесс разбиения потока символов естественного языка на отдельные значимые единицы (токены). Такой процесс является одним из необходимых условий для дальнейшей обработки естественного языка. "Если бы языки обладали совершенной пунктуацией, токенизация не представляла бы сложности - даже самая простая программа могла бы разделить текст на слова, руководствуясь пробелами и знаками препинания. Но в действительности языки подобной пунктуацией не обладают, что усложняет задачу токенизации". Там же, с. 40.

Другая задача морфологического анализа - лемматизация - образование начальной формы слова, исходя из его других словоформ. Процесс нахождения основы слова называется стеммингом. Главным отличием стемминга от лемматизации заключается в том, что на данном этапе отдельно слово обрабатывается без знания контекста, тем самым не может дифференцировать слова, имеющие разные значения. В то время как лемматизация связана с идентификацией частей речи и сокращает слова до советующих лексем. "Именно лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов". Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. - Иркутск: ИГЛУ, 2011. - 161 с.

Процесс сопоставления линейной последовательности слов (лексем, токенов) с их формальной грамматикой называется парсингом. Результатом такого процесса является синтаксическое дерево - дерево зависимостей. Построение автоматических парсеров - одна из самых важных задач в области компьютерной лингвистики. Множество подходов объединяет количественные и качественные измерения. Многие парсеры используют подходы, которые прямо моделируют специфические лингвистические теории. Проектирование таких анализаторов напрямую связано с развитием этих теорий. Так как большинство предложений неоднозначны, то на основе правил должна быть разработана стратегия снятия неоднозначности. "Многие стратегии снятия неоднозначности полагаются на количественные данные - частоту данной структуры в данном корпусе (тип), ограничения на выборку для данных лексических единиц, которые были получены или выделены из корпусных данных, и т.д.". Там же, с. 42.

При рассмотрении предварительной обработки корпусов стоит обратить внимание на следующие условия.

1. Каждый этап подготовки текста к обработке указывает создателю корпуса на принятие некоторых лингвистических решений, которые в дальнейшем влияют на оценку корпуса. Пользователь должен знать об этих решениях, чтобы уметь найти то, что ему необходимо.

2. Пользователь корпуса должен быть осведомлен какая работа была проведена на этапе первоначальной обработки текста, возможных ошибках, которые могут повлиять на результаты, полученные им при работе в корпусе.

Разметка корпуса

Для обработки естественного языка обычно используются программы автоматической разметки. Разметка корпуса - трудоемкий процесс, в результате которого каждой единице текста приписываются ее грамматические или синтаксические характеристики. Но стоит отметить, что автоматическая разметка не безошибочна, и как правило, выдает несколько вариантов проведенного анализа одной лексической единице. В таком случае упоминают о грамматической омонимии. Снятие омонимии - одна из самых сложных задач компьютерной лингвистики.

Чтобы решить различные лингвистические задачи недостаточно иметь массив текстов, необходимо также, чтобы тексты содержали лингвистическую и экстралингвистическую информацию. К лингвистической разметке относится морфологический, синтаксический, семантический, анафорический, просодический, дискурсный и другие типы разметки. Экстралингвистическая разметка отражает "внешние" данные о тексте: библиографические, типологические, тематические, социологические и другие характеристики; а также технологическую разметку - дату обработки, исполнителей, кодировку текста и др. Такая разметка необходима для выявления взаимосвязи языка и его существования, а также для изучения подмножеств языка.

Таким образом, разметка - это процесс приписывания тексту и его компонентам специальных лингвистических и экстралингвистических данных.

1.3 Обзор корпуса "Русский Шекспир"

О проекте

Корпус "Русский Шекспир" представляет собой информационно-исследовательскую базу данных, в состав которой входят публикации переводческих текстов произведений Шекспира на русский язык, а также вольных переложений, переделок его произведений, начиная с середины 18 века, публикации критических работ и различных исследований по творчеству Шекспира, информацию об истории шекспироведения, по проблеме авторства, по отдельным произведениям, а также их театральным и кинематографическим версиям. База данных "Русский Шекспир" содержит публикации уникальные версии печатных источников, большинство которых недоступны многим исследователям, а также результаты различных текстологических исследований, выполненных авторским коллективом проекта.

Как утверждают авторы проекта, основным значением созданной базы данных является "рецепция наследия Шекспира в России и в ряде других стран, его влияние на русскую культуру, литературу и театр, справочные ссылки на обширные информационные ресурсы по Шекспиру в Интернете". Русский Шекспир. [Электронный ресурс]. Режим доступа: http://rus-shake.ru, свободный. - Загл. с экрана. Дата обращения: 25.03.2016. Согласно этому, проект предлагает новую методику в изучении шекспировских произведений с учетом использования компьютерного инструментария и современных технологий. Такая база данных может быть основой в научной и переводческой деятельности, а также быть полезной для любого ценителя творчества Шекспира.

Информационный проект направлен на решение научных и прикладных проблем. Шекспир, как один из величайших поэтов и писателей мировой литературы, является самым популярным автором среди исследователей. Его пьесы переведены на основные языки и до сих пор ставятся в театрах и служат основным сюжетом для кинематографических картин.

Творчество Шекспира оказало большое влияние на культуру России, а также литературу и театр. Интерес к Шекспиру растет с каждым годом, в связи с чем расширяется круг почитателей его творчества и привлекает исследователей к еще большему изучению его творчества. Иная проблема - это сбор и хранение текстовых документов для такого широкого круга пользователей, интересующихся творчеством Шекспира.

Создание такой информационной базы как "Русский Шекспир" представляет собой решение этих проблем и предоставляет доступ к различным изданиям, содержащих тексты шекспировских произведений.

Состав корпуса

Информационно-исследовательская база данных "Русский Шекспир" содержит электронные варианты текстов и переводов произведений Шекспира на русский язык, а также критические работы, монографии, рецензии, различные статьи и т. д. База предполагает публикации большого количества источников, начиная с 18 века.

Сайт предлагает два информационных раздела, один из которых содержит переводы произведений Шекспира на русский язык, расположенных в алфавитном и хронологическом порядке, а второй - критические работы, посвященные творчеству и жизни Шекспира.

Тексты, представленные в базе данных, подготовлены в соответствии с требованиями к научным изданиям. Технология подготовки информационной базы основана на языке с разметкой XML, что обеспечивает необходимое воспроизведение текста с учетом особенностей оригинала. Помимо основных переводческих текстов система содержит рекомендательные библиографические описания.

1.4 Описание проекта "Весь Толстой в один клик"

О проекте

"Весь Толстой в один клик" - проект, целью которого является создание эталонной электронной версии 90-томного собрания сочинений русского писателя Льва Толстова, осуществленный Государственным музеем Толстого Л.Н., Музеем-усадьбой "Ясная Поляна" и компанией ABBYY, занимающейся разработкой технологий в области распознавания текстов. Собрание сочинений включает в свой состав не только известные произведения автора, но и редкие повести, рассказы, дневники и письма. На сегодняшний день такая библиографическая редкость доступна в интернете в виде архива отсканированных страниц, но благодаря идеи проекта, а также помощи волонтеров, сайт предлагает произведения великого русского писателя в удобных машиночитаемых форматах и отличном качестве. Теперь любой пользователь может с легкостью загрузить любое произведение Толстова Л.Н

Проект начался 18 июня 2015 года и всего через две недели люди самых разных возрастов и профессий выступили в качестве участников, которые в дальнейшем занимались распознаванием текстов при помощи программы ABBYY FineReader в несколько этапов. Волонтерам со всего мира необходимо было проверить все тексты на ошибки, которые возникли при оцифровке текстов, и провести тщательную вычитку. Это уникальный пример краудсорсингового проекта такого рода.

Руководитель проекта, заведующая отделом развития Государственного музея Л.Н. Толстого, праправнучка писателя Фекла Толстая комментирует: "Мы, конечно, надеялись, что в нашей стране найдется несколько сот человек, готовых нам помочь. Но никто не ожидал, что уже в первые десять дней тысячи волонтеров прочтут 90 томов и закончат первый этап". Лев Толстой. [Электронный ресурс]. Режим доступа: http://tolstoy.ru, свободный. - Загл. с экрана. Дата обращения: 25.03.2016.

Состав корпуса

Результаты проекта размещены на сайте в двух разделах: Художественные произведения и 90-томное собрание сочинений.

1.5 Параллельный корпус переводов "Слова о полку Игореве"

О проекте

Параллельный корпус переводов "Слова о полку Игореве" был организован в 2007 году под руководством научного коллектива, в состав которого вошли Орехов Б.В., Слободян Е.А. и Рыбина М.С. В 2008 году при поддержке Российского гуманитарного научного фонда в корпус было добавлено 176 текстов на 40 языках. В 2009 году совместно с Беловым А.А. вышла обновленная версия корпуса с возможностью поиска по текстам.

"Слово о полку Игореве" - это древнейший памятник русской культуры, текст которого уникален и представляет особый научный интерес для исследователей. Это произведение было переведено множество раз на русский язык, что ни одно другое произведение русской литературы не может поспорить с этим в количестве переводов. Существует более 90 переводов "Слова…" на русский язык.

Также, бытует мнение, что количество переводом может увеличиваться, учитывая тот факт, что поэтический перевод "Слова…" переходит в особый жанр литературы. Помимо этого, есть как минимум 200 переводов "Слова…" на другие языки.

Собрать все переводы в одном месте - задача актуальная и сложная. Необходимо собрать материал, разместить его так, чтобы пользователю было удобно читать текст, сравнить переводы. Но создателям параллельного корпуса переводов "Слова о полку Игореве" удалось справиться с такими нелегкими задачами и создать удобный интерфейс корпуса с возможностью выбора выводимых переводческих текстов на экран, которые можно отмечать галочкой в определенной форме, тем самым формировать свой пользовательский подкорпус.

Параллельный корпус переводов "Слова о полку Игореве" представляет интерес для филологов, историков языка и литературы, а также всех, кто интересуется русской словесностью. Также корпус может быть использован для преподавания русского языка и переводоведения. Интерфейс корпуса предусмотрен на английском, немецком, хорватском и украинском языках.

Состав корпуса

В состав корпуса входит более 90 переводов на русском языке, а также есть не менее трех десятков текстов, которые пока не вошли в корпус.

Меню корпуса предлагает распределение текстов по четырем категориям: тексты и издания, переводы на современный русский язык, переводы на славянские языки, переводы на другие языки.

Выводы Корпусная лингвистика, представляющая собой создание и разработку текстовых корпусов, предлагает широкие возможности для исследований. На сегодняшний день корпусная лингвистика является новым подходом к изучению использования языка и литературы при помощи компьютерного инструментария.

Корпус, представляющий собой электронную информационную систему в виде текстов, дает возможность решить новые языковые задачи в современном мире. Тексты, входящие в состав корпуса, не предназначены для чтения. Их можно читать, но прежде всего эти тексты собраны для изучения. Специальным образом собранные, обработанные и оснащенные метатекстовой информацией, такие тексты являются основой для изучения и решения проблем в области языкознания и литературы.

На сегодняшний день корпусная лингвистика - это популярная наука, о чем свидетельствует создание различных корпусов. К примеру, существует множество национальных общеязыковых корпусов для большинства языков мира, или же корпуса переводов одного произведения. Рассмотренные в данной работе корпуса также подтверждают актуальность создания корпусов. "Русский Шекспир", "Весь Толстой в один клик", параллельный корпус переводов "Слова о полку Игореве" - это уникальные проекты по созданию информационной базы текстов, проекты по разработке текстовых корпусов, представляющих интерес для исследователей, прежде всего в области литературы. Такие корпуса, представляющие большое собрание текстов, предлагает новую методику в изучении отдельных произведений с учетом использования современных компьютерных технологий. Такая база данных может быть основой в научной и переводческой деятельности. Кроме того, корпуса представляют интерес для филологов, историков языка и литературы, а также всех, кто заинтересован в творчестве того или иного автора. Актуальность создания таких корпусов - это основа для будущих исследований.

Глава II. Описание языка и средств разработки

2.1 Описание языка программирования PHP

Язык программирования PHP является универсальным, иначе может использоваться для создания практически любых программ. Однако наибольшее распространение он получил в области веб-разработки. Основная масса приложений, созданных с применением PHP, обслуживает веб-сайты.

Язык PHP является интерпретируемым языком программирования. Это означает, что программа выполняется строчка за строчкой, а не компилируется в исполняемый модуль. С одной стороны, это приводит к тому, что программы выполняются более медленно по сравнению с компилируемыми языками, с другой стороны исходный код приложения может быть отредактирован в любой момент.

История PHP

Язык программирования PHP был создан осенью 1994 года датским программист Расмусом Лердорфом (Rasmus Lerdorf). Изначально Лердорф планировал написать движок для своей персональной странички, завершив работу к 1995 году. Движок был написан на языке Perl с целью подсчета количества посетителей домашней странички программиста, на которой было размещено его резюме. Этот движок был назван Personal Home Page Tools (PHPT), а позже название перешло в аббревиатуру PHP.

Стоит отметить, что в 1994 году специальных инструментов для создания веб-приложений не существовало, да и сам интернет только начинал свое развитие. Поэтому движок, разработанный Лердорфом, вызвал огромный интерес разработчиков с просьбой предоставить свой инструментарий. Такой успех PHP привел к тому, что Лердорф приступил к разработке различных расширений языка. В том же 1994 году был разработан пакет, предназначенный для обработки HTML-форм, который назывался FI (Form Interpretator). А к середине 1995 года была выпущена вторая версия языка, которая называлась PHP/FI. К этому времени при разработке языка датский программист перешел на компилируемый язык С. Тогда же в PHP была добавлена поддержка основных баз данных, что усилило популярность вновь созданного языка.

К концу 1997 года два программиста - Зив Сураски (Zeev Suraski) и Энди Гутманс (Andi Gutmans) - переписали первоначальный лексический анализатор, и к лету 1998 года в полной мере вышла в свет третья версия языка - PHP 3. Развитие PHP стремительно продолжалось, в язык добавлялись новые функции, и в 1999 году количество разработчиков, использующих PHP, превысило миллион, что сделало PHP одним из самых популярных языков для разработки веб-приложений.

В 2000 году появилась четвертая версия языка - PHP 4.0, благодаря созданию более устойчивого лексического анализатора, на базе которого можно было строить полномасштабные приложения. Создание анализатора было осуществлено фирмой Zend Technologies Ltd. В этой версии появилась возможность создания объектно-ориентированных приложений. В 2004 году была выпущена новая версия языка - PHP 5.0 на базе машины Zend Engine 2. Основные изменения в новой версии коснулись реализации объектно-ориентированного подхода, некоторых концепций которого не хватало в предыдущей версии языка. Практически сразу после выхода версии PHP 5.0 разработчики приняли план по созданию PHP 6.0, которая на данный момент не стабильна и предназначена лишь для тестирования.

3 декабря 2015 года было объявлено о выходе PHP версии 7.0.0. Новая версия основывается на экспериментальной ветке PHP, которая изначально называлась phpng (следующее поколение PHP), и разрабатывалась с упором на увеличение производительности и уменьшение потребления памяти.

Итак, PHP сейчас это:

· поддержка платформ Win32 (9x/NT/2000/XP), UNIX, OS/2, QNX, MacOS, BeOS, OCX;

· совместимость с серверами: Apache (Win32, UNIX), phttpd, fhttpd, thttpd, ISAPI (Zeus, IIS), NSAPI, модулем Roxen/Caudium, AOLServer;

· поддержка технологий COM, XML, Java, CORBA, WDDX, Macromedia Flash;

· развитая функциональность для работы с сетевыми соединениями;

· поддержка свыше 20 баз данных и развитая функциональность для работы с ними;

· возможность создания полноценных объектно-ориентированных приложений;

· сравнительно простой синтаксис и удобство в практическом использовании;

· бесплатность;

· открытость кода, благодаря которой вы можете создавать собственные расширения языка.

На сегодняшний день PHP используют миллионы сайтов. При помощи PHP можно разрабатывать любые программы, использующие протоколы прикладного уровня, будь то веб-приложения, программы для отправки или получения почтовых сообщений, взаимодействие с FTP-сервером и др. Кузнецов М.В. Самоучитель PHP 5/6 / М.В. Кузнецов, И.В. Симдянов - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2008. - 672 с.: ил.

2.2 Описание HTML. Взаимодействие PHP и HTML

Серверные и клиентские технологии разделены в пространстве и времени. PHP выполняется на сервере и формирует страницу, содержащую HTML-разметку, JavaScript-код, Flash-ролики, которые отправляются по протоколу HTTP клиенту. Такая страница интерпретируется браузером и отображается клиенту. PHP выполняется на сервере, а HTML интерпретируется браузером на стороне клиента. При работе с веб-приложением посетитель переходит по ссылкам, заполняет HTML-формы, что вызывает выполнение PHP-скриптов.

Клиенты веб-серверов используют различные операционные системы и браузеры, программы, предназначенные для просмотра веб-страниц. Наиболее популярные среди них на сегодняшний день: Internet Explorer, FireFox, Opera, Chrome, Safari и Yandex. Одной из особенностей является тот факт, что все браузеры по-разному интерпретируют язык разметки HTML, каскадные таблицы стилей CSS и клиентский язык JavaScript. Это требует от веб-разработчиков тестирования сайтов в нескольких браузерах, а также зачастую отказа от нововведений, которые поддерживаются одними браузерами и не поддерживаются другими.

HTML (HyperText Markup Language) - стандартный язык разметки документов в вебе. Множество веб-страниц содержат описание разметки на языке HTML (или XHTML). Язык HTML был разработан британским учёным Тимом Бернерсом-Ли в 1986-1991 годах в Женеве в Швейцарии в стенах ЦЕРНа (Европейский Центр ядерных исследований). Изначально HTML разрабатывался как язык разметки, т. е. язык, описывающий документ независимо от его внешнего вида. Но вскоре стал применяться для создания дизайна, его конструкции стали использоваться для того, чтобы добиться того или иного внешнего эффекта. Под давлением разработчиков веб-страниц и браузеров в HTML вносились все новые и новые элементы.

Для того чтобы разделить структуру и оформление документов, консорциумом W3C, координирующим развитие веба, были введены язык разметки XML и каскадные таблицы стилей CSS, при помощи которых можно оформить XML-код. Язык XML настолько гибок, что позволяет самостоятельно определить нужный XML-формат путем разработки своего собственного словаря. В настоящий момент уже разработано огромное число словарей XML, позволяющих описывать любую информацию - от химических реакций (CML, Chemical Markup Language) до финансовых операций (OFX, Open Financial Exchange).

Каскадные таблицы стилей позволяют наложить дизайн на документ очень интенсивно применяются в HTML. Если требуется создание стильных современных дизайнов, без каскадных таблиц стилей CSS не обойтись. Кузнецов М.В. Самоучитель PHP 5/6 / М.В. Кузнецов, И.В. Симдянов - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2008. - 672 с.: ил.

2.3 Описание средств разработки

При создании данной работы был использован продукт компании NetBeans Community - программа NetBeans IDE 8.1, а также приложение XAMPP Control Panel, как вспомогательная программа для подключения.

Платформа NetBeans - это платформа Java, на которой базируются масштабные приложения для рабочей среды. Среда IDE NetBeans является одной из множества приложений на основе платформы NetBeans, которая вмещает в себя интерфейсы API, упрощающие обработку окон, действий, файлов и других объектов, а также ситуаций, типичных для приложений.

Модуль NetBeans - это группа классов Java, которая предоставляет приложение с определенными возможностями. Каждая возможность в приложении платформы NetBeans обеспечивается отдельным модулем NetBeans, который сравним с подключаемым.

Пользователь может создавать новые модули для самой среды IDE NetBeans. К примеру, можно создать модули, которые обеспечивают доступ к новым технологиям для пользователей среды IDE NetBeans.

Поддержкой и спонсированием проекта NetBeans IDE занимается компания Oracle, но разработка NetBeans осуществляется компанией NetBeans Org и независимым сообществом разработчиков NetBeans Community. NetBeans IDE. [Электронный ресурс]. Режим доступа: https://netbeans.org, свободный. - Загл. с экрана. Дата обращения: 20.01.2016.

Платформа NetBeans IDE доступна для платформ Microsoft Windows, Linux, FreeBSD, Mac OS X, OpenSolaris и Solari в виде готовых дистрибутивов. Для остальных платформ предоставлена возможность скомпилировать NetBeans из исходных текстов. NetBeans IDE.

Преимущества использования среды NetBeans

Данная среда IDE предоставляет множество функций для создания веб-приложений и имеет некоторые преимущества по сравнению с другими IDE. Рассмотрим несколько важных моментов.

· Среда полностью готова к использованию;

· Бесплатный и открытый исходный код;

· Профилирование и отладка инструментов;

· Настраиваемые проекты;

· Инструменты для совместной работы;

· Расширенная документация. NetBeans IDE. [Электронный ресурс]. Режим доступа: https://netbeans.org, свободный. - Загл. с экрана. Дата обращения: 20.01.2016.

XAMPP Control Panel

XAMPP - это популярная среда разработки PHP. XAMPP - это бесплатный дистрибутив Apache, содержащий MariaDB, MySQL, интерпретатор скриптов PHP и язык программирования Perl. Помимо этого, XAMPP вмещает множество дополнительных библиотек, которые позволяют запустить полноценный веб-сервер. XAMPP создан с открытым исходным кодом, чтобы позволяет ему быть достаточно простым в установке и в использовании. XAMPP. Apache + MariaBD + PHP + Perl. [Электронный ресурс]. Режим доступа: https://www.apachefriends.org/ru/index.html, свободный. - Загл. с экрана. Дата обращения: 20.01.2016.

Приложение XAMPP Control Panel используется как вспомогательная программа для подключения веб-порта, необходимого для работы сервера Apache. Также, важным для работы является сервер MySQL, предоставляющий возможность работы с базой данных.

Выводы. Такой универсальный язык программирования как PHP является популярным в области веб-разработки и используется для создания практически любых программ, благодаря чему основная масса приложений, созданных с применением данного языка уже обслуживает веб-сайты. Стоит отметить, что PHP взаимодействует с таким стандартным языком как HTML. PHP выполняется на сервере и формирует страницу, содержащую HTML-разметку, которая интерпретируется браузером на стороне пользователя.

Для создания электронного корпуса, описанного в данной работе, был выбран данный язык, как один из самых простых и универсальных. Кроме того, удобным в практическом использовании и позволяющим создать полноценное приложение. Для реализации данной идеи использовались программа NetBeans IDE 8.1 и вспомогательное приложение для подключения XAMPP Control Panel, поддерживающие вышеотмеченные языки программирования.

На сегодняшний день миллионы сайтов используют язык PHP, при помощи которого можно разрабатывать самые разнообразные веб-приложения и другие программы.

Глава III. Электронный корпус текстов "Русский Паскаль"

3.1 Разработка электронного корпуса текстов "Русский Паскаль"

Творчество французского мыслителя Блеза Паскаля представляет огромный интерес для перевода. Кругу исследователей его творчества известно огромное количество переводов его произведений. "Мысли" считаются главным трудом жизни Блеза Паскаля. В это произведение вошло более тысячи фрагментов, содержащих мысли о человеке и природе, мысли о религии и др. Именно этот труд известен разнообразиями перевода на русский язык. Переводом занимаются как исследователи творчества Блеза Паскаля, так и любители его произведений. Конечно, имеются некие расхождения, однако смысл и содержание "мыслей" сохранены. Перевод - это не искажение, а интерпретация оригинала. однако перевод имеет при себе некоторые стилевые черты переводчика.

В настоящей работе рассматриваются несколько переводов на русский язык следующих авторов: Долгов С., Линецкая Э.О., Гинзбург Ю.А., Хома О.И., которые в дальнейшей работе явились базой для создания электронного корпуса текстов "Русский Паскаль". Каждый из переводов уникален. Они разнообразны по содержанию, объему, стилю перевода, и даже дате создания перевода.

Задача собрать все переводы в одно целое - сложная, но выполнимая. На сегодняшний день создание электронных корпусов тексов очень актуально, прежде всего потому, что формат книги в этом плане представляет ограниченные возможности. Для исследователей в первую очередь необходимо определить какие тексты необходимы для изучения, знать, как их правильно расположить, в особенности если говорить о сравнении. Используя печатные издания, это составляет некоторые трудности. Сегодня есть простое, а прежде всего удобное решение таких проблем, иначе - создание электронных корпусов. Современные технологии предоставляют возможность реализовать такие идеи.

За основу данного исследования были взяты такие корпусы как "Русский Шекспир", "Весь Толстой в один клик" и параллельный корпус переводов "Слова о полку Игореве". Это уникальные проекты по созданию электронной базы текстов, вмещающие в себя большие массивы информации. Такие корпуса дают возможность по-новому изучать отдельные произведения с учетом использования современных компьютерных технологий.

"Русский Паскаль" представляет собой электронный корпус текстов, содержащий переводы произведения Блеза Паскаля "Мысли" на русский язык. Главный труд французского философа "Мысли" - это собрание заметок к "Апологии христианской религии". Корпус предлагает собрание переводов различных изданий и авторов: Долгова С., Линецкой Э.О., Гинзбург Ю.А. и Хомы О.И.

Прежде чем поместить собранные переводы в корпус, была проведена оцифровка текстов с использованием специальной программы для распознавания текстов ABBYY FineReader. А для самой реализации электронного корпуса использовались программа NetBeans IDE 8.1 и вспомогательное приложение для подключения XAMPP Control Panel, поддерживающие универсальный язык программирования как PHP, который является популярным в области веб-разработки.

Электронный корпус "Русский Паскаль" предлагает различные разделы информации: "Биография", "О "Мыслях", "Переводы", "Оригинал", "Дополнительные материалы". В разделе "Биография" находится информация о жизни французского философа Паскаля, его исследованиях, открытиях и литературных произведениях. Кратко о жизни Паскаля можно посмотреть в хронологической таблице (см. Приложение). В разделе "О "Мыслях" содержится информация о произведении, истории его создания. Ознакомиться с переводами данного сочинения можно в разделе "Переводы", содержащем ссылки на каждый текст отдельного переводчика. Данный раздел предлагает полные тексты переводов "Мыслей" следующих авторов: Долгова С., Линецкой Э.О., Гинзбург Ю.А. и Хомы О.И. Ознакомиться с оригиналом текста можно в разделе "Оригинал". Раздел "Дополнительные материалы" содержит информацию о дополнительной литературе к прочтению, изображения и прочее. Для полного представления о корпусе переводов текстов следует сперва ознакомиться с биографией Блеза Паскаля, его творчеством, а также изучить историю "Мыслей", после чего непосредственно перейти к переводам, предварительно прочитав об истории переводов "Мыслей" Блеза Паскаля.

Электронный корпус "Русский Паскаль предназначен в первую очередь для студентов, преподавателей и исследователей, а также для всех желающих познакомиться с жизнью и творчеством Блеза Паскаля. Кроме того, корпус представляет интерес для филологов, историков языка и литературы. Данное собрание переводов различных изданий и авторов может быть отличной базой для дальнейшего исследования творчества Блеза Паскаля, а также основанием для исследований по сравнению переводов.

Разработка электронного корпуса текстов "Русский Паскаль" еще раз доказывает актуальность корпусной лингвистики, а также использования компьютерного инструментария в лингвистических исследованиях.

3.2 Раздел "Биография"

Каждый раздел, имеющийся в составе электронного корпуса "Русский Паскаль" предлагает полное ознакомление с жизнью или творчеством Блеза Паскаля. Раздел "Биография" содержит сведения о жизни французского мыслителя. Также, данный раздел отображает ссылку на хронологическую таблицу жизни Блеза Паскаля (см. Приложение). Данные из этого раздела представлены ниже.

Блез Паскаль - французский мыслитель, философ, физик, математик и писатель. Его авторству принадлежит целый ряд работ - о теории чисел, теории вероятности и др. Французский ученый считается одним из основателей математического анализа, проективной геометрии, создателем первых образцов счетной техники, ему принадлежит формулировка основного закона гидростатики.

Блез Паскаль родился 19 июня 1623 года во французском городе Клермон-Ферране округа Овернь. Этьен Паскаль, отец Блеза, был широко образованным и талантливым человеком. Он служил советником финансово-податного округа Овернь при дворе короля, а после занимал должность второго президента палаты сборов в Монферране. Антуаннета Бегон, мать Блеза, отличалась тонким и ясным умом. Простодушная, мягкая и добрая, она часто раздавала милостыню нищим, постоянно снабжала деньгами бедные семьи. Всего в семье Паскалей было четверо детей. "Первая дочь, Антуанетта, родившаяся в декабре 1617 года, умерла, не дожив даже до своего крещения. В январе 1629 года родилась старшая сестра Блеза, Жильберта, а в октябре 1625-го - младшая, Жаклина. В июне 1623 года родился сам Блез". Тарасов Б.Н. «Мыслящий тростник»: Жизнь и творчество Паскаля в восприятии русских философов и писателей. - 2-е изд. - М.: Языки славянских культур, 2009. - 896 с, ил. - (Studia philologica).

Этьен Паскаль с малых лет приучил сына к самостоятельным исследованиям. Как отмечают многие биографы, Блез Паскаль - самый яркий пример проявления гениальности в очень раннем возрасте. В четыре года мальчик уже умел читать и писать, был умен и рассудителен, ставя взрослых в неловкое положение своими вопросами. Особое внимание отец и сын уделяли математике. В 13 лет Блез Паскаль получил доступ в научный кружок и проявил себя как активный и творческий юный ученый. В 16 лет им было написан "Опыт о конических сечениях", вошедший в золотой фонд математики, названный сейчас теоремой Паскаля.

Природа наделила Блеза Паскаля удивительными умственными способностями, но обделила здоровьем. В январе 1640 г. семья Паскалей переехала в Руан - тогда, здоровье Блеза довольно ухудшилось. Он изобрел арифметическую машину, что прославило его даже за пределами Франции, но интенсивные нагрузки нанесли значительный вред здоровью. Врачи запретили любую умственную деятельность. На тот момент Блез Паскаль окунулся в светскую жизнь, но своей искренностью и робостью выбивался из общей массы.

В 1646 году Паскаль знакомится с представителями янсенизма и начинает сомневаться в истинности занятий наукой. Увлеченный ранее научными исследованиями, он не задумывался над вопросами веры. За короткое время он превратился в воинствующего христианина. Блез задумался о своей деятельности - "он решил покинуть науку и посвятить всю оставшуюся жизнь только Богу". Мусский И.А. 100 великих мыслителей. - М.: Вече, 2000. - 688 с. (100 великих). 15 ноября 1654 года, по собственному признанию Паскаля, он пережил озарение свыше, но что оно собой представляло не рассказал даже близким. Записав видение на пергаменте, он вместе с черновиком зашил в подкладку своего камзола. С этой "памяткой", известной теперь как "Мемориал", Паскаль никогда не расставался. После этого события, французский мыслитель оборвал все связи со светским обществом и уехал из Парижа. Паскаль выразил желание поселиться в Пор-Рояле, где ему предоставили келью, и приступил к исполнению религиозных предписаний.

"Тем не менее эти восемь лет жизни были для Паскаля не менее, а в плане философском и более плодотворными, чем весь предшествующий период творчества". Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. - Иркутск: ИГЛУ, 2011. - 161 с.

В период 1656-57 гг. публикуются знаменитые "Письма к провинциалу", которые составили целую эпоху в истории французской литературы и вызвавшие в обществе бурный скандал.

После "Писем к провинциалу" Паскаль пишет ряд богословских произведения: четыре "Сочинения о благодати", "Краткое описание жизни Иисуса" и др.

В 1652 году Паскаль задумал написать фундаментальный труд - "Апологию христианской религии", который выступал бы в защиту религиозного мировоззрения. При создании работы литератор делал записи на отдельных листах бумаги, но так и не смог превратить их в единое целое из-за запрета врачей делать какие-либо умственные нагрузки.


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.