Главная Коллекция "Otherreferats" Иностранные языки и языкознание Апокопы в современном французском языке

Апокопы в современном французском языке

Ознакомление с терминами для обозначения видов аббревиатур в русском, английском и французском языках. Определение и характеристика сущности апокопа – модели усечения финальной части слова. Рассмотрение статистики об истории возникновения апокоп.

Рубрика	Иностранные языки и языкознание
Вид	курсовая работа
Язык	русский
Дата добавления	30.01.2016
Размер файла	605,7 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Оглавление

Введение
1. Постановка задач

1.1 Научная значимость работы
1.2 Обзор литературы
1.3 План работы
1.4 Ожидаемые результаты

2. Ход работы

2.1 Сбор корпуса
2.2 Автоматический поиск апокоп

2.2.1 Требования к алгоритму
2.2.2 Формулирование базовых правил

2.3 Сбор статистики

2.3.1 Виды статистики
2.3.2 Статистика длин
2.3.3 Статистика окончаний
2.3.4 Статистика по усечённым и добавленным частям
2.3.5 Статистика по частям речи
2.3.6 Статистика об истории возникновения апокоп

2.4 Доработка алгоритма

2.4.1 Выявление неточностей
2.4.2 Первый этап: чёрный список
2.4.3 Второй этап: отрезаемая часть
2.4.5 Четвёртый этап: стеммер
2.4.6 Результаты улучшений

2.5 Корпус французских текстов

2.5.1 Сбор корпуса
2.5.2 Проверка работы алгоритма

2.6 Будущие доработки

Заключение
Список литературы

Введение

Термин «аббревиация» (от лат. abbrevio сокращаю) обозначает процесс сокращения наименования какого-то объекта, а результат этого процесса - то есть слово, получившееся в результате сокращения - называют аббревиатурой (Сергеева 2013: 176). Аббревиация существует с античных времён, и её появление связывают с появлением письменного языка. Например, первое употребление знака амперсанда в староримском курсиве было замечено в 1 в. н.э. (Haley 2009).

Явление аббревиации получило широкое распространение в средние века и последовательно развивалось, отвечая потребностям общества. Как способ образования слов аббревиация сложилась к XIX в. (Сергеева 2013: 178) и на сегодняшней день является продуктивной во многих языках.

Появление аббревиатур было обусловлено различными экстралингвальными (внешними по отношению к языку) и внутрилингвальными (происходящими внутри языкового сообщества) причинами. Так, научно-технический прогресс, развитие социокультурных связей послужили внешними причинами, потребовавшими использование более ёмких и единообразных понятий. К внутриязыковым факторам относят языковые навыки говорящих, частоту употребления в речи, влияние как других стилей речи (разговорного, жаргонного), так и других языков, а также тенденцию к моносиллабизму (Сергеева 2013: 177).

Закон экономии речевых средств, предложенный А. Мартине, выявляет фундаментальные причины распространения сокращений: «человек растрачивает свои силы лишь в той степени, в какой это необходимо для достижения определенной цели» (Мартине 1963: 533). Таким образом, человек экономит свои усилия и время, и в процессе эволюции устанавливается баланс между потребностями общения и инертностью человека. При этом энергия, которую человек расходует при языковом общении, имеет свойство быть пропорциональной количеству переданной информации (Мартине 1963: 536). Здесь важно отметить, что экономия средств рациональна тогда, когда речь идёт об аббревиатуре, понятной в данном контексте.

Аббревиация настолько сложное и многогранное явление, что существует большое количество классификаций с разнообразной терминологией для её описания как в отечественной, так и в зарубежной литературе. Разные исследователи могут использовать один и тот же термин для обозначения разных понятий или разные термины для обозначения одного понятия. Например, синонимом слова «аббревиатура» можно также считать термин «усечение», однако он может обозначать и более узкое понятие, описывающее определённый вид аббревиации. Сам термин «аббревиатура» может быть зачастую отнесён к инициальным аббревиатурам (МГУ Московский государственный университет, ЭВМ электронно-вычислительная машина). Неопределённость терминологии, проблемы с переводом иностранных терминов и отсутствие единой стратегии для описания аббревиации приводит зачастую к неразрешимой омонимии и создаёт проблему для многих исследователей. В связи с этим мы решили провести анализ различных отечественных и зарубежных источников для сопоставления терминологии.

В Таблице 1 приведена сравнительная характеристика терминов для различных видов аббревиатур с их объяснениями и примерами в английском, французском и русском языках. Русские термины были взяты из русскоязычной литературы, посвящённой процессу аббревиации, с акцентом на статью (Сергеева 2013). Английская терминология была найдена преимущественно в (Арнольд 2013), французская - в (Bouzidi 2009).

Воспользуемся следующим подходом к описанию аббревиации, различающим 4 типа: 1) усечения, 2) инициализмы, 3) акронимы, 4) слияния. Инициализмы и акронимы иногда объединяют в одну группу буквенных аббревиатур. Все вышеперечисленные виды аббревиатур уже существовали в середине XX века, а многие, в особенности, буквенные аббревиатуры, стали устойчивым типом (Блох 2014: 193). Наиболее распространённый тип абревиатур, усечения, делятся, в свою очередь, на три подгруппы: 1) апокопа, 2) афереза, 3) синкопа. Существуют также смешанные типы усечений - например, апокопа + афереза.

Таблица 1. Термины для обозначения видов аббревиатур в русском, английском и французском языках.

Так как для каждого типа аббревиации есть свой набор правил, которым они подчиняются, а также в силу трудоёмкости процесса описания того или иного вида, мы фокусируем своё внимание только на одном подтипе, самом распространённом среди усечений - на апокопах.

Апокопа (от греч. ?рпкпрЮ усечение) - это модель усечения финальной части слова, иными словами, выпадение нескольких звуков или слогов с конца основы сокращаемого слова. Финальное усечение широко распространено во многих языках, что может быть связано с особенностями распределения информации: значимая часть слова, или информативный центр, обыкновенно находится в начале слова, и отсечение финальной части может, таким образом, быть оправданной операцией (Криворот 2012: 6).

В русском языке апокопная модель также становится постепенно популярной, но находится в самом начале своего развития, встречаясь в разговорной речи и имея соответствующую стилевую окраску (универ < университет).

В языках с аналитическим строем (например, в английском и французском) апокопа стала продуктивной моделью словообразования. Создаётся всё больше новых источников (словарей, веб-статей), закрепляющих появление новых апокоп. Однако так как исследования в этой области стали популярными не так давно, до сих пор нет хороших репрезентативных корпусов и структурированного описания образования финальных усечений.

Апокопы во французском языке. Во французском языке аббревиация была засвидетельствована в конце XVIII в. сначала в арго (dauphe < dauphin дофин (титул наследника престола)), затем в иностранных словах (piano < piano-forte фортепиано) (Broћovб 2006: 7). Модель усечения была наиболее популярной и стала настолько продуктивной, пройдя путь от арго до разговорного языка (так называемого «langue familiиre»), что многие апокопы на сегодняшний день закреплены в словарях как арго, так и (реже) общей лексики французского языка, иногда с соответствующей пометой.

В большинстве случаев усечение происходит с именами существительными и прилагательными, при этом апокопы, за редкими исключениями, сохраняют грамматическую форму слова, от которого они образованы, в том числе и его род (le mйtro < le mйtropolitain метро). Среди существительных могут подвергаться усечению и имена собственные (Stйph < Stйphane Стефан, Sarko < Sarkozy Саркози), апокопизированные формы которых являются маркерами разговорного стиля. Остальные части речи либо никогда не усекаются, либо очень редко - например, в просторечьи встречаются наречия-апокопы (exact < exactement точно) и даже глаголы-апокопы (dйc < dйconner нести чушь). (Broћovб 2006: 14)

Иногда апокопа сопровождается апострофом, который свидетельствует о том, что слово было усечено, а также зачастую о выпадении -e, чтобы сохранить произношение финали апокопы таким, каким оно было в исходной форме (dйc [des] < dйcisif ). При этом, несмотря на то, что без апострофа произношение апокопы должно было бы измениться по правилам французского чтения, он может иногда опускаться и приводить к омонимии: например, champ поле может являться также и сокращением от champagne шампанское. (Fridrichovб 2013b: 11)

Существуют апокопы как образованные методом простого отсечения финали слова (bac < baccalaurйat степень бакалавра), так и отсечением с добавлением некоторого суффикса (intello < intellectuel интеллигент). Важно отметить, что от одного слова может быть образовано несколько апокоп, в зависимости от числа отрезаемых слогов и прибавляемых окончаний (compиte/compй < compйtition соревнование), а также одна и та же апокопа может иметь разное графическое представление (restau/resto < restaurant ресторан).

Целью данной работы является разработка алгоритма, способного находить апокопы и подготовка системы к использованию для других типов аббревиатур и, возможно, языков. При этом мы ставим своей главной задачей - добиться полноты алгоритма, то есть довести его до такого состояния, чтобы все слова, являющиеся на самом деле апокопами, считались таковыми нашей системой.

В то же время точность алгоритма - то есть сведение к минимуму ошибочных суждений нашей системы о том, что слово является апокопой при том, что оно им на самом деле не является - имеет для нашей системы меньшее значение, так как оно может быть достигнуто ручной обработкой и требует значительных затрат на реализацию. Поэтому в рамках данной работы мы не ставим жёстких условий по точности, а лишь стараемся добиться наилучшего результата в отведённый срок.

В частности, мы ставим перед собой следующие задачи:

- сформулировать базовые правила образования апокоп для реализации основной части алгоритма распознавания апокоп;

- составить список источников с данными и собрать из них максимально возможный корпус апокоп;

- получить набор статистической информации как для описания общих тенденций аббревиации, так и для подробной классификации апокоп;

- улучшить систему базовых правил с целью увеличения полноты и точности алгоритма.

Методы исследования

Основным инструментом данного исследования является использование автоматизированных систем обработки информации. С их помощью мы можем собрать большие объёмы информации из разрозненных источников, соединить их воедино, провести статистический и качественный анализ, получить чистые данные, на их основе сформулировать правила формирования апокоп, провести анализ необходимости и достаточности данных правил и итеративно их улучшать до тех пор, пока позволяет время, отведённое на работу.

В качестве языка для реализации программной части работы был выбран Python в силу его экспрессивности, краткости, лёгкой читаемости, наличия на нём большого набора лингвистических библиотек, общепризнанности научным сообществом, а также вследствие того, что он хорошо нам знаком. Графики для визуализации статистической информации строились с помощью библиотеки Matplotlib.

1. Постановка задач

1.1 Научная значимость работы

Задача классификации апокоп и формулирования правил их образования является актуальной в современной лингвистике. Несмотря на то что существует ряд работ, посвящённых процессу аббревиации, до сих пор нет единого хорошего монографического описания апокоп на основе современных достоверных данных из-за трудоёмкости и специализированности задачи. Уже существующие попытки описания сокращений показывают, что невозможно описать систему, основываясь лишь на ручных методах обработки текста и небольших корпусах данных. Чтобы сократить время, отведённое на ручную обработку, и освободить его для аналитической работы по составлению подробного описания и правил, необходимо использовать компьютерные инструменты. Благодаря точности машинных методов и чётко построенным алгоритмам, можно создать единообразную систему анализа исследуемых явлений, собрать большие объёмы данных, а также избежать возможных ошибок и неточностей.

Процесс аббревиации становится всё более продуктивным способом словообразования и является одним из факторов, приводящих к изменению языка. Количество новых апокоп, появляющихся вследствие этих изменений, стремительно возрастает, вытесняя их полные формы. В связи с этим существует проблема распознавания новых слов компьютерными системами, которым нецелесообразно полагаться на словари, так как последние не успевают отражать состояние языка с той скоростью, с какой в нём появляются новые данные. Лучше справиться с этой задачей могут алгоритмы, определяющие форму, от которой образована апокопа, создание которых является целью нашей работы.

Хорошо разработанная система сбора и обработки апокоп может быть с лёгкостью адаптирована и для описания других типов аббревиатур. Таким образом, настоящая работа может быть расширена и дополнена будущими исследователями. аббревиатура апокоп французский

1.2 Обзор литературы

В данном разделе приводится обзор литературы, посвящённой феномену аббревиации.

В работе (Блох 2014) исследуется аббревиация и её значение в европейских языках в диахронии. Автор формулирует всевозможные факторы её появления и распространения в разные периоды времени. Например, одной из таких причин является развитие государственности, образования и коммуникации. Влияние также оказывали и внутрилингвальные факторы типа контекста, языковых способностей носителей. Автор отдельно отмечает появление в XI-XIV вв. слов-усечений, образованных путём усечения основы, в среднеанглийском и французском языках. В XV в. появление книгопечатания способствует дальнейшему развитию аббревиации в европейских языках, и уже в XVII-XVIII вв. она становится настолько распространённым явлением во всех социальных кругах, что теряет свою маркированность. В XVIII в. в связи с бурным развитием науки появляется много неологизмов и международных сокращённых единиц, образованных инициальными буквами - таким образом зарождаются инициальные аббревиатуры. Аббревиация становится продуктивным способом словообразования во всех рассматриваемых языках в XIX в. Вслед за укрепившимися инициальными аббревиатурами в XX в. появляются акронимы. Автор заявляет, что на сегодняшний день число аббревиаций настолько высоко, что не существует таких источников, которые бы содержали корпус всех аббревиатур.

В (Криворот 2012) автор провёл сравнительное исследование особенностей аббревиации в русском, английском и французском языках. Из факторов распространения аббревиатур выделяется как экономия времени, затрачиваемого на порождение языковой единицы, так и усилий, прилагаемых говорящим или пишущим. Автор отмечает, что явление аббревиации характерно для флективных языков, в которых продуктивна аббревиатурная модель словообразования, в то время как в агглютинативных, изолирующих и инкорпорирующих языках аббревиатуры появляются методом заимствований моделей из флективных языков. В русском, английском и французском языках автор выделяет две аббревиатурные модели - простого и осложнённого усечения. Первая модель присуща аналитическим языкам, вторая - синтетическим. Так, автор отмечает, что в русском языке апокопная модель, относящаяся к простому типу усечения, становится всё более продуктивной, что говорит о росте черт аналитизма. При этом в синтетических языках представлены в основном сокращения финального типа (апокопы), а в аналитических встречаются все типы: финальные, инициальные, медиальные и гибридные. Автор связывает преобладание финальной модели во всех языках с концентрированием информативных центров на начало слов. Автор рассматривает три вида аббревиации - слоговую, инициальную и смешанную, в основном, на примере русского языка, однако не изучает подробно систему их формирования в языках, а выделяет общие тенденции семантического развития сокращений.

В исследовании (Fridrichovб 2013a) автор провёл статистическое исследование усечённых форм в современном французском языке. Был собран металингвистический корпус из слов-сокращений, представленных в таких словарях как Le Petit Robert, Larousse и Hachette, а также в словарях арго и неологизмов для отражения социолингвистической картины. Автор отмечает, что одной из социолингвистических причин распространения усечённых форм является желание сэкономить время во время коммуникации, в особенности в профессиональных, учебных и маргинальных кругах. Автор заключает, что самым распространённым способом аббревиации в первых трёх словарях является апокопа, а в словарях арго и неологизмов первые места занимают смешанные процессы, такие как верлан + апокопа и апокопа + замена суффикса. Автор также заметил, что усечённые формы при распространении перенимают функции полных форм, становясь равными им, а иногда даже их вытесняя. Автор отмечает, что словарь Le Petit Robert лучше всего иллюстрирует процесс появления новых слов-сокращений.

В работе (Kerleroux 1999) апокопа изучается с синтаксико-семантической точки зрения. Автор исследует апокопы, классифицируя их согласно природе их образования (деноминативной, адъективной, девербальной). Автор предлагает разные семантические группы для каждого типа апокопы. Например, девербальная апокопа обозначает процесс, простое действие или результат. Важность этого исследования состоит в том, что автор приводит случаи, когда апокопа не может быть замещена полной формой из-за семантической интерпретации. Например, если в примере (1a) вместо многозначной формы manifestation проявление, демонстрация, манифестация поставить апокопу manif манифестация (см. пример (1b)), то предложение станет аграмматичным. Автор это связывает с тем, что апокопа потеряла часть значений своей полной формы: она не может обозначать протекание некоторого процесса - вместо этого она обозначает простое событие или его результат, как, например, в примере (1c).

(1a)La manifestation de la vйritй aura pris cinquante ans.

Установление истины займёт пятьдесят лет. [Kerleroux 1999: 87]

(1b) *La manif de la vйritй aura pris cinquante ans.

Манифестация правды займёт пятьдесят лет. [Kerleroux 1999: 87]

(1c) La manif des йtudiants a durй cinq heures.

Собрание студентов продлилось пять часов. [Kerleroux 1999: 87]

Исследование аббревиации в синхронии проводилось в работе (Piechnik 2009), где автор сравнивает аббревиационные модели во французском и польском языках. Автор классифицирует слова на производные (perso < personnel персонал), сложные просторечные (beauf < beau-frиre шурин), сложные греко-латинского происхождения (amphi < amphithйвtre амфитеатр) и заимствованные (bob < англ. bobsleigh бобслей) и находит, что большинство усечений (апокопы и аферезы) во французском языке заканчиваются на гласный, чаще всего на -o, и при этом состоят из одного-двух слогов (из трёх и более - очень редко). В польском языке усечения встречаются очень редко, но, несмотря на то что он является консонантным языком, во всех примерах, которые приводит автор, сокращения оканчиваются гласным (pozdro < pozdrowienia приветы). Автор также упоминает такие сокращения как синкопа (зuilа < celui-lа тот), инициализмы (VIH < Virus dImmunodйficience Humaine ВИЧ (Вирус иммунодефицита человека)), акронимы (SMIC < Salaire minimum interprofessionnel de croissance СМИК (межпрофессиональный минимум зарплаты роста) и слияния (agit-prop пропагандистская агитация < agitation агитация + propagande пропаганда). Автор заключает, что распространение аббревиации во французском обусловлено несколькими причинами: 1) французский язык - язык аналитического строя, 2) во французском языке преобладают короткие слова (каноническая схема французского - CVCV), 3) французский язык предпочитает открытые слоги (что объясняет преобладание гласной на конце усечённых слов).

Более практичный подход наблюдается в работе (Dister 1997). Автор провёл исследование на базе корпуса из 776 апокоп с целью найти современные тенденции усечения методом статистического сбора информации. Однако отсутствие ссылок на источники, из которых собирался корпус, не позволяет оценить достоверность результатов. На основе собранного корпуса автор выделил две группы, в зависимости от финали апокопы: консонантную (40% от всего корпуса) и вокалическую (60% от всего корпуса). В консонантной группе автор приводит статистику встречаемости в корпусе различных согласных на конце апокоп и отдельно рассматривает апокопы на -s (45 слов), являющиеся вторыми по частотности после апокопов на -t (46 слов). В данную группу он также включает и апокопы на -x [ks]. При этом автор дополнительно выделяет 3 группы: 1) апокопы содержатся в полной форме (puls < pulsation пульсация), 2) -s добавляется после усечения (reps < reprйsentant представитель), 3) -os добавляется после усечения (vulgos < vulgaire заурядный). Вокалическая группа в собранном автором корпусе представлена из 9 финальных звуков: [a] (prйpa), [e] (catй), [?] (play), [i] (aspi), [y] (alu), [ш] (pneu), [u] (dйbrou), [o] (applau) и [?] (labo). При этом автор концентрирует своё внимание на апокопах на -o (312 слов), так как звук [?] встречается в 67% слов с вокалической финалью. Среди апокоп с вокаличесой финалью автор выделяет те, в которых 1) -o присутствует в полной форме; 2) -o добавляется к апокопе после усечения. Собранная автором статистика включает информацию о 1) количестве слогов в апокопах (59% двусложны, 26% односложны, 14% трёхсложны и оставшиеся - четырёх- и пятисложны), причём автор отдельно отмечает, что среди моносиллабичных апокоп лишь 2,5% заканчиваются на -o, в то время как в двусложных апокопах распределение почти равное; 2) количестве усечённых слогов (в 85% апокоп - 1-2 слога). Автор заявляет, что при апокопизации -o не просто является предпочтительной финалью для усечённой формы, но и иногда вызывает усечение даже в тех словах, которые никогда бы не подверглись усечению, если бы не содержали -o. Примерами этого являются слова, которые изначально состоят из небольшого количества слогов, такие как choco < choco(lat) шоколад, perso < perso(nnel) персонал и sympho < sympho(nie) симфония.

В заключение отметим, что из проанализированных нами работ ближе всего к исследуемой нами области оказались (Piechnik 2009) и (Dister 1997). Однако в (Piechnik 2009) проводился слишком поверхностный анализ корпуса (объёмы которого недостаточны для глубокого изучения) из-за разнообразия исследуемых явлений, в то время как корпус собранный в (Dister 1997), не был предоставлен, из-за чего нельзя оценить ни его репрезентативность, ни достоверность, а также нельзя дополнить его новыми данными. В нашем исследовании мы собираемся избежать вышеперечисленных проблем, выложив корпус в открытый доступ вместе с алгоритмом его сбора, а также, что немаловажно, алгоритмом его анализа. Таким образом, настоящее исследование может быть дополнено новыми данными, и может быть собрана новая статистика, включающая информацию о новых видах апокоп или других видах аббревиатур.

1.3 План работы

В настоящем исследовании было решено придерживаться следующего плана работы:

1) Создание начального списка апокоп. Ручной поиск источников с готовыми апокопами и их полными формами, создание краулеров, собирающих корпус апокоп.

2) Выявление на основе собранного корпуса апокоп базовых правил для основной части алгоритма, определяющих, является ли заданное слово апокопой заданной формы.

3) Поиск источника для создания словаря полных форм, создание единого корпуса полных форм.

4) Сбор статистики по полученному корпусу апокоп.

5) Сбор статистики об истории возникновения апокоп.

6) Создание эффективной системы, которая определяет, является ли заданное слово апокопой, и использует в качестве словаря собранный корпус полных форм.

7) Создание списка источников для сбора корпуса французских текстов. Главный критерий хорошего корпуса - простота парсинга, минимальное количество грамматических ошибок, репрезентативность (наличие разных стилей - как формального, так и неформального).

8) Написание веб-краулеров, собирающих корпус текстов. Это позволит постоянно обновлять корпус, собирая новые данные и таким образом увеличивая корпус апокоп.

9) Итеративное применение алгоритма распознавания апокоп, выявление ошибок, их классификация и устранение.

1.4 Ожидаемые результаты

В качестве результатов настоящей работы мы ожидаем:

1) Система краулеров, собирающая данные для корпуса апокоп;

2) Корпус апокоп;

3) Корпус полных форм;

4) Система краулеров, собирающая корпус текстов;

5) Сбор некоторой статистики об апокопах:

5a) соотношение длин полной и усечённой формы (количество отрезаемых букв)

5b) Формальные правила о методах усечения слова, основанные на выявленных характеристиках;

6) Множество правил, позволяющих распознавать апокопы с обращением к словарю их полных форм.

7) Алгоритм, осуществляющий распознавание апокоп в тексте (базируется на свежих статьях, найденных краулерами).

2. Ход работы

2.1 Сбор корпуса

Первая задача, которую необходимо было реализовать - это сбор корпуса апокоп. Для этого был составлен список источников с данными, являющихся основой корпуса апокоп, для каждого из которых требовался свой парсер.

1) Словарь Le Grand Robert (Le Robert 2015)

Так как далеко не каждый словарь содержит большой корпус апокоп, а, если и содержит, то может не отражать в своих статьях информацию о том, является ли слово апокопой, было необходимо провести отбор такого словаря. В итоге было решено обратиться к словарю Le Grand Robert, одному из популярных французских словарей. Была найден электронная версия, включающая 83372 словарных статьи. Для извлечения апокоп и их полных форм из них был написан соответствующий парсер.

2) Статьи из французского вики-словаря Wiktionnaire «Apocopes en franзais» (Wiktionnaire 2015a) и «Apocopes familiиres en franзais» (Wiktionnaire 2015b)

В Wiktionnaire было найдено две автоматически построенные страницы со списками апокоп, на основе которых был составлен список отдельных словарных статей, впоследствии прочитанных краулером. В ходе обработки этого массива данных было выявлено, что они формируются по нескольким разным наборам правил разными авторами, многие из которых являются ботами, переносящими данные из сторонних словарей. В связи с различиями в их форматах было необходимо написать несколько наборов правил распознавания страниц. В дополнение к этому было также найдено некоторое количество статей (3%), которые были написаны бессистемно (видимо, людьми, имеющими мало опыта работы на сайте), и было принято решение их исправить, а не писать специальные парсеры для их прочтения. Таким образом одновременно была решена задача проверки и повышения качества статей вики-словаря.

Краулер был написан на Python на основе библиотеки lxml: с её помощью брались конкретные теги (dl/dd), из которых извлекался текст, а затем обрабатывался регулярными выражениями. Учитывая довольно хорошую структурированность данных, удалось без лишней сложности получить высокий процент обработанных записей: всего было получено 1290 записей об этимологии апокоп, среди которых было большое количество записей, принадлежащих к другим языкам и записей, свидетельствующих об отсутствии данных. Однако после отсечения подобных определений количество записей сократились более, чем вдвое.

3) Статья «-O, finale et finale par apocope» (CNTRL 2012)

В качестве ещё одного источника была взята статья, собранная из разных словарей лабораторией ATILF, специализирующейся на автоматической обработке французского языка. В данной статье представлены апокопы, оканчивающиеся на -o. Структурированность вёрстки сайта со статьёй позволила распарсить её с помощью запроса на языке JavaScript.

4) Статья «Liste dapocopes» (Echolalistes 2014)

Был также найден ресурс Echolalistes с вики-форматом, в котором представлен список апокоп, дополняемый людьми в свободном доступе. Данный список был распарсен с помощью JavaScript.

5) Данные из статьи (Piechnik 2009)

В дополнение к корпусу, были добавлены вручную апокопы из статьи (Piechnik 2009).

6) Статья «Abrйviations - Apocope + suffixe (noms communs)» (Lйvy 2009)

Был найден ещё один электронный ресурс, для которого не было необходимости создавать специальный краулер, а можно было обойтись простым копированием с заменой некоторых символов.

7) Статья «Apocope» (Languefranзaise 2015)

Была найдена статья со ссылками на апокопы на электронном ресурсе, в котором собраны данные из разных французских словарей арго, популярной и общей лексики с подробными описаниями. Преимущество данного ресурса состояло в том, что для него удалось написать краулер, который смог извлечь информацию о полной форме для каждого апокопа. Структура статей с апокопами была не очень единообразна, однако был разработан хороший алгоритм для нахождения нужных нам описаний.

Для каждой записи из рассмотренных источников наш алгоритм определил, валидна ли она, то есть содержит ли она апокопу (по нашим правилам) и её полную форму. При этом при создании нашего базового алгоритма мы добились того, что среди тех апокоп, которые попали в разряд “плохих”, не было тех, которые мы бы хотели включить в наш корпус. Таблица 2 иллюстрирует количественное распределение между валидными и невалидными найденными парами “апокопа - полная форма” для каждого источника, а в Таблице 3 приведены те же данные об уникальных апокопах. Под “уникальными” мы имеем в виду апокопы, встречающиеся в каждом источнике без повторений, принимая во внимание то, что среди пар “апокопа - полная форма” существуют такие, в которых одна апокопа может быть образована от нескольких форм.

Таблица 2. Количество валидных и невалидных пар апокопа - полная форма для каждого источника.

good

bad

languefr

564

317

le robert

513

139

wiktionary

408

90

echolalistes

225

34

piechnik

218

11

Lйvy

71

114

cnrtl

53

5

Total:

2052

710

Таблица 3. Количество валидных и невалидных найденных апокоп для каждого источника.

good

bad

languefr

559

317

le robert

450

132

wiktionary

330

80

echolalistes

218

34

piechnik

211

11

Lйvy

71

109

cnrtl

53

5

Total:

1892

688

После нахождения пар в рассмотренных источниках был собран корпус апокоп, в который попали только те пары, которые посчитались валидными нашим алгоритмом. При этом, так как некоторые источники могли дублировать друг друга, требовалось удалить повторяющиеся пары. Так, из всех полученных данных был составлен корпус апокоп, представленный из 1295 пар апокоп с их полными формами, среди которых 1078 уникальных апокоп.

Мы также решили оценить, какой из источников дал наибольшее число редких результатов, не встречающихся в других наборах данных. Таблица 4 и Таблица 5 показывают количество валидных и невалидных данных для каждого источника, встречающихся только в нём, для пар апокопа - полная форма и для уникальных апокоп соответственно.

Таблица 4. Количество валидных и невалидных пар апокопа - полная форма, встречающихся только в данном источнике.

good

bad

languefr

329

304

le robert

236

125

wiktionary

199

84

echolalistes

73

29

Lйvy

25

94

piechnik

21

3

cnrtl

9

2

Total:

892

641

Таблица 5. Количество валидных и невалидных апокоп, встречающихся только в данном источнике.

good

bad

languefr

285

291

le robert

165

112

wiktionary

115

68

echolalistes

62

25

Lйvy

19

79

piechnik

13

1

cnrtl

5

2

Total:

664

578

Таким образом, статья «Apocope» (Languefranзaise 2015), словарь Le Grand Robert (Le Robert 2015) и статьи из французского вики-словаря Wiktionnaire (Wiktionnaire 2015a, 2015b) оказались одновременно как наиболее объёмными, так и наиболее полезными источниками, в сумме составив более половины апокоп нашего корпуса, представленных только в каждом из этих источников. В то же время больше всего “плохих” записей (более 40%) оказалось в (Lйvy 2009).

2.2 Автоматический поиск апокоп

2.2.1 Требования к алгоритму

Алгоритмическое распознавание текста - крайне нетривиальная задача. Она требует чётко построенного алгоритма с высокой полнотой и точностью.

Чтобы добиться высокой полноты, нам достаточно предложить ряд базовых правил, отсекающий некоторое количество обычных слов, но не отсекающий реальных апокоп. Относительная простота этой задачи связана с тем, что существуют уже готовые (хоть и неполные) списки апокоп, на основе которых можно выявлять правила.

Непростым является достижение высокой точности, так как это требует анализа большого объёма неструктурированных данных и не поддаётся машинной обработке: среди слов, которые наш алгоритм посчитает апокопами, но которые на самом деле таковыми не являются, могут оказаться совершенно разные части речи, слова разных семантических классов с разной частотой употребления. Сложность также заключается в том, что французский язык стремится к моносиллабичности, из-за чего существует огромное количество слов, которые по всем морфологическим признакам могли бы являться апокопами. При этом во всех вышеперечисленных случаях неправильной работы алгоритма нам, как не носителям французского языка, зачастую сложно определить, является ли тот или иной случай ошибкой. Для разрешения этой проблемы приходится выполнять всевозможные проверки на разных информационных ресурсах. В итоге, чтобы повысить точность работы алгоритма, необходимо дополнить базовые правила с помощью классификации ошибочных случаев, то есть слов, не являющихся апокопами.

Таким образом, задача улучшения полноты алгоритма может быть максимально решена при наличии большого массива данных, в то время как достижение высокой точности алгоритма не может быть однозначно достигнуто и будет всегда требовать доработки.

2.2.2 Формулирование базовых правил

Чтобы автоматически искать апокопы, нужен ряд правил, отличающих их от обычных слов. Данные отличия могут быть связаны с процессами, происходящими при усечении, в частности, с морфологическими особенностями апокоп, которые должны разграничивать аббревиатурную модель от обычного словообразования.

В качестве основы алгоритма было решено создать ряд условий, определяющих, является ли заданное слово апокопой от заданной формы.

Для формулирования правил был вручную просмотрен корпус, после чего были выявлены некоторые ограничения касательно а) длин апокопы и полной формы: апокопа должна быть короче полной формы; б) окончания апокопы: либо апокопа полностью содержится в полной форме, либо она может добавить после усечения одно из следующих окончаний: -o, -e, -s, -u, -t, -й, -; в) орфографии: возможны случаи орфографической замены аксанов или сочетаний типа -ks, которые необходимо заменить на -x. Также учитывались случаи, когда обе формы стоят в форме множественного числа - тогда показатели множественного числа отрезались. При этом было решено не включать в наш корпус апокопы, образованные от словосочетаний, так как, во-первых, поиск таких слов усложнил бы алгоритм в разы, а, во-вторых, мы не были уверены в том, что данные слова подчиняются тем же правилам, что и простые апокопы.

Таким образом, главное условие алгоритма состоит в том, что апокопа на последнем этапе (после всех проделанных с ней операций) должна содержаться в полной форме. Если это условие в итоге не выполняется, то заданное слово не считается апокопой от заданной полной формы.

Следующей задачей для нашего алгоритма было научиться определять, является ли слово вообще апокопой. Так как апокопа - это сокращение некоторого существующего слова, необходимо иметь французский словарь для поиска формы, от которой было образовано усечение. В качестве такого словаря был взят наш первый найденный источник - словарь Le Grand Robert с корпусом из 80828 лексем. Однако первый запуск нашего базового алгоритма на всём массиве словаря показал очень низкую точность (10%) при высокой полноте (стремящейся к 100%). Иначе говоря, для каждого слова из словаря находилось в среднем 10 полных форм, для которых это слово наш алгоритм считал потенциальной апокопой.

Чтобы повысить необходимость наших правил, следующим шагом был сбор статистики по полученному корпусу апокоп и отчёту с ошибочными результатами алгоритма (когда он считал апокопами слова, которые на самом деле ими не являются), конечной целью которого было улучшение нашего алгоритма, то есть дополнение его новыми правилами.

2.3 Сбор статистики

Сбор статистической информации об апокопах является важной частью настоящего исследования, так как на её основе можно как описать общие тенденции, прослеживаемые в языке, так и предложить подробную классификацию апокоп. Для нашего алгоритма особенно важен сбор релевантной статистики, позволяющей сформулировать новые правила для его улучшения. При этом необходимо не только ориентироваться на собранный корпус апокоп, но и также проанализировать их полные формы на основе отчётов об ошибках.

2.3.1 Виды статистики

Для начала было необходимо выявить массив признаков, по которым можно собирать статистические данные. Мы составили следующий список видов статистики:

1. Длины

- длины полных форм;

- длины усечённых форм;

- соотношение длин апокопизированной и полной формы.

2. Окончания

- окончания апокоп;

3. Усечённые и добавленные части

- наличие добавленной части после усечения и её распределение;

- отрезанная часть и её корреляция с окончанием апокопы.

4. Частеречная принадлежность

- окончание апокопы и корреляция с её частью речи;

- популярные отрезаемые части для разных частей речи.

5. Статистика об истории возникновения апокоп.

2.3.2 Статистика длин

По полученному корпусу апокоп была собрана статистика о длинах полной и усечённой форм. На Рисунке 2 изображены длины полных форм, от которых образовываются апокопы, и их популярность в нашем корпусе. Так, большинство апокоп образуются от девяти- - одиннадцатибуквенных форм, а наименьшее число апокоп происходит от шестибуквенных слов и меньше. Непопулярность длин полных форм от 15 и выше связана с малой встречаемостью длинных слов во французском языке.

Рисунок 1. Распределение длин полных форм по корпусу апокоп.

Рисунок показывает распределение длин апокоп по нашему корпусу. Всего было найдено 10 различных длин, из которых наиболее популярными являются четырёх- и пятибуквенные формы, что более чем в 2,5 раза короче популярных полных форм. При это иногда могут встречаться апокопы как двухбуквенные, так и восьми- - десятибуквенные.

Рисунок 2. Распределение длин усечённых форм по корпусу апокоп.

Чтобы точнее визуализировать тенденцию к сокращению, был построен график, изображённый на Рисунке 4, на котором отложен процент, который составляет длина отброшенной части (эта длина рассчитывалась как разность длин полной и апокопизированной формы) от длины полной формы. Таким образом, можно заметить, что в процессе усечения большая часть слов теряет от половины до двух третей длины. Это говорит о том, что аббревиатурная модель используется обычно в тех случаях, когда её применение оправдано.

Рисунок 3. Распределение степеней уменьшения длины.

На Рисунке 4 показана зависимость степени уменьшения длины апокопы (параметр из предыдущего графика) от длины её полной формы. Данный график может быть полезен для проверки закона экономии речевых средств. Так, наибольшее число апокоп образуется от слов длиной в 10 букв и сохраняет примерно половину их длины, составляя в основном класс двусложных апокоп. При этом можно заметить, что усечение вообще происходит, когда отрезается как минимум 20% длины слова, и эта нижняя граница растёт с длиной слова, что говорит о том, что, например, слово из двадцати букв не будет сокращено менее, чем в два раза.

Рисунок 4. Распределение апокоп по длине полной формы и её степени уменьшения

2.3.3 Статистика окончаний

По корпусу апокоп была взята статистика о последней букве, на которую оканчивается апокопа. На Рисунке 6 изображён линейный график с частотами различных окончаний, среди которых можно отметить значительный отрыв апокоп на -o, составляющих около 40% слов нашего корпуса. Данное явление уже было отмечено в исследовании (Dister 1997), где автор объясняет его тенденцией носителей языка усекать слова в месте, где в них встречается -o.

Рисунок 5. Линейный график частот окончаний апокоп.

На Рисунке 6 изображены те же данные, но на логарифмическом графике, который позволяет увидеть более чёткое распределение остальных сочетаний. Так, следующими по популярности являются апокопы на -e, составляющие около 10% корпуса, за которыми следуют апокопы на -i и на -a. Наименьшими по популярности окончаниями являются -j, -q и -w.

Рисунок 6. Логарифмический график частот окончаний апокоп.

Таким образом, в нашем корпусе наблюдается примерно равное распределение между апокопами с вокалической финалью (49%) и консонантной (51%).

2.3.4 Статистика по усечённым и добавленным частям

Пары, находящиеся в собранном нами корпусе апокоп, были разделены на следующие части: a) оставленная часть в апокопе; b) добавленная часть в апокопе; c) отрезанная часть от полной формы. Например, для пары intello < intellectuel интеллектуал оставленной частью является intell-, добавленной - -o, а отрезанной - -ectuel.

В зависимости от наличия добавленного в процессе усечения окончания, апокопы делятся на две группы: 1) простое усечение без добавления окончания (апокопа полностью содержится в полной форме) (80% случаев в нашем корпусе); 2) усечение с добавлением окончания, или ресуффиксация (20% случаев в нашем корпусе).

На Рисунке 7 показаны наборы окончаний, добавляемых к апокопе после усечения. При этом важно отметить, что -o занимает второе место по популярности, уступая первое место -e. Преобладание данного окончания может быть связано с тем, что, по французским правилам чтения, многие согласные на конце слов не читаются, а наличие -e после них требует их произношения. Большинство оставшихся окончаний содержат на конце -s, который зачастую является признаком множественного числа. Поэтому позже было решено отрезать -s на конце апокоп, так как случаями, когда это не является показателем множественного числа, можно пренебречь из-за наличия равнозаменяемой формы без -s.

Рисунок 7. Распределение добавленных окончаний в процессе ресуффиксации.

На Рисунке 8 показано распределение отрезанных от полных форм окончаний в процессе усечения и их зависимость от вокаличности финали апокопы. Данные отсортированы по сумме частотностей отрезаемой части. При этом продемонстрированы только те наиболее частотные формы, которые существовали как для вокалических, так и для консонантных групп апокоп. Можно заметить, что при отрезании -tion распределение между двумя группами равное. В то же время окончания -iste, -ard, -ot и -ball усекаются, в большинстве своём образуя апокопы с консонантной финалью, и, наоборот, усечение окончаний -chiste, -mentaire и -sexuel приводит к образованию апокоп с преимущественно вокалической финалью.

Рисунок 8. Зависимость отрезанной части от окончания апокопы.

2.3.5 Статистика по частям речи

Для сбора статистики по частям речи необходимо было определить часть речи полных форм, так как эта информация редко предоставляется в структурированном виде (например, из словаря Le Grand Robert было нетривиально получить данную информацию), а в большинстве наших источников с данными и вовсе не была представлена. При этом мы исходим из положения, о котором мы уже говорили во введении, о том, что апокопа носит те же грамматические характеристики, что и её полная форма.

Важно отметить, что задача автоматического определения части речи никогда не решается со 100% точностью, поэтому в большинстве случаев требуется ручная работа. Причём, система, автоматически определяющая часть речи с некоторыми погрешностями, не подошла бы для нашей задачи, так как в данном случае нам важна 100% точность. Чтобы как-то облегчить ручную работу, мы частично использовали регулярные выражения, находивших прилагательные и наречия, у которых более чёткие и менее объёмные формальные признаки. Многие слова просматривались и исправлялись нами уже после осуществления автоматических замен. В итоге было получено 776 пар апокоп с их полными формами и частеречными принадлежностями (несоответствие данной цифры с окончательным количеством пар в нашем корпусе связано с тем, что данный шаг выполнялся параллельно со сбором корпуса).

После определения частей речи была собрана некоторая статистика. При этом, чтобы отчётливее увидеть тенденции в менее частотных частеречных группах, частоты были возведены в степень 0,35. Как видно из графика, зависимости от финали апокопы в группах с наиболее популярными частями речи не наблюдается. Однако в оставшихся группах - наречий, глаголов и междометий - встречаются преимущественно апокопы с консонантной финалью.

Нам было также интересно посмотреть, какие отрезаемые от полной формы окончания в процессе усечения характерны для каких частей речи. Есть несколько окончаний, характерных для нескольких частей речи: -ement и -e для наречий и существительных, -ieur для существительных и прилагательных, однако большинство отрезаемых частей уникальны для одной части речи. Таким образом, по отрезанным частям можно угадывать часть речи, а, если она заранее определена для слова, то можно предсказать, допустимо ли усечение для этой формы. Однако для составления подобных правил нужен более объёмный корпус, захватывающий как можно больше частей речи.

2.3.6 Статистика об истории возникновения апокоп

Был найден онлайн-сервис Google Ngram Viewer (NgramViewer 2012), строящий по N-граммам графики частотностей слов или словосочетаний за годовой период, заданный пользователем. Сервис базируется на литературных источниках из базы Google, напечатанных в период с 1500 по 2012 год, и предназначен для многих языков, включая французский.

Мы решили с помощью данного сервиса исследовать историю возникновения апокоп и их полных форм из нашего корпуса. Для этого было необходимо написать парсер, собирающий с сайта массивы частотностей для каждой формы. Данные массивы были найдены в формате JSON и собраны в словарь на Python. В итоге было найдено 969 форм, включающих как апокопы, так и их полные формы.

Чтобы продемонстрировать интересные статистические данные, были построены разные графики по некоторым словам из корпуса.

Из графика видно, что употребление усечённых слов наблюдало за все эти годы совсем небольшие колебания, в то время как использование полных форм линейно возрастало всё время. Данная тенденция явилась для нас неожиданной, однако мы связываем её с тем, что полные формы с годами приобрели широкие семантические поля, в то время как апокопы потеряли свою просторечную маркированность не так давно, и их стабильно низкое употребление можно объяснить двумя предположениями:

1) Всё это время мог существовать ряд апокоп, вошедших в употребление, который не претерпевал значительных изменений. При этом появление многих современных апокоп ещё не засвидетельствовано во многих словарях и литературных источниках, из-за чего мы не можем проследить современные тенденции.

2) Возможно, новые апокопы сменяли старые всё время, однако суммарная частота их употребления не изменяла своего значения. Иначе говоря, в языке сформировалась определённая ниша для апокоп предельного размера.

Заметно возрастающее число полных форм может быть также связано с тем, что среди них есть значительное количество слов из таких семантических классов, как техника, наука и современные термины, употребление которых с годами растёт за счёт закрепления этих понятий в языке. Чтобы проверить это предположение, мы решили составить графики отдельных апокоп и их полных форм и проследить их историю употребления.

Изначально для выполнения этой задачи мы составили несколько классов слов, связанных с наукой и техникой - средствами передачи информации, передвижения, изобретениями. Однако мы заметили, что большинство апокоп омонимичны - например, bac может являться как апокопой от baccalaurйat бакалавриат, так и обозначать такие понятия, как паром, ящик- это может затруднять анализ данных и наводить на неправильные результаты. Чтобы максимально избежать такой ситуации, мы выбрали для анализа наименее многозначные формы.

Представлены слова cinйma кино, tйlйvision телевидение и их апокопы cinй и tйlй. Апокопы этих слов стали получать распространение только после 1950 года, в то время как полные формы существовали ещё в 1910-1930-х гг. После 1965 года наблюдается особый скачок в употреблении полных форм. Важно также отметить, что форма cinй так и не набрала особой популярности к 2000 году, в то время как частотность формы tйlй стабильно растёт, а её полной формы - начала падать после 1995 года. Это говорит о том, что у этой апокопизированной формы есть все шансы вытеснить полную форму. То, что апокопа tйlй более популярна апокопы cinй, может быть связано с длиной их полных форм: коэффициент отсечения в первом случае - 60%, а во втором - 33%.

Показаны тенденции, происходившие со словами automobile автомобиль, и mйtropolitain метрополитен и их апокопами mйtro и auto. Интересно, что обе апокопизированные формы сначала были мало распространены, а затем в 1960-х годах резко обогнали свои полные формы. При этом форма automobile стала настолько снижать свою частотность, что можно предсказать, что когда-нибудь она и вовсе выйдет из употребления. Резкий скачок вверх частотности данной формы в 1930 году может быть связан с появившейся в 1913 году конвейерной технологией и значительно развившейся к тому периоду. Данная технология позволила сделать автомобилестроение массовым, в связи с чем резко возросла необходимость в описании этого объекта. Одновременный спад популярности полных форм и вытеснение их усечёнными формами, возможно, связано с изменением конвенций журналов и газет, всё больше поощрявших использование аббревиатурных моделей.

Резкий спад полной формы после 1895 года может быть связан с созданием в это время кинематографа братьями Люмьер. Данное событие ввело новый способ передачи действительности, который резко набрал популярность и отвёл научное обсуждение фотографии на второй план. При этом апокопа photo в это время повышала свою частотность, имея разговорный оттенок, и в 1942 году, возможно, в связи с появлением первой цветной плёнки, наблюдался её заметный скачок вверх. Усечение данной апокопы происходит более, чем в 2 раза, что говорит об оправданности его применения. Мы можем предположить, что данная апокопа когда-нибудь окончательно вытеснит свою полную форму.

Страница:

курсовая работа "Апокопы в современном французском языке" скачать

Подобные документы

Инвективная лексика: соответствия в английском, французском, русском и других языках
Классификация инвективной лексики. Отдельные ругательные слова для создания субститутивного ругательства. Соответствия инвективной лексики в английском, французском, русском языках. Восклицание, когда ругательное слово используется как междометие.

реферат [26,0 K], добавлен 23.12.2011
Специфические черты однородности сказуемых в английском и французском языках
Проблема однородности членов предложения в современной лингвистике. Ряды однородных сказуемых в английском языке, сказуемых первого, второго, третьего структурного типа. Природа предложения с однородными сказуемыми в современном французском языке.

курсовая работа [63,0 K], добавлен 11.11.2011
Функционирование префиксальных глаголов в современном английском и французском языках
Семантическая структура префиксальных производных. Характер взаимодействия префиксов и производящих основ разных лексико-семантических групп. Функционирование префиксальных глаголов в английском языке. Префиксальное словообразование во французском языке.

дипломная работа [72,0 K], добавлен 25.11.2011
Аббревиация как способ словообразования во французском языке (на материале языка современной прессы)
Исследование аббревиации в современном французском языке. Понятие словообразования, типы аббревиации, усечение, инициальные слова, композитная аббревиация. Определение термина дискурс. Использование аббревиатур в дискурсе на материале печатных изданий.

дипломная работа [115,7 K], добавлен 03.07.2009
Формирование заимствованных аббревиатур в русском и английском языках
Заимствования как отражение языковых изменений в условиях глобализации. Понятие, сущность и природа образования аббревиатуры в русском и английском языках. Анализ английских аббревиатурных заимствований в русском языке и сферы их распространения.

курсовая работа [64,8 K], добавлен 03.12.2013
Реализация концепта "труд" во французском и русском языках
Смысловой объем концепта "труд" в русском и французском языках, выявление специфики его языкового выражения с использованием данных энциклопедических и лингвистических словарей. Понятийно-дефиниционные и коннотативные, ассоциативные характеристики.

реферат [22,3 K], добавлен 06.09.2009
Лексические трансформации
Определение лексико-семантической системы языка, рассмотрение её функционирования. Анализ истоков возникновения лексических трансформаций. Сопоставление концепта ошибки в русском и французском языках, выявление сходства и различия его реализации в языке.

дипломная работа [96,5 K], добавлен 07.05.2009
Сравнение систем служебных слов во французском и русском языках
Сравнительное сопоставление систем служебных слов в русском и французском языках, установление особенностей, присущих данным системам, а также сходств и различий между ними. Универсалии. Практическая цель сравнительно-типологического исследования языков.

курсовая работа [49,1 K], добавлен 10.03.2009
Сравнительный анализ синонимов в русском и французском языках
Включение сложных слов в русскую и французскую лексику. Особенности семантики и законов образования сложных слов. Словосложение как один из способов образования новых слов в русском и французском языках. Словосложение в лингвистической литературе.

курсовая работа [38,0 K], добавлен 05.05.2013
Семантика фразеологических единиц с компонентом tete/голова во французском и русском языках
Понятие и национально-культурная специфика фразеологизмов. Метафорическое и метонимическое переосмысление как формы семантического преобразования. Анализ корпуса фразеологических единиц с компонентом-соматизмом tete/голова во французском и русском языках.

дипломная работа [219,7 K], добавлен 13.10.2015

Другие документы, подобные "Апокопы в современном французском языке"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

	good	bad
languefr	564	317
le robert	513	139
wiktionary	408	90
echolalistes	225	34
piechnik	218	11
Lйvy	71	114
cnrtl	53	5
Total:	2052	710

Апокопы в современном французском языке

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Введение

В частности, мы ставим перед собой следующие задачи:

- сформулировать базовые правила образования апокоп для реализации основной части алгоритма распознавания апокоп;

- составить список источников с данными и собрать из них максимально возможный корпус апокоп;

- получить набор статистической информации как для описания общих тенденций аббревиации, так и для подробной классификации апокоп;

- улучшить систему базовых правил с целью увеличения полноты и точности алгоритма.

Методы исследования

1. Постановка задач

1.1 Научная значимость работы

1.2 Обзор литературы

В данном разделе приводится обзор литературы, посвящённой феномену аббревиации.

(1a)La manifestation de la vйritй aura pris cinquante ans.

Установление истины займёт пятьдесят лет. [Kerleroux 1999: 87]

(1b) *La manif de la vйritй aura pris cinquante ans.

Манифестация правды займёт пятьдесят лет. [Kerleroux 1999: 87]

(1c) La manif des йtudiants a durй cinq heures.

Собрание студентов продлилось пять часов. [Kerleroux 1999: 87]

1.3 План работы

В настоящем исследовании было решено придерживаться следующего плана работы:

1) Создание начального списка апокоп. Ручной поиск источников с готовыми апокопами и их полными формами, создание краулеров, собирающих корпус апокоп.

2) Выявление на основе собранного корпуса апокоп базовых правил для основной части алгоритма, определяющих, является ли заданное слово апокопой заданной формы.

3) Поиск источника для создания словаря полных форм, создание единого корпуса полных форм.

4) Сбор статистики по полученному корпусу апокоп.

5) Сбор статистики об истории возникновения апокоп.

6) Создание эффективной системы, которая определяет, является ли заданное слово апокопой, и использует в качестве словаря собранный корпус полных форм.

8) Написание веб-краулеров, собирающих корпус текстов. Это позволит постоянно обновлять корпус, собирая новые данные и таким образом увеличивая корпус апокоп.

9) Итеративное применение алгоритма распознавания апокоп, выявление ошибок, их классификация и устранение.

1.4 Ожидаемые результаты

В качестве результатов настоящей работы мы ожидаем:

1) Система краулеров, собирающая данные для корпуса апокоп;

2) Корпус апокоп;

3) Корпус полных форм;

4) Система краулеров, собирающая корпус текстов;

5) Сбор некоторой статистики об апокопах:

5a) соотношение длин полной и усечённой формы (количество отрезаемых букв)

5b) Формальные правила о методах усечения слова, основанные на выявленных характеристиках;

6) Множество правил, позволяющих распознавать апокопы с обращением к словарю их полных форм.

7) Алгоритм, осуществляющий распознавание апокоп в тексте (базируется на свежих статьях, найденных краулерами).

2. Ход работы

2.1 Сбор корпуса

1) Словарь Le Grand Robert (Le Robert 2015)

2) Статьи из французского вики-словаря Wiktionnaire «Apocopes en franзais» (Wiktionnaire 2015a) и «Apocopes familiиres en franзais» (Wiktionnaire 2015b)

3) Статья «-O, finale et finale par apocope» (CNTRL 2012)

4) Статья «Liste dapocopes» (Echolalistes 2014)

5) Данные из статьи (Piechnik 2009)

В дополнение к корпусу, были добавлены вручную апокопы из статьи (Piechnik 2009).

6) Статья «Abrйviations - Apocope + suffixe (noms communs)» (Lйvy 2009)

7) Статья «Apocope» (Languefranзaise 2015)

2.2 Автоматический поиск апокоп

2.2.1 Требования к алгоритму

Алгоритмическое распознавание текста - крайне нетривиальная задача. Она требует чётко построенного алгоритма с высокой полнотой и точностью.

2.2.2 Формулирование базовых правил

В качестве основы алгоритма было решено создать ряд условий, определяющих, является ли заданное слово апокопой от заданной формы.

2.3 Сбор статистики

2.3.1 Виды статистики

Для начала было необходимо выявить массив признаков, по которым можно собирать статистические данные. Мы составили следующий список видов статистики:

1. Длины

- длины полных форм;

- длины усечённых форм;

- соотношение длин апокопизированной и полной формы.

2. Окончания

- окончания апокоп;

3. Усечённые и добавленные части

- наличие добавленной части после усечения и её распределение;

- отрезанная часть и её корреляция с окончанием апокопы.

4. Частеречная принадлежность

- окончание апокопы и корреляция с её частью речи;

- популярные отрезаемые части для разных частей речи.

5. Статистика об истории возникновения апокоп.

2.3.2 Статистика длин

2.3.3 Статистика окончаний

2.3.4 Статистика по усечённым и добавленным частям

2.3.5 Статистика по частям речи

2.3.6 Статистика об истории возникновения апокоп