Частотный словарь

Проблемы при создании частотных списков. Определение набора ключевых слов, отличающих один корпус от другого, подготовка словарного материала. Автоматическое разрешение омонимии и интерпретация несловарных форм, разрешение морфологической омонимии.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 30.12.2022
Размер файла 19,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ СОЦИОКУЛЬТУРНЫХ КОММУНИКАЦИЙКафедра компьютерной лингвистики и лингводидактики

Реферат

По теме" Частотный словарь"

Выполнила: Проверил:

студентка 4 курса 14 группы преподаватель-стажер

Бердимырадова Айгул Бабаян. М.А

Минск, 2022

Содержание:

Введение

Построение частотных списков

Сравнение корпусов

Структура словаря

Подготовка словарного материала

Введение

Частомтный словамрь (или частотный список) -- набор слов данного языка (или подъязыка) вместе с информацией об их частотности. Словарь может быть отсортирован по частотности, по алфавиту (тогда для каждого слова будет указана его частотность), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. П.), по типичности (слова, частотные для большинства текстов), и т. Д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. Д.

Построение частотных списков

Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора (см. Частотный словарь Грибоедова) и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае, если корпус имеет морфологическую разметку).

Проблемы при создании частотных списков заключаются в:

· воспроизводимости (будут ли результаты идентичны на другом аналогичном корпусе),

· всплесках частотности отдельных слов (частотность слова в одном тексте может повлиять на его позицию в частотном списке),

· сложности определения позиции менее частотных слов, что не дает возможности ранжировать их рационально; например, слово белиберда входит в 20 000 наиболее частотных слов, в то время, как слово хрюкнуть находится за пределами списка первых 40 тысяч.

Все эти проблемы связаны с тем, что со статистической точки зрения язык представляет собой большое количество редких событий (Закон Ципфа), в результате чего небольшое количество слов встречается очень часто, а подавляющее большинство слов имеют очень невысокую частотность. Частотность слова и (самого частотного слова русского языка) примерно в 10 раз выше частотности слова о, которое в свою очередь встречается в 100 раз чаще таких обыденных слов как путешествие, старость или мода.

Для описания всплесков частотности можно использовать метафору хоббита (Адам Килгаррифф изначально использовал относительно редкое английское слово whelk, вид морского моллюска, англ. whelk): если несколько текстов в корпусе о хоббитах, то это слово будет употребляться почти в каждом предложении. В результате его частотность в этих текстах будет сравнима с частотностью служебных слов, но и в частотном списке большого корпуса, в который входят такие тексты, это слово будет иметь неправдоподобно высокий ранг. Такие всплески частотности можно оценивать с помощью коэффициента вариации: отношения стандартного отклонения к средней частотности.

Сравнение корпусов

Частотные словари обеспечивают возможность сравнить два корпуса, чтобы определить слова, наиболее характерные для каждого из них. Иногда в словарях указывается «абсолютная частотность», то есть количество появлений слова в корпусе. В связи с тем, что размеры корпусов могут быть различны, обычно указывается относительная частотность (обычно называемая просто «частотность»), то есть отношение числа появлений слова в корпусе к общему числу слов в корпусе. Иногда указываются обе величины. Относительная частотность иногда указывается в процентах, в промилле либо в миллионных долях (англ. Ipm, instances per million words). Например, слово и имеет частотность 0,03 (3 %, или 30 ‰, или около 30 000 слов на миллион, слово старость -- 0,00003 (0,003 %, или 0,03 ‰, или около 30 слов на миллион).

Для определения набора ключевых слов, отличающих один корпус от другого, можно использовать разные статистические меры: хи-квадрат, отношение правдоподобия (англ. Likelihood-ratio test) и т. П.

Структура словаря

Концепция словаря предполагает издание «бумажной» версии с сопутствующим ей электронным вариантом, представляющим частотный словарь в более полном объеме. Словарная часть содержит следующие разделы:

Общая лексика

· алфавитный список лемм

· частотный список лемм

· распределение лемм по функциональным стилям:

Ш частотный словарь художественной литературы,

Словарь значимой лексики художественной литературы

Ш частотный словарь публицистики,

Словарь значимой газетно-новостной лексики

Ш частотный словарь другой нехудожественной литературы,

Словарь значимой лексики

Ш частотный словарь живой устной речи,

Словарь значимой лексики живой устной речи

· алфавитный список словоформ

Части речи

· частотный список имен существительных

· частотный список глаголов

· частотный список имен прилагательных

· частотный список наречий и предикативов

· частотный список местоимений (местоимения-существительные, прилагательные, наречия, предикативы)

· частотный список лемм служебных частей речи

Вспомогательные таблицы

· данные о частотности частеречных классов и другая статистическая информация

Подготовка словарного материала

Базовые списки частотного словаря были получены в автоматическом режиме, при этом использовалась метатекстовая и лексико-грамматическая разметка корпуса. На основе метатекстовой информации были построены и сравнивались между собой частотные списки на отдельных выборках корпуса (по функциональным стилям, по времени создания текста). Другой вид разметки, лексико-грамматическая, позволяет установить исходную форму слова (лемму), ее часть речи и такие грамматические характеристики, как падеж, число, время и т. Д.[3] Это дало возможность собрать данные о частотности не только отдельных словоформ, но и лексем, а также об употребительности тех или иных грамматических категорий. При создании настоящего словаря был использован вариант лексико-грамматической разметки корпуса с автоматическим разрешением морфологической омонимии. морфологическая омонимия несловарный частотный список

Русский язык как язык с богатым словоизменением создает дополнительные трудности для составителей частотного словаря, так как многие словоформы в текстах омонимичны (ср. словоформу стали как форму глагола стать и существительного сталь, словоформу банка, представляющую леммы банк и банка, слова типа вера и Вера). Тем не менее, в частотном словаре исходная форма слова, или лемма, должна быть приписана любой словоформе однозначно.

В словарях предшествующего поколения (Засорина 1977, Леннгрен 1993) омонимия разрешалась вручную, так как объем обрабатываемого корпуса был незначителен. Очевидно, что для 100-миллионного корпуса такое решение не подходит. При составлении настоящего словаря был учтен опыт чешских коллег, которым пришлось дорабатывать морфологический анализатор, пополнять словарь и проводить ручную редактуру. Первоначально корпус НКРЯ был размечен морфологическим анализатором Mystem (Сегалович, Маслов 1998). Неоднозначность в лексико-грамматической разметке была разрешена с помощью программы А.В. Сокирко, использующей модель триграмм и тренировочный подкорпус со снятой вручную омонимией (Сокирко, Толдова 2005).

Существенную проблему для лемматизации представляют также несловарные слова (Ляшевская и др. 2007). Если слово отсутствует в грамматической словаре морфологического парсера, то ему приписываются одна или несколько гипотез об исходной форме слова и его грамматических характеристиках. В результате в частотный словарь попадают такие «леммы», как благодарностий (ср. словоформу благодарностию), Янсный (ср. Янсен), Барклаивать (ср. Барклай). Между тем, доля несловарных словоформ в НКРЯ составляет 3% всех словоупотреблений и 45% списка словоформ корпуса. Для частотных несловарных словоформ использовались программы пост-обработки морфологической разметки НКРЯ, составленные Б.П. Кобрицовым и Г.К. Бронниковым, а также результаты валидации работы этих программ, полученные О.Н. Ляшевской и Д.К. Бронниковой (Ляшевская 2007, Бронникова 2007). Наиболее эффективными оказались два подхода к лемматизации несловарных слов: кластеризация гипотез о лемме и типе парадигмы (наиболее вероятным для словоформы считается тот разбор, который встречается и у других несловарных словоформ, таким образом, словоформы «ищут» себе соседей по словоизменительной парадигме) и выделение наиболее продуктивных приставок.

Поскольку автоматическое разрешение омонимии и интерпретация несловарных форм допускают определенную, хотя и незначительную, погрешность, омонимы, входящие в первые 20 тысяч частотных слов, подверглись дополнительной ручной проверке.

Литература

1. Бронникова Д.К. Сравнение алгоритмов лемматизации на материале Национального корпуса русского языка. Дипломная работа. М.: РГГУ, 2007.

2. Белякова И.Ю., Оловянникова И.П., Ревзина О.Г. (сост.). Словарь поэтического языка Марины Цветаевой. В 4-х томах. М: Дом-музей Марины Цветаевой, 1996.

3. Виноградов В.В. (отв. Ред.). Словарь языка Пушкина. Т. I - IV. М., 1956-1961.

4. Зализняк А.А. Грамматический словарь русского языка: Словоизменение. М., 1977; 4-е изд.: М.: Русские словари, 2003.

5. Засорина Л.Н. (ред.). Частотный словарь русского языка. Москва: Русский язык, 1977.

6. Adam Kilgarriff. Putting Frequencies in the Dictionary // International Journal of Lexicography. -- 1997. -- № 10(2). -- P. 135--155.

7. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). -- М.: Азбуковник, 2009. -- 1087 с. -- ISBN 978-5-91172-024-7.

8. Частотный словарь // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. -- 3-е изд. -- М. : Советская энциклопедия, 1969--1978.

9. Частотный словарь русского языка / Под ред. Л. Н. Засориной. -- М.: Русский язык, 1977.

Размещено на Allbest.ru


Подобные документы

  • Процесс совпадения орфографической формы и звуковой оболочки слова. Определение частотности употребления омонимов в английском языке на примере лексического контекста. Построение каламбуров на полисемии, омонимии, омографах, шуточной этимологизации слов.

    дипломная работа [689,4 K], добавлен 04.01.2014

  • Понятие и проблема омонимии, порядок и принципы ее разграничения с полисемией, классификация и типы. Сравнительный анализ омонимии в русском и английском языке, особенности проявления данной категории и направления лингвистического исследования.

    курсовая работа [38,8 K], добавлен 15.06.2014

  • Понятие и содержание омонимии, ее место и значение в языкознании. Исследование существующих проблем омонимии в языке хинди и в русском языке. Основные причины и предпосылки возникновения омонимов в хинди. Выявление особенностей межъязыковой омонимии.

    курсовая работа [28,3 K], добавлен 22.11.2010

  • Положение имени существительного в системе частей речи. Возникновение и проблемы полисемии и омонимии существительных в английском языке. Стадии развития и значения одного слова, характеристика его формальных черт. Наличие внутреннего строения лексики.

    контрольная работа [40,3 K], добавлен 11.09.2010

  • Омонимы и их место в системе английского языка. Трудности разграничение омонимии и полисемии, словообразовательные конверсивы. Источники омонимии в английском языке. Подходы к классификации омонимов в английском языке: Лайонз, Скит, Смирницкий, Арнольд.

    курсовая работа [193,6 K], добавлен 26.03.2011

  • Работа с текстом, повторение правил пунктуации и грамматики русского языка. Порядок определения и доказательства частеречной принадлежности слов. Морфологический анализ данных словоформ. Анализ и доказательство частеречной омонимии исследуемых слов.

    контрольная работа [12,1 K], добавлен 13.05.2010

  • Пути возникновения омонимов в русском языке. Типы формальных связей значений многозначных слов: радиальная, цепочечная и смешанная полисемия. Способы разграничения омонимии и полисемии в современном русском языке, их функционально-стилистическая роль.

    курсовая работа [42,9 K], добавлен 01.12.2014

  • Правописание звонких и глухих согласных. Прямая и косвенная речь. Языковая игра у М.Е. Салтыкова-Щедрина. Звуковые законы в русском языке. Оглушение звонких согласных. Обыгрывание лексической многозначности или омонимии. Принципы сочетаемости слов.

    контрольная работа [25,1 K], добавлен 15.08.2013

  • Паронимия на материале современного английского языка. Соотношение и взаимодействие внешней и внутренней сторон слова на фоне более широкой проблемы нарушения "закона знака". Отличие паронимии от однокоренной синонимии, однокоренной антонимии и омонимии.

    курсовая работа [46,0 K], добавлен 31.03.2009

  • Проблемы тождества слова. Способы разграничения омонимии и полисемии, применение словообразовательного и синонимического критериев, компонентного анализа. Поведение омонимов на различных уровнях языка (лексическом, грамматическом, синтаксическом).

    дипломная работа [200,2 K], добавлен 01.05.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.