Сопоставление синтактико-грамматической и семантической моделей текста в процессе анализа текста на естественном языке
Системный анализ лексики текстов и определение связи основных лексических конструкций с их значением. Формулирование на основе данного анализа правил сопоставления синтактико-грамматической и семантической моделей текста на естественном языке.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 28.01.2020 |
Размер файла | 469,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru//
Сопоставление синтактико-грамматической и семантической моделей текста в процессе анализа текста на естественном языке
И.С. Мошков Илья Сергеевич Мошков - аспирант.
Рассмотрены синтаксическая и семантическая структуры текстов таксономического характера на естественном языке. Проведен системный анализ лексики текстов и определена связь основных лексических конструкций с их значением. На основе данного анализа формулируются правила сопоставления синтактико-грамматической и семантической моделей текста на естественном языке.
Ключевые слова: знания, естественный язык, таксономии.
грамматический семантический лексика текст
Информатизация науки и производства является объективным и неотъемлемым процессом современного постиндустриального общества. Поэтому актуальность разработки новых и совершенствования известных инструментов для извлечения информации постоянно растет. Одним из способов применения данных инструментов является оценка знаний, содержащихся в тексте [1, 2, 3], которая заключается в сравнении структуры знаний некоторого субъекта с эталоном и может использоваться как средство автоматической обработки результатов открытого тестирования.
Некоторые особенности текста на естественном языке (неполнота, избыточность, противоречивость) создают трудности в процессе создания инструмента для полноценного анализа текста [3, 4]. Таким образом, возникает потребность в разработке формальных способов анализа текста, которые бы позволили, с одной стороны, проводить автоматический анализ текста, необходимого для оценки знаний, а с другой - упростить анализ за счет введения ряда допустимых ограничений, сохраняющих необходимый уровень качества анализа. Одним из таких ограничений является использование в качестве анализируемого материала текста, описывающего таксономическую структуру. Это обусловлено тем, что практически в любой области науки и техники с точки зрения обеспечения системности требуется обеспечить структурирование и классификацию имеющихся знаний [5, 6, 7]. Следовательно, для решения задачи оценки знаний человека необходимо иметь систему распознавания терминов таксономии, которая описывается в документе на естественном языке.
В процессе достижения цели - автоматического сопоставления субъективных и эталонных знаний - решаются следующие задачи: анализ структурных особенностей текста таксономического типа; построение формального аппарата хранения знаний; определение критериев для сопоставления синтактико-грамматической и семантической моделей текста.
Для того чтобы сформулировать требования к формальному аппарату анализа, поделим высказывание на ЕЯ, описывающее таксономию, на отдельные части, и определим функции, которые они выполняют в тексте, а также возможные способы их нахождения. Ниже будем использовать высказывание , где - множество сложных составных терминов (ССТ), - связей между ними, - критериев деления терминов, - метаязыковых конструкций, описывающих качественные особенности таксономии. Для определенности в качестве примера будет использоваться следующее высказывание: «По химической классификации нефть делится на три основные группы: парафиновые нефти, нафтеновые нефти, ароматические нефти».
Для большинства ССТ, встречающихся в таксономических текстах, характерны три составные части [1, 6]. Поэтому зададим структуру термина как вектор , где - корневой элемент, - множество признаков корневого элемента, - внутренний термин, зависимый от корневого элемента. Для наглядности введем пример: «Повреждения рельсов делятся на изгибы, повреждения в шейке, изломы по всему сечению и дефекты подошвы. Изломы бывают поперечными с видимыми пороками и без видимых пороков». Выделим три основные части ССТ.
1. Корневой элемент (ядро ССТ) на семантическом уровне является классом терминов в эталонной таксономии, в который входит множество зависимых элементов. Под эталонной таксономией понимается экспертно заданное описание всех возможных классификаций предметной области. Элементы данного множества разделяются за счет использования в их описании различного рода признаков. На синтаксическом уровне это слово, которому подчиняется остальная часть описания термина. Это также означает, что остальная часть грамматически согласована с корневым элементом.
В используемом примере можно выделить два класса терминов:
- «повреждения», «изгибы», «изломы» относятся к одному классу понятий, объединяемых словом «повреждения»;
- «рельс», «подошва», «шейка», относятся к классу понятий, объединяемых словом «рельс».
2. Признаковая часть на семантическом уровне является суммой всех признаков, которые являются одним из способов определения занимаемого места среди множества элементов некоторого класса термина. На синтаксическом уровне они, как правило, являются определениями (прилагательными, причастными оборотами, согласованными второстепенными предложениями). Кроме того, в признаковую часть могут входить ССТ, связанные с ядром предложно-падежной конструкцией. В используемом примере признаком является слово «поперечные», относящееся с корневому элементу «излом».
3. Субъект на семантическом уровне является значением, описываемым фразой, подчиненным ядру. С одной стороны, он является частью родительского термина, а с другой - самостоятельным значимым термином. Имеет такую же структуру, как и весь ССТ, причем корневой элемент субъекта синтаксически согласован с корневым элементом данного термина. При этом каждый внутренний термин может относиться к различным классам предметной области (рис. 1).
Существует два основных способа морфологического анализа: на основе словаря и на основе морфемного анализа [3, 4]. Для достижения поставленных целей был использован подход на основе создания таблицы всех словоформ, так как он проще в реализации, а предметная область описывается конечным набором слов. Используем существующие методы морфологического и синтаксического анализа текста общего типа и применим их с учетом особенностей текста таксономического типа для извлечения его составных частей.
Рис.1. Пример возможной структуры сложного составного термина
Для того чтобы получить представление о структуре текста и входящих в него терминов, необходимо оперировать с синтаксическими характеристиками. Причем существует взаимосвязь между синтаксической ролью в предложении и местоположением в структуре ССТ. Поэтому введем предикат , определяющий лингвистическую согласованность текстового выражения слов и :
(1)
Для типов слов, обычно описывающих ССТ, характерно следующее:
где означает падеж, род и число соответственно. На основе предиката (1) можно задать предикат определения синтаксического подчинения, который позволит преобразовать упорядоченное множество слов в таксономическую структуру:
Выделенные предикаты позволяют делать предположения о семантической роли слова, опираясь на синтаксическую информацию. Однако особенности русского языка требуют нескольких критериев определения семантической роли, в том числе на основе заданных (эталонных) значений слова и словосочетания. Для критериев при необходимости можно определять степень значимости и порог реагирования. Введем множество критериев принадлежности , элементами которого являются предикаты, определяющие принадлежность слова к определенной семантической роли:
,
где - синтаксический (полученный на основе синтаксической информации) критерий ядра термина, - синтаксический критерий признака, - синтаксический критерий субъекта, - семантический (полученный на основе значения слова в эталоне) критерий ядра термина, - семантический критерий признака, - семантический критерий субъекта.
В общем случае ядро является существительным и не имеет синтаксических зависимостей от других элементов термина, внутри фразы не имеет зависимостей от подлежащего и дополнения. Следовательно, можно обобщить критерий для слова :
Признаки не имеют зависимых слов, поэтому являются терминальными элементами. Поэтому критерий для слова задается как
Элемент термина - субъект - в общем случае является дополнением в косвенном падеже, основным признаком этого элемента является отсутствие подчиненного слова. Поэтому критерий для слова задается как
Дополнение, которое имеет зависимость от ядра и вместе с тем имеет другое зависимое дополнение, образует новый термин и становится его ядром. При этом как ядро , так и простейший элемент могут иметь неограниченное множество признаков .
Полученные синтаксические критерии являются общими, их можно делить на составные высказывания и вводить систему их значимости. Таким образом, уже на этапе синтаксического анализа можно найти во фразе слова, относящиеся к множеству терминов , и задать их структуру.
Выделяют несколько уровней значений набора слов - уровень слова, словосочетания, предложения и т. п. Поэтому эталонная система значений должна быть многоуровневой. Зададим систему значений на уровне слова и построим на этой системе значений множество необходимых для анализа уровней. Так как каждое слово является текстовым выражением определенного значения, то зададим систему, хранящую значения вводимого текста. Для сопоставления множества значений и множества их текстовых выражений введем функцию получения значения текстового представления. То есть если полностью задана система значений, то должно выполняться условие
При этом данная функция возвращает одно наиболее вероятное значение. Реализация данной функции возможна, так как для составных частей терминов не так ярко выражена проблема омонимии. Причем множество может описываться сложной системой значений, которая используется при оценке качества описанной таксономии, так как необходимо учитывать семантические связи между словами.
Для того чтобы оперировать с различными ССТ и его частями, объединим множество значений эталона в необходимую структуру. Так как структура эталонных знаний базируется на структуре субъективных знаний, изложенных в тексте, то обобщим рекурсивную структуру ССТ:
Если термин имеет внутренний термин со схожей структурой с родительским термином, то имеет собственное ядро , однако в косвенном падеже, так как оно подчинено родительскому ядру . Внутренний термин также может иметь свой внутренний термин , если же его нет, то имеем ядро , для которого нет подчиненных слов. Таким образом, получается система вида
Исходя из структуры термина зададим структуру хранения терминов в эталонной базе знаний. База знаний должна содержать термины, которые образуют таксономическую структуру. Каждый ССТ делится на элементы, являющиеся значениями, для которых задаются возможные текстовые выражения. Подобное деление позволяет задавать отдельное семантическое значение не только для слова, но и для словосочетания. Это позволяет адекватно реагировать на различные именования одного и того же ССТ.
Рис.2. Пример структуры эталонной базы знаний
Введем понятие класса терминов , в который входят все термины с одинаковым ядром:
Так как все термины класса имеют одинаковое ядро, то найденное во фразе ядро будет ассоциироваться с данным классом понятий. Следовательно, если ожидается соответствие между субъективными и эталонными знаниями, то в первую очередь в связи с ядром во фразе будут ожидаться элементы ядра в эталонной базе для данного класса (пример структуры приведен на рис. 2).
Выделим ряд семантических критериев, которые позволят определить местоположения термина во фразе, а также определить семантическую роль слова. Термин должен присутствовать в эталонной таксономии как класс понятий , то есть является ядром одной из семантик, причем конкретное семантическое значение определяется зависимыми элементами. Таким образом, семантический критерий для термина формулируется как
Если термин содержит в качестве субъекта внутренний термин , то в эталонной базе знаний должны присутствовать описания обоих терминов, причем в описание общего термина включена ссылка на описание внутреннего термина как его субъекта . При этом оба этих термина могут быть как из независимых деревьев, так и из одного дерева. Таким образом, семантический критерий для субъекта формулируется как
Для подтверждения того, что значение слова является признаком некоторого термина , нужно найти в эталонной базе знаний множество терминов , к которым он принадлежит. Среди этого множества терминов предполагается такой, что его появление не нарушает последовательности описания таксономии:
Таким образом, введено множество критериев , позволяющих определить семантическую роль слова, входящего в описание ССТ. Применяя критерии на этапах анализа текста, можно выделить из текста находящиеся в нем термины.
Если на основании критериев не удается подтвердить семантическое значение термина в анализируемом высказывании, то предполагается наличие допущенной ошибки в описании термина. Вариантов может быть несколько:
- распознанные слова термина не имеют синтаксической связки;
- слова термина имеют синтаксическую связь, но не имеют значения в данной предметной области на трех уровнях: ядра, одного или нескольких признаков, субъекта.
Таким образом, для синтаксически связанных элементов термина (), не выполняется следующее условие:
Для определения степени ошибки введем предикаты ошибки использования того или иного элемента в термине. Предикаты допущенных ошибок в описании признаковой части термина , при описании ядра термина и описании субъекта термина определяются как
При этом базовый алгоритм для определения степени ошибки в признаковой части опирается на отношение числа недопустимых элементов признаковой части ко всему количеству признаков. Так как ошибка может быть лишь в части термина, расчленение составных частей термина позволяет предположить подразумеваемое описание термина с учетом допущенной семантической ошибки, что позволяет ввести числовое значение степени допущенной ошибки.
В заключение можно отметить, что приведенная методика анализа производит поиск элементов таксономии и связей между ними в анализируемом тексте на основе набора синтаксических правил и эталонных знаний. Для поиска и проверки синтаксических и семантических конструкций используются особенности, характерные для текста таксономического типа. При этом есть возможность отбрасывать нераспознанную информацию, которая по ряду признаков не относится к описанию таксономии. Таким образом, предложенная методика анализа текста позволяет извлекать необходимую информацию как из текстов, непосредственно описывающих таксономию, так и из текстов, в которых присутствуют избыточные описания элементов таксономии или несущественная информация. Главным условием анализа является возможность построения на основе текста фрагмента таксономических знаний, сопоставимых с эталоном.
Библиографический список
Никаев С.А. Модели и информационная система для оценки профессиональных знаний специалистов промышленного производства / Автореф. дисс. … техн. наук Спец. 05.13.01. - Системный анализ, управление и обработка информации (промышленность). - Самара, 2004. - 24 с.
Гаврилова Т.А. Базы знаний интеллектуальных систем. - СПб.: Питер, 2000. - 384 с.
Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. - М.: Академия, 2006. - 303 с.
Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. Лингвистический процессор для сложных информационных систем. - М.: Наука, 1992. - 256 с.
Лурия А.Р. Язык и сознание (Под ред. Е.Д. Хомской). - Ростов н/Д.: Феникс, 1998. - 416 с.
Солсо Р.Л. Когнитивная психология. - М.: Тривола, 1996. - 600 с.
Знаков В.В. Понимание в познании и общении. - Самара: СамГПУ, 2000. - 188 с.
Размещено на Allbest.ru
Подобные документы
История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.
реферат [371,0 K], добавлен 13.02.2011Перевод - процесс создания на основе исходного текста на одном языке равноценного ему в коммуникативном отношении текста на другом языке, требования к обеспечению его эквивалентности. Машинные технологии перевода; характеристика систем Translation Memory.
презентация [347,8 K], добавлен 06.01.2014Проектирование программного обеспечения, позволяющего создавать и вести множество электронных словарей. Обоснование выбора программных средств решения задачи. Разработка формы входных и выходных данных. Описание модулей программы и процесса отладки.
дипломная работа [1007,7 K], добавлен 03.07.2015Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.
лабораторная работа [220,9 K], добавлен 10.03.2007Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.
реферат [3,2 M], добавлен 22.04.2015Анализ существующих решений в сфере программных продуктов проверки орфографии. Анализ правил русского языка, которые используются при машинном анализе текста. Разработка алгоритмов морфологического анализа. Алгоритм анализа слова на возможные ошибки.
дипломная работа [489,9 K], добавлен 27.10.2010Структура и алгоритм составления рекламного текста. Возможности графики в рекламных текстах. Анализ рекламного текста на основе архетипов К.Г. Юнга. Цвет и шрифт как часть графики в рекламных текстах. Архетипы рекламного текста на примере MacBook Air.
дипломная работа [8,0 M], добавлен 29.12.2012Разработка программы для редактирования в оперативной памяти текстовых ASCII-файлов размером не более 40 килобайт, на языке программирования Pascal в среде разработки Turbo Pascal 6.0. Инструкция для пользователя. Листинг разработанной программы.
курсовая работа [21,3 K], добавлен 26.11.2011Работа с фигурным текстом. Форматирование и редактирование текста. Редактирование узлов фигурного текста. Привязка текста к фигурам. Выравнивание текста на фигуре. Перспектива, оболочки и выдавливание. Работа с простым текстом.
реферат [12,7 K], добавлен 21.12.2003Разработка алгоритма автоматического создания отзывов на русском языке с использованием лексико-синтаксических шаблонов. Процесс создания текста при помощи цепей Маркова. Принцип работы Томита-парсера. Применение автоматических генераторов текстов.
курсовая работа [150,6 K], добавлен 27.09.2016