Формально-грамматические корреляты личностных особенностей автора письменного текста

Исследование зависимостей между формально-грамматическими параметрами текста и личностными особенностями его автора. Изучение и характеристика полученных результатов корреляционно-регрессионного анализа для профилирования автора письменного текста.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 16.12.2018
Размер файла 24,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Воронежский государственный педагогический университет

Формально-грамматические корреляты личностных особенностей автора письменного текста

Филологические науки

УДК 81'33

Литвинова Татьяна Александровна, к. филол. н. centr_rus_yaz@mail.ru

Адрес статьи: www.gramota.net/materials/2/2013/12-1/37.html

Источник Филологические науки. Вопросы теории и практики

Тамбов: Грамота, 2013. № 12 (30): в 2-х ч. Ч. I. C. 132-135. ISSN 1997-2911.

Адрес журнала: www.gramota.net/editions/2.html

Содержание данного номера журнала: www.gramota.net/materials/2/2013/12-1/

Аннотации

Статья представляет собой пилотное исследование зависимостей между формально-грамматическими параметрами текста и личностными особенностями его автора, т.е. раскрывает один из аспектов проблемы моделирования личности автора письменного текста. С применением методов математической статистики получены регрессионные модели, связывающие формально-грамматические характеристики текста и личностные особенности его автора. Материалом исследования послужил специальной созданный корпус текстов, снабженный метаразметкой в виде информации о его авторах.

Исследование выполнено при поддержке гранта РФФИ № 13-06-00016 «Моделирование личности автора письменного текста», гранта РГНФ № 13-14-36001 «Речевой портрет воронежских студентов (на материале электронного корпуса текстов Ї Россия и мир глазами воронежских студентов)».

Ключевые слова и фразы: текст; автороведение; лингвостатистика; математическая лингвистика; служебные слова; корреляционный анализ.

FORMAL-GRAMMATICAL CORRELATES OF AUTHOR?S PERSONAL CHARACTERISTICS OF WRITTEN TEXT

Litvinova Tat'yana Aleksandrovna, Ph. D. in Philology

Voronezh State Pedagogical University centr_rus_yaz@mail.ru

The article presents the pilot research of dependencies between the formal-grammatical parameters of the text and its author`s personal characteristics, i.e. one of the aspects of the author`s personality modeling problem of the written text is disclosed. The regression models linking the text formal-grammatical characteristics and its author`s personal features are received when using the mathematical statistics methods. A specially created corpus of texts supplied with meta-marking as information about its authors was the material for the research.

Key words and phrases: text; study about authors; linguo-statistics; mathematical linguistics; function words; correlation analysis.

Введение

В настоящее время считается доказанным положение о том, что текст как продукт индивидуальной речевой деятельности несет информацию о личности его автора [5]. Однако в науке не выработано единого подхода к методике выявления информации о характеристиках автора текста на основе лингвистического анализа его параметров.

Постановка задачи. В последнее время в связи с бурным развитием средств автоматической обработки языка (морфологических и синтаксических парсеров), программ для статистической обработки данных представляется особенно перспективным стилеметрический подход к моделированию личности по тексту, основная идея которого состоит в том, что на большом корпусном материале с использованием методов статистической обработки данных вычисляются корреляции между подлежащими количественной оценке параметрами текстов и характеристиками их авторов [2; 6]. Следовательно, для решения этой задачи в свете указанного подхода необходимы три компонента:

? корпус текстов, специально созданный для решения данной задачи и содержащий метаразметку в виде социобиографической информации об их авторах (пол, возраст, образование, профессия, данные психотестов и пр.). Отметим, что создание таких корпусов само по себе является нетривиальной задачей, и общедоступных корпусов такого типа на русском языке, насколько нам известно, не существует [1];

? перечень параметров текста, которые могут быть информативными для диагностирования той или иной характеристики его продуцента. Как показывают современные исследования, личность автора проявляется на всех уровнях текста, однако количественный анализ текста на уровне семантики и лексики весьма трудоемок и на современном этапе развития науки не может быть полностью автоматизирован, в связи с чем в новейших исследованиях основное внимание уделяется параметрам текста на уровне морфологии и частично синтаксиса [3];

? математические методы выявления корреляций численных значений параметров текстов и характеристик личности их авторов. Для решения данной задачи используются методы статистической обработки данных, методы машинного обучения и пр. [4].

В настоящей работе мы ставим задачу описать результаты проведенного авторским коллективом эксперимента по выявлению корреляций между формально-грамматическими, поддающимися квантификации параметрами текста и свойствами личности его автора на материале специального созданного корпуса текстов с применением статистических методов обработки данных.

1. Методика эксперимента

Рассмотрим более подробно используемый в исследовании корпус текстов, набор формализуемых параметров текста, математические методы.

1.1 Корпус

Методика построения корпуса текстов для исследований по проблеме моделирования личности автора текста подробно изложена в работе О. В. Загоровской, Т. А. Литвиновой, О. А. Литвиновой [1]. В настоящее время наш корпус насчитывает 1025 текстов от 586 респондентов (респондентов просили написать два текста на заданную тему, но некоторые написали один), информацию о поле авторов и данные их психологического тестирования. Респондентами выступали студенты 1-5 курсов воронежских и московских вузов (как технических, так и гуманитарных специальностей). Предложенные темы текстов: «Письмо другу»; «Описание картинки»; «Что бы я сделал с миллионом долларов США?», «Убедите работодателя, что именно Вас он должен взять на работу» и др. Для пилотного исследования мы отобрали 150 текстов от 75-ти респондентов (26-ти мужчин, 49-ти женщин), среднее число слов в текстах - 166. Также в анкетах респонденты указывали свой пол, специальность (техническая/гуманитарная) и заполняли опросники двух психологических тестов - пятифакторного личностного опросника МакКрае - Коста (традиционно применяется для исследований по моделированию личности автора в англоязычных исследованиях), с помощью которого можно измерять степень выраженности каждого из пяти факторов (экстраверсия - интроверсия; привязанность - обособленность; самоконтроль - импульсивность; эмоциональная неустойчивость - эмоциональная устойчивость; экспрессивность - практичность), и теста «Методика диагностики коммуникативной установки В. В. Бойко».

1.2 Параметры текста

Методами автоматической обработки текстов (АОТ) (с использованием морфологических анализаторов, программ для подсчета частоты встречаемости языковых элементов) были извлечены числовые значения формально-грамматических параметров текста, список которых был составлен по материалам русскоязычной и англоязычной научной литературы, а также предпроектных исследований автора, всего 75 параметров текста.

Гипотеза исследования состоит в том, что для моделирования личности по тексту на основе его формализуемых параметров наиболее релевантными окажутся т.н. функциональные слова (function words) - местоимения, предлоги, союзы, частицы, вспомогательные глаголы, дейктические наречия. Считается, что функциональный класс слов характеризуется рядом признаков, а именно: функциональные слова не обладают номинативной функцией, морфологически неразложимы, семантически и синтаксически несамостоятельны. При этом функциональные слова, будучи морфологически неразложимыми и синтаксически зависимыми единицами, могут иметь ослабленное лексическое значение [7, p. 66]. Функциональные слова менее контролируемы сознанием, им уделяется меньше внимания в речи, чем смысловым словам, и они обрабатываются мозгом по-иному, чем полнозначные слова, о чем свидетельствуют исследования афазий.

Чтобы уйти от зависимости от длины текста, в качестве параметров брали соотношения, т.е. относительные частоты.

1.3 Математическая обработка данных

Для измерения тесноты и направления связи между параметрами текста и личности, установления аналитического выражения (формы) связи мы применили корреляционно-регрессионный анализ с использованием современных программных комплексов обработки и визуализации статистических измерений.

Главной целью наших исследований стала оценка функциональной зависимости условного среднего значения результативного признака (Y) (пола, данных психологического тестирования авторов текстов) от факторных признаков (х1, х2, …, хk) - параметров текста. Таким образом, искомое уравнение регрессии, или статистическая модель связи характеристик автора и количественных значений параметров текста, выражается функцией

Yx = f1, х2, …, хn),

где n - число факторов, включенных в модель; хi - факторы, влияющие на результат Y.

Корреляционно-регрессионный анализ для профилирования автора письменного текста мы проводили в несколько этапов. На первом этапе мы сформулировали решаемую задачу исследования и определились с методикой измерения показателей и сбора информации, а также посредством корреляционного анализа с использованием критерия Пирсона нам удалось определить число факторов, связанных в жестко детерминированную систему «параметры текста ? параметры автора», а также оценить достоверность всех характеристик корреляционной связи, при тесноте связи p = 0,05. Далее мы предположили, что форма связи (тип аналитической функции) между выбранными параметрами текста автора и его личностной характеристикой будет линейной. На третьем этапе с использованием методов регрессионного анализа программного пакета SPSS мы нашли искомые уравнения регрессии и провели анализ полученных параметров уравнения с целью определения ошибки найденных закономерностей на проверочной группе.

Прогнозирование развития анализируемой системы по уравнению регрессии показало достаточно высокий уровень диагностирования параметров личности автора текста на основе неподконтрольных автору, но поддающихся квантификации параметров текста и наших результатов корреляционно-регрессионного анализа.

Для логической регрессии (пол) принимали: 1 = муж., 0 = жен. Что касается обычной мультилинейной регрессии (результаты психотестов), то число, которое считает уравнение, лежит в пределах от 0 до 100, как и баллы по тесту. Отклонение, или ошибку считали усредненную по 75-ти показателям, предварительно определив среднее отклонение регрессии от конкретного результата и далее усреднив значение.

2. Результаты эксперимента

Ниже представлены полученные регрессии, описывающие зависимость между численными значениями параметров текстов и характеристиками личности.

2.1. Пол

Регрессия = - 0,231 - (0,0395х(1)) + (2,681х (13)) + (0,204 х (14)) - (1,301х (20) - (0,658 х (21)) + (0,466 х (25)) - (2,214 х (48)) + (1,173 х (55)) - (1,832 х (59)).

Вероятность совпадения пола по результатам проверки модели ~ 60%.

Таким образом, для определения пола автора текста релевантными оказываются следующие параметрыотношения: 1) количество знаменательных слов / количество незнаменательных слов; 13) кол-во имен сущ. / всего слов; 14) число незнаменат. словоупотр. / число сущ.; 20) (указ. мест. + относит.-вопросит. мест. + личн. мест. + местоименные наречия) / всего слов; 21) (мест. всех разрядов + предлоги + мест. наречия) / всего слов; 25) бессоюзные сложные предложения / сложных предложений всего; 48) (местоим. + союзы + частицы) / общ. число слов; 55) число деепричастий / общее число слов; 59) личные местоим. / число слов.

2.2 Баллы по тесту «Методика диагностики коммуникативной установки В. В. Бойко»

Регрессия = 65,263 - (13,116 * (26)) - (18,872 * (66)) + (86,626 * (67)). Отклонение от реального результата ~ 10%.

Таким образом, для признака «Число баллов по тесту» релевантными оказываются параметры: 26) сложноподчиненные предложения / сложные предложения всего; 66) имена собственные / всего слов; 67) имена собственные / (всего сущ. + личн. мест.).

2.3 Экстраверсия - интроверсия

Регрессия = 63,740 - (0,107 * (6)) - (39,485 * (23)) - (1,499 * (24)) + (10,665 * (29)) - (120,792 * (42)) - (3,899 * (45)) - (623,818 * (54)).

Отклонение от реального результата по данным проверки модели ~ 13-14%.

Таким образом, для этого параметра личности релевантными оказываются параметры: 6) кол-во простых предлож. / предлож. всего; 23) общее количество причастий и деепричастий / всего слов; 24) кол-во союзов / кол-во предлогов; 29) число указ. + вопросит.-относит. мест. / всего слов; 42) предлогов / число слов; 45) число дееприч. оборотов + число прич. оборотов / число обособлений; 55) дееприч. / число слов.

2.4 Привязанность - обособленность

Регрессия = 80,427 - (1,227 * (3)) - (15,140 * (9)) - (12,020 * (12)) - (1,452 * (24)) - (51,413 * (42)) - (766,367 * (54)). Отклонение от реального результата ~ 15%.

Таким образом, релевантными оказываются параметры: 3) кол-во слов / кол-во простых предложений; 9) кол-во предлогов / кол-во незнаменат. словоупотреблений; 12) (мест. всего + предлоги + мест. наречия) / (союзы + мест. + междометия + предлоги + мест. наречия + частица + вспомогат. глаголы); 24) кол-во союзов / кол-во предлогов; 42) предлоги / число слов; 54) дееприч. / всего слов.

2.5 Самоконтроль - импульсивность

Регрессия = 55,472 - (2,689 * (19)) - (55,871 * (23)) + (8,077 * (29)) - (546,071 * (54)).

Отклонение от реального результата ~ 18%.

Таким образом, релевантными оказываются параметры: 19) прилаг. / (наречий + мест. наречий); 23) общее количество причастий и деепричастий / всего слов; 29) число указ. + вопросит.-относит. мест. / всего слов; 54) количество дееприч. / всего слов.

2.6 Эмоциональная устойчивость - неустойчивость

Регрессия = 55,201 - (2,697 * (19)) - (521,891 * (54)).

Отклонение от реального результата ~ 18%.

Таким образом, релевантными оказываются параметры: 19) прилаг. / (наречий + мест. наречий); 54) количество дееприч. / всего слов.

2.7 Экспрессивность - практичность

Регрессия = 60,238 + (14,697 * (10)) + (227,831 * (11)) - (76,134 * (23)) + (5,893 * (29)) - (2,515 * (30)) - (576,137 * (46)) - (580,465 * (54)).

Отклонение от реального результата ~ 9%.

Таким образом, релевантными оказываются параметры: 10) кол-во союзов / кол-во незнаменат. словоупотреблений; 11) всего частиц / (союзы + мест. + межд. + предлоги + мест. наречия + частицы + вспомогат. глаголы); 23) общее количество причастий и деепричастий / всего слов; 29) (указ. мест. + вопросит.-относит. мест.) / всего слов; 30) кол-во имен существительных / всего местоимений; 46) отношение частиц / всего слов; 54) дееприч. / число слов. грамматический текст письменный

3. Обсуждение результатов

Таким образом, мы видим, что в целом наш подход к моделированию текстов подтвердил свою эффективность. Получены модели, дающие вполне точные результаты, за исключением логистической регрессии (диагностирование пола автора), что, возможно, связано с тем, что выборка по полу была недостаточно сбалансирована. Наша гипотеза о значимости служебных слов и местоимений для моделирования личности по полу также подтвердилась: для определения большинства параметров личности полезными оказываются те или соотношения этих частей речи.

Значимым является также анализ синтаксического уровня текстов, в частности, структуры предложений, однако в настоящее время он недостаточно поддается автоматизации, в связи с чем было взято ограниченное число параметров текстов на синтаксическом уровне: количество простых предложений; количество сложных предложений; количество простых предложений в составе сложных; количество сложных предложений по типам связи между частями (бессоюзное; сложносочиненное, сложноподчиненное). Все эти параметры также оказываются значимыми для моделирования личности по тексту.

Отметим, что мы намеренно не проводили контент-анализ указанных текстов, так как нашей целью был поиск формально-грамматических параметров текстов, коррелирующих с характеристиками личности. Наше исследование показало, что такая корреляция действительно существует, и исследования в этом направлении должны быть продолжены; в частности, необходимо выработать единую теоретическую концепцию с привлечением данных не только лингвистики, но и психологии, объясняющую эффективность тех или иных формально-грамматических параметров для диагностирования по тексту того или иного свойства личности. Построение такой концепции неизбежно приведет к выявлению новых релевантных параметров текстов и, следовательно, к повышению эффективности построенных моделей.

Выводы

Отметим, что данное исследование является пилотным и лишь намечает направления поиска в области моделирования личности по тексту на основе формализуемых, неподконтрольных сознанию пишущего параметров текста. В дальнейшем необходимы более релевантная и корректная выборка по логистической регрессии, анализ поведения отдельного параметра текста как коррелирующего с той или иной характеристикой его продуцента, исследования на большом корпусном материале. Однако уже сейчас нам удалось подтвердить выдвинутую гипотезу о том, что наиболее релевантными параметрами для автоматизированного моделирования личности по тексту являются показатели частотности служебных слов и местоимений.

Список литературы

1. Загоровская О. В., Литвинова Т. А., Литвинова О. А. Электронный корпус студенческих эссе на русском языке и его возможности для современных гуманитарных исследований // Мир науки, культуры и образования. 2012. № 3 (34). С. 387-389.

2. Литвинова Т. А. Установление характеристик (профилирование) автора письменного текста // Филологические науки. Вопросы теории и практики. 2012. № 2 (13). C. 90-94.

3. Литвинова Т. А. Языковые корреляты личностных особенностей автора письменного текста: алгоритм исследования // В мире научных открытий. Серия: Проблемы науки и образования. 2012. № 9.3 (33). С. 236-255.

4. Литвинова Т. А., Загоровская О. В., Середин П. В., Лантюхова Н. Н., Шевченко И. С. Профилирование автора письменного текста: подходы, методы и их оптимизация // Филология, искусствоведение и культурология: актуальные вопросы и тенденции развития: материалы международной заочной научно-практической конференции (13 мая 2013 г.). Новосибирск: Изд. «СибАК», 2013. С. 69-79.

5. Фомина Н. А. Свойства личности и особенности речевой деятельности. Рязань: Узорочье, 2002. 412 с.

6. Lyons J. Linguistic Semantics. Cambridge: Cambridge University Press, 1995. 376 p.

7. Argamon Sh., Koppel M., Pennebaker James W., Schler J. Automatically profiling the author of an anonymous text // Communications of the ACM (Association for Computing Machinery). 2009. Vol. 52 (2). P. 119-123.

Размещено на Allbest.ru


Подобные документы

  • Определение коммуникативного намерения автора с опорой на собственную интуицию на примере отрывка из текста. Установление образа автора и характера дискурса. Ролевые отношения автора и адресата. Лексико-грамматический анализ ключевых слов текста.

    курсовая работа [20,2 K], добавлен 23.07.2011

  • Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.

    реферат [30,4 K], добавлен 05.01.2013

  • Основные функции и характеристики лингводидактических тестов. Проведение тестирования на понимание письменного французского текста среди учащихся седьмых классов. Педагогический контроль и его обеспечение. Методика преподавания иностранных языков.

    курсовая работа [84,7 K], добавлен 22.07.2017

  • Характеристика развития навыка письменного перевода, расширения лексического запаса. Анализ переведенного текста и написания переводческого комментария. Исследование составления сложных предложений, употребления метафор, фразеологизмов и терминологизмов.

    отчет по практике [328,2 K], добавлен 11.01.2012

  • Художественный текст как особый вид текста в переводческой практике, его структура и коммуникативная сущность. Особенности восприятия художественного текста. Примечания автора как вспомогательное средство в восприятии перевода произведения, его приёмы.

    дипломная работа [63,9 K], добавлен 08.08.2012

  • Системность современной русской пунктуации. Выявление различных смысловых оттенков, присущих отдельным частям письменного текста. Точка, многоточие, запятая, двоеточие и выделяющие знаки. Формально–смысловые принципы постановки знаков препинания.

    курсовая работа [51,2 K], добавлен 03.06.2012

  • Текст как формально-логическое образование. Основные методы криптоанализа. Метод частотного анализа текста. Показатель частоты встречаемости буквы алфавита. Частотные характеристики биграмм. Определение ранжирования данных. Определение контент-анализа.

    реферат [280,3 K], добавлен 28.09.2011

  • Проявление гендерной идентичности человека в ряде синтаксических конструкций его письменной и устной речи. Базовые различения маскулинности и феминности; исследование связи между синтаксическими особенностями речи и гендерными характеристиками человека.

    дипломная работа [217,9 K], добавлен 25.08.2011

  • Исследование композиционно-речевых форм в структуре англоязычных художественных текстов, проведение разбора повествования, описания и рассуждения. Представление о формально-грамматическом (синтаксическом), речевом и логико-смысловом строении текста.

    курсовая работа [55,4 K], добавлен 23.08.2015

  • Понятие художественного текста как отражения картины мира. Когнитивно-эмоциональное единство мира героя текста, автора и концептуальной картины мира в целом. Сущность семы бытийности, категорий места, величины времени, субъективно-оценочной модальности.

    реферат [40,2 K], добавлен 21.08.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.