Сравнительный анализ лингвистических и машинных методов изучения текста

Лингвистические подходы к изучению текста, элемент конструирования общественной мифологии, методы изучения и функциональные свойства содержания текстов. Информационный обмен, машинная обработка материала способом контент-анализа, языковый компонент.

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык русский
Дата добавления 20.03.2011
Размер файла 184,8 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1.Определение понятия «текст

1.1 Текстуальность. Критерии текстуальности

1.2 Различные лингвистические подходы к изучению текста

2.Машинныйспособ анализа текста

2.1 Машинная обработка материала способом контент-анализа

2.2 Инструменты Text Mining

Заключение

Список использованной литературы

Приложение

Введение

Художественная литература в большинстве своем сегодня становится массовой, при чем даже та, которая содержит в себе намек на какой-то интеллектуальный анализ или социальную критику существующего порядка. Как правило, современные художественные произведения, и романы в частности, имеют несколько «слоев» смыслов, каждый из которых доступен определенной группе населения, и можно заметить тенденцию, что чем болев высок образовательный уровень человека, тем больше таких слоев смыслов,

заложенных в произведении, ему доступно.

Массовая культура и литература в частности является элементом конструирования общественной мифологии. Она не только отражает уже существующие, но и создает новые идеологические конструкты, стандартизированные взгляды, стереотипы. Последние, в свою очередь, помогают человеку ориентироваться в мире, складывать впечатления о происходящих событиях, с которыми он не может быть ознакомлен непосредственно или о местах, в которых он никогда не бывал.

Для того, чтобы изучать существующие в обществе мифы и стереотипы, необходимо использовать специфические методы анализа. Прежде всего, необходимо изучать произведение в некотором социокультурном контексте, в котором оно было создано, попытаться воспроизвести именно те социальные реалии, которые повлияли на создание произведение текста именно в таком виде, в каком он предстал перед читателем. Также текст должен восприниматься в неразрывности с его автором, его переживаниями и элементами биографии, которые тоже влияют на создание текста в его завершенности.

Таким образом, целью данной курсовой работы является исследование современных изучения текста, их анализ, выявление недостатков и достоинств лингвистических и машинных методов.

Для реализации данной цели были поставлены следующие задачи:

1. Определить понятие «текст».

2. Рассмотреть лингистические методы изучения содержания текстов.

3. Изучить машинные способы анализа текста.

4. Опробовать инструменты анализа текста Text Mining.

В работе использованы труды таких авторов как Распопов И.П., Чернявская В.Е., Левицкий Ю.А., Каде Т.Х., Арнольд И.В, Кодухов В.И., Головин Б.Н., Степанов Ю.С. и др.

Теоретическая значимость работы состоит в углублении понимания определенных лингвистических явлений, методов анализа, освоении новых и актуальных технологий применительно к анализу теста.

Структура работы. Работа состоит из введения, двух глав, заключения и списка использованной литературы, приложения.

1.Определение понятия «текст»

Прежде чем выбрать то или иное направление исследования текста, переходить к частным вопросам его анализа, необходимо осознать, что есть текст, прояснить его сущность, дать ему рабочее определение. Это позволит нам ясно представить себе объект изучения. Однако, очень трудно сформулировать дефиницию текста, так как он - явление многомерное и пограничное, находящееся на стыке различных дисциплин. Вероятно, поэтому текст по-разному понимается и по-разному определяется его исследователями. По словам З.Я. Тураевой, "определение текста, которое можно было бы считать исчерпывающим и которое носило бы терминологический характер, еще не выработано".

Проанализировав дефиницию текста, предлагаемую разными лингвистами, можно сделать вывод о том, что наметилось несколько различных подходов к пониманию этого термина. Одни авторы (М.М. Бахтин, Р. Барт, Ю.М. Лотман) демонстрируют расширенное понимание текста. В этой связи цитата М.М. Бахтина как нельзя лучше иллюстрирует такую позицию: "Если понимать текст широко - как всякий связный знаковый комплекс, то и искусствоведение (музыковедение, теория и история изобразительных искусств) имеет дело с текстами (произведениями искусства)". Р. Барт также понимает текст всеобъемлюще, как "ненаглядное, незримое, социальное, многомерное пространство". Той же точки зрения придерживается и М. Фуко, по мнению которого "любой текст выглядит не как конечный результат творческой деятельности субъекта, не как реализация авторского замысла, но как бесконечное, изменчивое, текучее пространство общения". Многие зарубежные ученые считают текстом не только речетворческое произведение: Тексты вовсе не обязательно должны быть письменными. Любой объект, созданный в процессе культурной или общественной деятельности, способный к символическому и повторному интерпретированию, может считаться текстом - и часто применяют многие категории вербального текста к тексту в таком расширенном понимании.

Однако, взгляд на текст как на любой объект, созданный в процессе культурной или социальной деятельности человека, многие лингвисты считают слишком общим. Ю.А. Левицкий, являясь противником такой точки зрения, утверждает, что "если к культурным "текстам" относить все знаковые образования, семиотика включается в лингвистику - получается такая вот "всеядная" лингвистика".

Другая условная группа исследователей, к которой принадлежат Е. Косериу, Х. Изенберг, З. Шмидт, Т.М. Николаева, Г.А. Орлов, понимает под текстом любое словесное произведение как написанное, так и бытующее в устной форме, фактически исключая из рассмотрения тексты, созданные с использованием других знаковых систем. "Под текстом понимается реализованное в речи и оформленное в структурном и интонационном отношении иерархически построенное смыслообразование, которое содержит в себе смысловые связи разного уровня".

Сторонники третьего направления (И.Р. Гальперин, З.Я. Тураева, Р. Харвег, К. Циммерман) не учитывают устную разновидность речетворчества, буквально интерпретируют понятие "текст" и определяют его как фиксированное на письме речетворческое произведение. Понимание текста как только письменного вербального продукта значительно сужает и, на наш взгляд, обедняет область исследования.

Некоторые лингвисты рассматривают текст с функциональной точки зрения и не без основания считают, что текст - это такое явление, которое не может существовать вне общения, вне функциональных задач. По мнению этой группы лингвистов, текст есть языковой компонент акта коммуникации. М.Н. Кожина также демонстрирует функциональный подход к тексту, однако с несколько иных позиций: "В аспекте трактовки языка как функционирующей системы текст, строго говоря, не является одним из уровней системы языка (как денотативной его модели, таксономического аспекта). Собственно текст (в его процессуальном аспекте, как фиксируемая речевая деятельность) - это и есть функционирование языка, всех его дотекстовых уровней (но не только!), либо (в аспекте результативном) продукт этого функционирования".

В последние годы наметилось еще одно, системное понимание текста. По мнению И.Г. Торсуевой, текст представляет собой систему, то есть целостное в структурном и функциональном отношении образование, внутренняя связь элементов которого является более необходимой и устойчивой, чем связь этих элементов с окружающей средой или с элементами других систем. Возврат к системному подходу при исследовании лингвистических явлений произошел не без причины. Вот как объясняет это явление И.В. Арнольд: "Отрыв какой-либо науки от общего развития познания, от его фундаментальных проблем грозит ей застоем. Неудивительно поэтому, что в наше время всякое научное исследование, в том числе лингвистическое, с неизбежностью использует теорию систем". Рассматривая текст как объект лингвистического исследования, мы должны учесть как его собственный системный характер, так и его детерминированность свойствами используемой языковой системы. Учитывая подобную многоплановость, можно предложить следующее рабочее определение текста. Текст - есть коммуникативная система, предназначенная для переноса закодированной информации. Любой текст является носителем информации. В то же время, всякая информация закодирована с использованием какой-либо системы знаков или кодов, в качестве которых могут использоваться как естественные, так и специальные языки - ноты, языки программирования, математические, физические, химические и др. формулы, чертежи, схемы, графики, язык жестов, язык слепых, а также живопись, скульптура, музыка и т.п. Если текст поэмы А.С. Пушкина "Евгений Онегин" записать с помощью азбуки Морзе или языка слепых, он не перестанет быть текстом. Вот почему, по нашему мнению, текстом следует считать не только речетворческое произведение, но и сообщение, существующее на искусственно созданном языке, например компьютерную программу, картину, музыкальную пьесу, и ее нотную запись, то есть любое образование, созданное автором для передачи адресату какой-либо информации. Именно такое, расширенное понимание текста демонстрирует радист, называя последовательность точек и тире "текстом передачи" или музыкант, именующий нотную запись "текстом музыкального произведения".

Однако, наибольшее количество текстов создается и воспринимается с использованием естественных языков, которые общепризнанно считаются знаковыми системами. Информационный обмен между людьми происходит главным образом с использованием речи, этого ни с чем несравнимого способа передачи информации. Вербальные сообщения занимают большую часть от общего числа текстов. Именно поэтому, говоря об изучении текстов, многие исследователи имеют в виду в первую очередь речетворческие произведения. Они же являются и объектом нашего исследования. Таким образом, понимая под текстом любую коммуникативную систему, предназначенную для переноса закодированной информации, объектом своего исследования мы считаем только вербальные тексты, которые могут быть как устными, так и письменными.

При исследовании текста важно помнить о том, что информативный и системный подходы к тексту должны осуществляться без отрыва от функциональных свойств текста. "Семиотическая система выступает как несущая информацию, только когда она взята в своем функциональном аспекте, как набор элементов, строящихся в определенных взаимоотношениях, семантическая система никогда связной информации не несет".

При всем многообразии подходов к изучению текста, их объединяет одна общая идея: текст - это законченное речевое целое. Текст обладает определенной структурой, предполагающей наличие взаимообусловленных частей. Текст должен отвечать определенным критериям текстуальности.

1.1 Текстуальность.Критерии текстуальности

Выявление и систематизация внутренне необходимых свойств текста связано с вопросом качественной определенности текста, то естьь отличии текста от нетекста. Это-первый этап в осмыслении проблем делимитации и идентификации текста, то есть ограничении его от других языковых единиц. Качественная определенность текста в зарубежной лингвистической традиции называется текстуальностью. Текстуальность, таким образом, предстает в западной традиции как совокупность неких черт.

В отечественной науке в этой связи все чаще говорится о категориях текста. Традиция, видимо, положена широко известной книгой Гальперина «Текст как объект лингвистического исследования» (1981), в которой приводится перечень обязательных и варьирующися, факультативных категорий: информативность, членимость, проспекция, ретроспекция, когезия, модальность, автосемантия, завершенность, подтекст.

В зарубежной лингвистике вопрос о том, каким критериям должен отвечать текст был изначально поставлен и раскрыт наиболее полно В. Дресслером и Р,-А. де Бограндом в их «Лингвистике текста», изданной в 1981г. Предложенная авторами модель текстуальности послужила основой для многих последующих дискуссий и теорий относительно текстового статуса вообще, она широко обсуждается и заимствуется и в отечественных работах. В качестве фундаментальных-первичных, базовых свойств текста В. Дресслер и Р.-А. де Богранд называли 7 признаков: когезию, когерентность, интенциональность, адресованность, информативность, ситуативность, (типологическую) интертекстуальность. Их следует рассматривать как те конститутивные принципы, которые с необходимостью соблюдаются как при текстопорождении, так и при текстовосприятии. Суммируя кратко:

Когезия(1)- это взаимосвязь компонентов поверхностной структуры текста: грамматико-синтаксическая, лексическая, ритмическая, графическая; когерентность(2)- семантико-когнитивная связность в ее различных аспектах: причинно-следственном, временном, референциальном. Оппозиция «когезия-когерентность»- это оппозиция поверхностной структуры и глубинно-смыслового уровня. Интенциональность(3) как обусловленность текстового целового коммуникативной целью тесно связанна с адресованностью(4), т.е. коммуникативно-прагматической направленностью на адресата во всем многообразии его, адресата, характеристик: социальных, возрастных, коммуникативно-ролевых и т.д. Информативность(5) подразумевает отражение в тексте степени/меры ожидаемости/неожидаемости, известности/неизвестности, предъявляемых адресаты смысловых образований, что обуславливает отбор и комбинирование языковых средств. Ситуативность(6) характеризует соотнесенность текста с релевантными факторами коммуникативной ситуации его порождения. Наконец, интертекстуальность(7) предполагает воспроизводимость в конкретном текстовом экземпляре инвариантных признаков, определяемых моделью его текстопостроения - типа текста.

Эта модель текстуальности вот уже два десятилетия является доминирующей в дискуссиях по лингвистике текста, и критерии текстуальности, по де Богранду и Дресслеру, называются в качестве основных признаков текста во всех авторитетных зарубежных исследованиях, в том числе в изданиях справочного и учебного характера.

Возвращаясь к концепции де Богранда и Дресслера, подчеркнем, что признание ее теоретической значимости отнюдь не исключает возможности ее дополнения, уточнения, критической интерпретации. И дискуссии, порождавшие затем новые представления, возникли изначально.

Прежде всего, очевидно, что предложенная модель текстуальности базируется на разнородных признаках текста- разнородных в том смысле, что отражаются, во-первых, различные теоретические подходы к определению сущности текста, сменявшие друг друга с 60-х-80-х гг. а, во-вторых, недиференцированно объединяются различные уровни текстового целого.

Первый из названных признаков текста, когезия, т.е. грамматико-синтаксическая взаимосвязь элементов текстового целого на поверхностном уровне отражает грамматически-ориентированную модель текста, находившуюся у истоков формирования лингвистики текста.

Критерии когерентности и информативности(называемой еще тематичностью) отражают, в свою очередь, семантически ориентированный подход к описанию текста.

Уже изначально при возникновении лингвистики текста как новой дисциплины исследователи сделали акцент на глубинной смысловой, семантически обусловленной взаимосвязи языковых элементов в текстовое целое. Этот теоретический подход нашел свое выражение в соответствующих дифинициях текста как системы смысловых элементов.

Дальнейшее развитие лингвистики текста отмечено осознанием того факта, что синаксически обусловленное единство языковых элементов необходимо, но не достаточно для определения феномена текстовой целостности- тот вывод, который стал очевиден вместе с прагматическим поворотом в языковедении.

Функциональная перспектива текста, его коммуникативное назначение выходит на первый план. Все языковые единицы, все слова, включенные в текст, становятся, таким образом, включенными в коммуникативную ситуацию. Они являются результатом осмысленного целенаправленного выбора автора текста, создающего текстовое целое.

В тексте возникает качественно целое, не равное сумме системных значений отдельных единиц.

Именно с осмыслением текстового целого как качественно нового целого, не складывающегося механически из суммы входящих в систему элементов, и связана проблема выявления имманентных свойств текста. Проблема текстуальности оказывается сфокусированной по-новому как вопрос о возможности и оправданности признавать тезис о самодостаточности набора неких характеристик для придания статуса текста

1.2 Различные лингвистические подходы к изучению текста

В целом на современном уровне развития лингвистики текста в этой области языкознания можно выделить несколько основных направлений исследований, которые рассматриваются разными лингвистами либо по отдельности, либо во взаимосвязи. Это 1) изучение текста как системы высшего ранга, 2) определение единиц, составляющих текст, 3) построение типологии текстов, 4) выявление особых текстовых категорий.

Лингвисты, изучающие текст как систему, анализируют текст с разных позиций. Одни исследователи демонстрируют структурный подход, рассматривают текст в целом, текст как изолированное, независимое языковое образование более высокого уровня. Исследования в этом направлении сводятся к моделированию формальной, формально-содержательной и содержательной структур текста (М.Я. Блох, И.Р. Гальперин). Все работы в данной области можно охарактеризовать как своеобразное "продолжение" традиционной классической грамматики, вышедшей за пределы предложения. В связи с этим проводится ряд аналогий между структурами сложного предложения и текста, переосмысливаются категории традиционной грамматики.

В основе другой точки зрения лежит положение о том, что текст, будучи системой более высокого порядка, чем предложение, сам является частью другой, более сложной системы. Сторонников этого направления можно условно разделить на две большие группы в зависимости от того, какая система, по их мнению, является высшей по отношению к тексту. В одну группу войдут лингвисты, придерживающиеся литературоведческого, а точнее, постмодернистского подхода к изучению текста: М.М. Бахтин, М. Фуко, Ю.М. Лотман и др. Они считают, что любой вербальный текст является составной частью корпуса всех существующих сегодня текстов, т.е. литературы, которая, в свою очередь, есть элемент культуры человечества. Изучение текста с этих позиций, представляющее безусловный интерес, уводит нас с лингвистической почвы и требует применения методов литературоведения и культурологии. Культурологический подход к изучению текста представляет собой еще большее расширение предмета изучения и направлен на освещение особенностей менталитета народа, отраженных в языке, прецедентных текстах (по Ю.Н. Караулову), концептосфере (Д.С. Лихачев), культурных концептах (Ю.С. Степанов). Изучение текста с этих позиций требует выявления ценностных доминант соответствующей культуры как в этическом, так и в эстетическом планах.

Другая группа исследователей избрала коммуникативный подход, сторонники которого считают обстоятельства общения важнейшим смыслообразующим компонентом текста и предлагают выделить и обосновать категории прагмалингвистики (Р. Белл, В.Г. Гак, Дж. Серл, И.П. Соусов, Д. Хаймс и др.). Другой путь исследования в рамках коммуникативного подхода избрали О.Л. Каменская, С.И. Гиндин. Поскольку текст, по их мнению, является элементом коммуникативного акта, он может быть описан в рамках теории коммуникации.

Второе направление изучения текста базируется на положении о том, что текст обладает определенной структурой, предполагающей наличие соподчиненных и взаимообусловленных частей. Выявление и описание этих частей и является целью сторонников данного направления. В результате подобных исследований появился целый ряд терминов для обозначения сложных синтаксических единиц, являющихся компонентами текста. Это "сверхфразовое единство" (О.С. Ахманова), "сложное синтаксическое целое" (А.М. Пешковский), "компонент текста" (И.А. Фигуровский), "прозаическая строфа" (Г.Я. Солганик), "синтаксический комплекс" (А.И. Овсянникова), "диктема" (М.Я. Блох), "абзац" (Л.Г. Фридман), "монологическое высказывание", "коммуникативный блок", "дискурс" (discourse), предложенные в работах пражских лингвистов, "регистр" (register), используемый в исследованиях представителей так называемой неофирсовской школы и эдинбургской школы, "высказывание" (utterance), "микротекст" (О.И. Москальская) и т.д. Эти термины часто применяются для определения разнородных явлений, но все они преследуют одно назначение - определить более крупную, чем предложение, единицу текста. Разные исследователи предлагают свои принципы членимости текста: формально-структурный, содержательный, творческий (И.Р. Гальперин), объективный/ субъективный (З.Я.Тураева), линейный/нелинейный (О.Л. Каменская) и т.д. Однако, всех лингвистов, развивающих данное направление исследований, объединяет общий подход к изучению текста "изнутри", без учета его связей с внешним миром, с так называемой текстовой "экологией".

Третье направление непосредственно связано с проблемой типологии текстов. Лингвисты, работающие в этой области, видят цель своих исследований в выявлении конечного, исчерпывающего набора конструктов, обуславливающих тот или иной тип текста. Это может быть модель текста (Дж. Мисрик), базисный текст (Е. Верлих), текстема как глубинная структурная форма текста (К. Циммерман), текстоид как идеальная схема последовательности элементов текста, которая может быть обнаружена в большинстве текстов (М. Метцелтин), текстотип как некий абстрактный инвариант (Х. Изенберг).

Рассмотрев различные типологии текстов, составленные разными авторами, мы приходим к выводу, что и здесь наметились две позиции, сформировавшиеся в зависимости от того, какие характеристики текста являются для их сторонников основополагающими - внутренние или внешние. Чисто языковым подходом, т.е. опорой только на внутренние особенности текстов, характеризуются исследования И.Мистрика, Г. Вайнриха, Р. Харвега. Текст для них представляет собой в первую очередь последовательность связанных между собой языковых единиц. Способ связности определяет тип текста, который поддается изучению, в том числе точными методами, например, с помощью ЭВМ. При этом текстообразующая роль приписывается различным языковым единицам: для И. Мистрика "ткань" текста образуется определенной последовательностью и частотностью лексических единиц; Р. Харвег строит свою типологию на характере употребления в тексте слов - заместителей; Г. Вайнрих определяет машинным способом "партитуру" текста, основанную на нумерации встречающихся в нем глаголов или на фиксации переходов между ними.

По мнению А. Кречмера, типология текстов, строящаяся только на их лингвистических признаках, тем более на каком-либо одном из них, не может быть полной. Сторонники этой точки зрения представляют коммуникативно-ориентированную типологию текстов. Текст определяется ими как языковой компонент акта коммуникации. Коммуникативный акт, в свою очередь, рассматривается как сложное отношение между лингвистическими, социолингвистическими и нелингвистическими конституентами (С. Шмидт). При анализе текстов сторонники этой позиции предлагают учитывать, помимо собственно лингвистических категорий, характер партнеров и их взаимоотношений, их фоновые знания, обстоятельства коммуникации, коммуникативную интенцию и т.п. (Г.Бретшнайдер, Б. Зандиг, С. Шмидт). Сами типы текстов, в том числе и их лингвистические особенности, определяются спецификой коммуникации, например интенцией (Ч. Гнифке-Хубриг), правилами употребления текста (Б. Зандиг), отношением коммуникантов к высказываемому (Г. Виенольд), характером речевой ситуации (Х. Зитта).

Задача выявления особых текстовых категорий с методологической точки зрения представляется нам наиболее важной, поскольку после определения характерных, отличительных признаков текста задачи изучения текста в целом, его составляющих и построения типологии текстов значительно упрощаются. Среди лингвистов, разрабатывающих это направление, - И.Р. Гальперин, И.В. Арнольд, З.Я. Тураева, О.П. Воробьева, В.И. Карасик и др. - нет единства мнений относительно критериев выделения текстовых категорий, их количества и способов систематизации. Категории, называемые разными исследователями, по-разному понимаются их авторами, отражают различные свойства текста и различное понимание самого объекта изучения. Однако, и в этой области исследований прослеживается несколько направлений, сформировавшихся в зависимости от "строго лингвистической" или коммуникативной точки зрения исследователя на текст. Таким образом, рассмотрев различные подходы к изучению текста, приходим к выводу, что решение любой лингвистической задачи, будь то составление типологии текстов, выявление текстовых категорий или анализ текста в целом, будет зависеть от понимания исследователем текста как высшего и независимого языкового единства или как элемента коммуникативного акта. Текст представляет собой основную единицу коммуникации, а единицы нижележащих уровней языковой системы принимают участие в коммуникации лишь опосредованно. Текст рассматривается нами как целостная система, обладающая интегральными свойствами и функционирующая во внешней по отношению к нему среде. В то же время лингвистика текста анализирует компоненты этой системы и их отношения, то есть структуру текста. Системность текста в настоящее время понимается многими языковедами как его ведущее свойство, позволяющее обнаружить многообразные внешние и внутренние связи этого сложного объекта исследования.

По-видимому, при определении текста, следует учитывать и его многомерность, и знаковый характер, и коммуникативную направленность, и системную организацию.

Под системой понимается объединение ее находящихся во взаимной связи компонентов для выполнения функции, недоступной каждому компоненту в отдельности. Это определение полностью соответствует нашему представлению о строении текста, коммуникативная функция которого не вызывает сомнений. Компоненты текста объединяются автором в целостное произведение для выполнения коммуникативной функции, которую каждый отдельно взятый элемент выполнить не способен.

текстуальность лингвистика мифология

2.Машинный способ анализа текста

2.1 Машинная обработка материала способом контент-анализа

Из всех возможностей контент-анализа, ЭВМ можно поручить задачи анализа текстов, когда в качестве единицы анализа выступает слово. Когда мы говорим, что речь идет о достаточно ограниченном наборе слов, мы имеем в виду ограниченность с точки зрения человеческого мышления. Память же компьютера оперирует списком, состоящим из тысяч слов. Когда мы проверяем орфографию напечатанного текста, происходит операция сличения вашего текста с набором слов, уже введенных в память компьютера. И человеку, выступающему тут в качестве “машиниста”, кажется, что число таких слов, введенных в память, беспредельно. Тем не менее оно “конечно”, и машинный анализ текста возможен, когда в память ЭВМ заложены эти тысячи слов.

И тогда машина при обработке текстов ничем иным не занимается, как подсчитывает число материалов, где встречаются те слова, которые интересуют исследователя.

Такие операции находят все большее применение и предложениями - провести такой анализ - уже пестрят рекламные странички профессиональных журналов. Дело тут за малым: предусмотреть, например, возможности синонимического ряда понятий. [14]

Более сложные случаи, когда речь идет о генерализации вывода, не обеспеченного симметричным рядом известных слов, пока неподвластны компьютеру, и на этот счет иллюзий пока питать не следует. Другое дело, что компьютер может выступать как машинописный лист фиксации результатов, к которым приходит кодировщик текста. Но и тут существует соображение контроля за этим выводом. Думается, что возможности предъявления такого анализа для контроля пока сдерживают применение компьютера в этом качестве.

Группа ученых Гарвардского университета в США (рук. Ф. Стоун) в 1961 г. начала разработку принципов подобной машинной обработки, проведя серию анализов самых различных текстов: газет, сочинений членов малых групп, программных речей, произнесенных кандидатами на президентский пост от демократической и республиканской партий США, личных документов (писем, дневников, автобиографий). В рамках этого исследования было разработано несколько программ со следующими общими требованиями: компьютер отыскивает в тексте лингвистические аналоги тем категориям, которые интересуют и оговорены исследователем; подсчитывает частоту употребления этих категорий и их сочетания; выводит результаты в таблицы распределений; группирует текст в зависимости от употребляющихся там категорий и т.д.

Эти операции компьютер осуществлял только после того, как в его память были заложены языковые знаки (слова, идиомы, фразы), которые в своих группировках могут быть выражены на понятийном языке социальной теории исследователя и каждая из которых представляет из себя определенную переменную величину в его гипотезах. Для этого исследователь составляет словарь своего исследования: понятийному слову в качестве его расшифровки даны “носители” его смысла в бытующем в реальности языке.

Построение такого словаря аналогично построению “тезауруса” -- языка определенной области человеческого знания, когда ключевым словам из этой области знаний соответствует синонимический ряд общеупотребительных слов. Таким образом, словарная статья в “тезаурусе” - это более крупный семантический блок, чем словарная статья обычного толкового словаря.

Обозреваемое нами комплексное исследование включает следующие самостоятельные анализы.

Исследователи Дж. Нейменвирс и Т. Брейер провели анализ статей, опубликованных в газетах The Times (Англия), Le Monde (Франция), Frankfurtur Allgemeine Zeitung (тогда еще Западная Германия), The New York Times (США), на предмет того, как, по их мнению, обстоит дело с политической интеграцией западных стран в связи с существованием экономических и военных союзов между ними.

Процесс межгосударственной интеграции понимался как изменение следующих четырех элементов: характер принятия решений, касающихся судеб различных стран; обмен между странами почтой, студентами; торговля, иммиграция; мнения масс и элиты по поводу перспектив на этот счет. Показателями изменений в ориентации анализируемых престижных газет были выбраны внимание к национальным и региональным символам и степень тождественности в ориентации газет всех четырех стран.

Даниэл М. Огилви построил специальный словарь для проверки гипотезы о существовании так называемого “комплекса Икара”, психологического явления, которое отмечалось по наблюдениям психологов за рядом своих пациентов. Огилви решил подвергнуть испытанию эту гипотезу, проанализировав текстовые материалы, созданные в рамках разных культур. В качестве такого материала были выбраны сказки - 626 сказок из 44 примитивных сообществ. Контент-анализ этих сказок был предварен созданием так называемого “Икарианского словаря”, охватывающего 74 категории и 2500 слов, их наполняющих. Для разработки системы категорий использовались разные источники: работы исследователей, описывающих комплекс Икара, истории жизни людей, явно обладавших этим комплексом, тексту наблюдений за ними психотерапевтов и т.д. [13, 41]

Поскольку изначально комплекс Икара определялся как направленность на “полет, падение, огонь, воду, бессмертие и нарциссизм”,, гипотезу о существовании комплекса на уровне анализируемых сказок можно было, по мнению автора, считать доказанной, если эти темы окажутся “связанными” в конкретных единицах фольклора, или на определенном этапе окажется возможным по одним темам предсказать появление в анализируемом тексте смежных тем. Итог анализа состоял в расчете корреляций между 74 категориями и факторном анализе конечной матрицы.

С самых первых попыток использования электронно-счетных устройств для работы с текстом становились ясными преимущества и недостатки обработки текстового материала с помощью машин - они обеспечивали адекватность анализа огромных текстовых материалов, но требовали огромных усилий по составлению программы - собственно “словника”, с учетом всех синонимических вариантов понятий, которые надо будет отыскивать в этом море пропускаемых через машину слов. Не случайно, что многие из тех анализов, которые были проделаны в Гарвардском университете, использовали категориальный аппарат ранее проделанных исследований и “обкатывали” его на компьютерах.

Для начала же авторы системы “Дженерал Инкуайерер” создали отперфорированные тексты с общим количеством слов, равным 6 миллионам. Из этих слов была произведена выборка в 511 тыс. слов. Тексты, попавшие в выборку, были просеяны через процедуру поиска ключевого слова. В результате осуществления этой процедуры исследователи получили распечатку всех случаев употребления интересующих их слов в выбранной совокупности текстов. На реализацию процедуры ушло шесть часов машинного времени, а полученная распечатка была толщиной в несколько десятков сантиметров. Одним из самых неожиданных результатов процедуры было то, что для определения смысла ключевого слова оказалось вполне достаточно нескольких слов, расположенных по обе стороны ключевого слова. То есть для ряда задач не нужно было иметь значения всего предложения целиком, включая анализ его синтаксической структуры. Но оставались еще местоимения, идиомы и т.д. [10, 75]

Хотя первые словники создавались исследователями под конкретные задачи и главным тут была идентификация ключевых слов, сами авторы отлично понимали перспективы развития компьютерного дела - их размышления о том, что наборная клавиатура, связанная с компьютером, будет обычной принадлежностью школьного класса и делового офиса учителя, бухгалтера, психотерапевта, библиотекаря (ясно видно, что эти размышления относились к дореволюционной эпохе - до революции, когда был изобретен персональный компьютер), звучат сегодня как предвидение. Но для того чтобы выполнять все эти ожидаемые операции, нужно было, чтобы компьютер мог различать не только слова, но и смысл более пространных языковых единиц. Для этого нужно было решение проблемы синтаксического анализа. К сегодняшнему дню частично такие проблемы решены, коль скоро мы доверяем своему компьютеру - при наличии в нем специфических программ - проверку ошибок набранного текста.

Отметим существенный момент в разработке методологии анализа текста с помощью машины (что помимо всего прочего означало движение в направлении общения человек-машина): как только исследователи вышли на изучение диалога, они осознали, что эта проблема выводит их за пределы узкоспециальных “ведомственных” словарей...

С тех пор машинный метод обработки текстовых массивов все больше находит себе применение. При чем мы имеем в данном случае не те чисто прикладные случаи, когда машина помогает отыскать нужную вам научную литературу по ключевым словам, которые такая литература имеет заранее в виде своеобразной паспортички (или патент изобретения, если вы хотите проверить, не изобрел ли кто уже предлагаемый вами велосипед); или практику, по которой работает Международный междисциплинарный Индекс публикаций (Citation Index) - индекс представляет из себя распечатку статей из 7000 журналов, издаваемых во всем мире, по лицам, упоминаемым там. Каждое упоминание лица классифицируется по источнику: является ли оно автором статьи, упоминается ли в ходе дискуссии, появляется ли его имя в рецензии, в библиографии и т.д. Более детальный вариант этого индекса по социальной проблематике содержит роспись всех статей по ключевым словам.

Уже через десять лет после этого пионерского проекта Ф. Стоуна и его коллег практически повсеместно стали осуществляться проекты контент-аналитических исследований с применением ЭВМ. На состоявшемся в 1974 г. в Италии рабочем совещании по проблемам контент-анализа было представлено несколько таких проектов, в частности проект международного исследования газетных заголовков с задачами определения внимания различных газет к местным, общенациональным и международным событиям, сравнения внимания американских и европейских газет к проблемам “общего рынка”, сравнения освещения гражданской войны в Нигерии газетами разных стран и др. Германия была представлена на этой конференции проектом по созданию специализированного словаря для целей анализа содержания текстов. [10, 79]

Как ни странным это покажется на первый взгляд, именно пример с машинной обработкой текстов иллюстрирует очень важную для понимания сущности контент-анализа мысль. И в другом месте учебника эта мысль не прозвучала бы так явственно. Анализ содержания как метод не обладает магическими качествами - вы не получите из него больше, чем вложили в него. Если нечто значительное, важное, необычное не предусмотрено процедурой, то оно не появится в результате анализа, каким бы сложным и кропотливым он ни был.

Говоря о машинной обработке текстов, мы должны уточнить, что сейчас обсуждали случаи, когда компьютер оперирует непосредственно текстом.

2.2 Инструменты Text Mining

Технология глубинного анализа текста Text Mining способна выступить в роли "репетитора", который, проштудировав весь курс, преподает лишь наиболее ключевую и значимую информацию. Таким образом, пользователю незачем "просеивать" огромное количество неструктурированной информации. Разработанные на основе статистического и лингвистического анализа, а также искусственного интеллекта технологии Text Mining как раз и предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя построенные на их основе системы, пользователи смогут получить новую ценную информацию - знания.

Классическая схема обработки текстов подразумевает несколько последовательных этапов: на первом происходит нормализация слов с учетом морфологии языка; на втором - семантический анализ текста, когда уточняется конкретный смысл слова в зависимости от контекста. Затем строится семантический образ исходного документа, на основе которого делаются интеллектуальные запросы на анализ текстов.

Важный компонент технологии Text Mining связан с извлечением из текста его характерных элементов или свойств, которые могут использоваться в качестве метаданных документа, ключевых слов, аннотаций. Другая важная задача состоит в отнесении документа к некоторым категориям из заданной схемы их систематизации.

Следует заметить, что технологии глубинного анализа текста исторически предшествовала технология добычи данных (Data Mining), методология и подходы которой широко используются и в методах Text Mining. Для добычи текстов вполне справедливо определение, данное для добычи данных одним из ведущих мировых экспертов Г. Пятецким-Шапиро из GTE Labs. Он отмечал, что Text Mining - процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Text Mining - алгоритмическое выявление прежде неизвестных связей и корреляций в уже имеющихся текстовых данных.

Аналитические системы для работы с текстами документов необходимы для комплексного анализа предметной области в больших информационных хранилищах (архивах) документов.

Результаты аналитической обработки документов мониторинга предметных областей используются в математическом прогнозировании и анализе рынков и социальной обстановки.

Аналитические системы обработки документов - пример процедуры извлечения знаний. Средства, позволяющие решать задачи извлечения знаний из огромного информационного потока (хранилища документов), - обязательный инструмент аналитика в системе управления знаниями.

Далее рассмотрим несколько сервисов и инструментов для работы с текстовой информацией.

uClassify - сервер для решения задач классификации - отнесения объекта к заведомо определенным группам или категориям. Работает в виде отдельного сервера (лицензия), или в виде веб-сервиса.

Первая задача, решаемая uClassify - определение языка. Вы можете передать как определенный фрагмент текста, так и url страницы. (Демо: http://www.uclassify.com/browse/uClassify/Text-Language)

Например, для текста "This is text to classify" система вернула English в качестве наиболее вероятного ответа:

<?xml version="1.0" encoding="UTF-8" ?>

<uclassify xmlns="http://api.uclassify.com/1/ResponseSchema" version="1.00">

<status success="true" statusCode="2000"/>

<readCalls>

<classify id="cls1">

<classification>

<class className="Arabic" p="7.5665e-016"/>

<class className="Bulgarian" p="1.09662e-015"/>

<class className="Catalan" p="1.13411e-010"/>

<class className="Croatian" p="1.66977e-012"/>

<class className="Czech" p="6.31433e-010"/>

<class className="Danish" p="4.1776e-010"/>

<class className="Dutch" p="7.49329e-012"/>

<class className="English" p="1"/>

<class className="Filipino" p="1.27982e-013"/>

<class className="Finnish" p="1.54378e-015"/>

<class className="French" p="1.55948e-013"/>

<class className="German" p="1.27572e-015"/>

<class className="Greek" p="9.55049e-016"/>

<class className="Hebrew" p="1.16744e-015"/>

<class className="Hungarian" p="3.42417e-010"/>

<class className="Indonesian" p="1.18495e-015"/>

<class className="Italian" p="8.85129e-016"/>

<class className="Korean" p="1.70364e-015"/>

<class className="Latvian" p="7.94177e-013"/>

<class className="Lithuanian" p="7.77366e-013"/>

<class className="Norwegian" p="3.06461e-010"/>

<class className="Polish" p="7.43345e-013"/>

<class className="Portuguese" p="1.13343e-015"/>

<class className="Romanian" p="2.8729e-011"/>

<class className="Russian" p="1.32864e-015"/>

<class className="Serbian" p="1.28433e-015"/>

<class className="Slovak" p="6.22549e-010"/>

<class className="Slovenian" p="1.09112e-012"/>

<class className="Spanish" p="4.84425e-016"/>

<class className="Swedish" p="8.2172e-011"/>

<class className="Turkish" p="5.31504e-014"/>

<class className="Ukrainian" p="1.25293e-015"/>

<class className="Vietnamese" p="3.06328e-014"/>

</classification>

</classify>

</readCalls>

</uclassify>

Следующая задача - автоматическая тематическая классификация текстов, т.е. определение, к какой области относится текст. (Демо: http://www.uclassify.com/browse/uClassify/Topics)

Пример работы:

Также есть возможность определения возраста человека, написавшего текст, а также его гендерную принадлежность. Принципы определения этой информации не выдаются разработчиками, однако стоит отметить, что данный софт вполне успешно справляется с поставленной задачей.

Еще одной интересной особенностью является определение психического состояния человека по написанному тексту:

Таким образом, из текста можно сделать вывод, что автор - девушка 13-17 лет, которая была очень счастлива, когда писала этот текст.

Кроме того, сервис позволяет создавать свои классификаторы, а также обучать их.

Java-программисты могут использовать uClassify Java-SDK, остальные - получать данные напрямую из сервиса через API:

using System;

using System.IO;

using System.Net;

namespace example

{

class Program

{

static void Main(string[] args)

{

try

{

// Create the request

string xmlRequest = "REPLACE THIS FOR THE XML REQUEST";

// Send the request

HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create("http://api.uclassify.com");

webRequest.Method = "Post";

webRequest.ContentType = "text/XML";

StreamWriter writer = new StreamWriter(webRequest.GetRequestStream());

writer.Write(xmlRequest);

writer.Close();

// Read the response

HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();

StreamReader reader = new StreamReader(webResponse.GetResponseStream());

string xmlResponse = reader.ReadToEnd();

reader.Close();

Console.WriteLine(xmlResponse);

}

catch (Exception e)

{

Console.WriteLine(e.Message);

}

}

}

}

В целом, можно сказать, что данный сервер весьма информативен может быть полезен, его можно использовать как для исследований, так и для live приложений.

Заключение

Как видно из всего сказанного выше, в современном языкознании нет достаточно четкого представления о понятии метода научного исследования, нет полной ясности в вопросе о разграничении исследовательских методов и других смежных явлений. В специальной литературе по лингвистической методологии понятие метода исследования как совокупности исследовательских приемов очень часто смешивается с понятием того или иного приема исследования. В учебной литературе по лингвистической методологии методами нередко называются такие действия исследователя, исследовательские процедуры, т.е. собственно приемы исследования, как, например, наблюдение, опрос, сравнение, обобщение, абстрагирование, анализ, синтез, дедукция, индукция, моделирование и подобные. С точки зрения системного подхода "каждая система всегда есть компонент другой, более высокого уровня системы, и сама, в свою очередь образована из компонентов, подсистем более низкого уровня".

При исследовании текста важно помнить о том, что информативный и системный подходы к тексту должны осуществляться без отрыва от функциональных свойств текста. "Семиотическая система выступает как несущая информацию, только когда она взята в своем функциональном аспекте, как набор элементов, строящихся в определенных взаимоотношениях, семантическая система никогда связной информации не несет".

При всем многообразии подходов к изучению текста, их объединяет одна общая идея: текст - это законченное речевое целое. Текст обладает определенной структурой, предполагающей наличие взаимообусловленных частей. Текст должен отвечать определенным критериям текстуальности. "Текст (письменный и устный) - есть первичная данность всего гуманитарно-философского мышления. Текст является той непосредственной действительностью, из которой только и могут исходить эти дисциплины и это мышление. Где нет текста, там нет и объекта для исследования и мышления". Эта мысль, высказанная М.М. Бахтиным, стала программной для области языкознания, которую сегодня называют лингвистика текста (термин В. Дресслера и В. Штемпеля), металингвистика (термин М.М. Бахтина), транслингвистика (термин Р. Барта), анализ речи (термин З. Харриса). Именно текст является основной единицей языка, определяется и как основной объект и как предмет исследования лингвистики текста.

Text Mining - алгоритмическое выявление прежде неизвестных связей и корреляций в уже имеющихся текстовых данных.

Технология глубинного анализа текста Text Mining способна выступить в роли "репетитора", который, проштудировав весь курс, преподает лишь наиболее ключевую и значимую информацию. Таким образом, пользователю незачем "просеивать" огромное количество неструктурированной информации. Разработанные на основе статистического и лингвистического анализа, а также искусственного интеллекта технологии Text Mining как раз и предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя построенные на их основе системы, пользователи смогут получить новую ценную информацию - знания

Список использованной литературы

1. Степанов Ю.С. Методы и принципы современной лингвистики. 2-е изд. М.: Эдиториал УРСС,2001.

2. Головин Б.Н. Введение в языкознание. 4-е изд. М.: Высшая школа, 1983.

3. Кодухов В.И. Общее языкознание. М.: Высшая школа, 1994.

4. Арнольд И.В. Основы научных исследований в лингвистике. М.: Высшая школа, 2001.

5. Общее языкознание. Методы лингвистических исследований. М.: Наука, 1973.

6. Большая советская энциклопедия. 3-е изд. / Гл. ред. А.М. Прохоров. М.: Советская энциклопедия, 1974. Т. 16.

7. Большой энциклопедический словарь / Гл.ред. А.М. Прохоров. М.: Советская энциклопедия,1991. Т. 1.

8. Малая советская энциклопедия. 3-е изд. / Гл.ред. Б.А. Введенский. М.: Большая советская энциклопедия, 1959. Т. 5.

9. Чернявская В.Е.Лингвистика текста: Поликодовость, интертекстуальность, интердискурсивность. М:Книжный дом «ЛИБРОКОМ», 2009.-248С.

10. Ахманова О.С. Словарь лингвистических терминов. М.: Советская энциклопедия, 1966.

11. Кодухов В.И. Методы лингвистического анализа: Лекции по курсу «Введение в языкознание».Л.: Ленинградский гос. пед. ин-т, 1983.

12. Распопов И.П. Методология и методика лингвистических исследований. Методы синхронного изучения языка: Пособие по спецкурсу. Воронеж: Изд-во Воронежского ун-та, 1996.

13. Каде Т.Х. Научные методы лингвистических исследований: Учебное пособие. Краснодар: Изд-во Кубанского гос. ун-та, 1998.

14. http://www.smart-edu.com/index.php/upravlenie-znaniyami/text-mining-v-sisteme-upravleniya-znaniyami.html

15. http://staff.science.uva.nl/~jvgemert/pub/textminingtools.pdf - Text Mining Tools on the Internet

Приложение

Definition

This entity type extracts references to products. The product type is extracted for the following product types: drug products, electronic products, car models, aircraft models, and weapons.

Attributes

Product: Name of the product.

ProductType: Currently the only extracted product types are:

· Drug

· Car

· Aircraft

· Electronics

· Weapon

Note: For product types other than these, ProductType=Other.

Examples

Example 1.

Drug developer Mylan Laboratories Inc. said Monday the Food and Drug Administration approved its generic version of Ortho McNeil Pharmaceuticals' epilepsy treatment Topamax.

Extracted instances:

Product = Topamax

ProductType = Drug

Example 2.

Dealers cannot keep fuel-efficient cars like the Ford Focus in stock, and automakers cannot roll them off the assembly line fast enough to keep up with demand.

Extracted instances:

Product = Ford Focus

ProductType = Car

Example 3.

The carrier currently operates a fleet of Boeing 747 on its long-haul international routes.

Extracted instances:

Product = Boeing 747

ProductType = Aircraft

Example 4.

The 9.1-megapixel EX-Z85 comes across as a pretty basic ultracompact camera.

Extracted instances:

Product = Casio Exilim™ EX-Z85 Digital Camera

ProductType = Electronics

Example 5.

Adobe's Photoshop family of products is the ultimate playground for bringing out the best in digital images.


Подобные документы

  • Современные подходы интерпретации анализа художественно-прозаического текста с учетом его специфики, базовых категорий и понятий. Рассмотрение художественного текста как единства содержания и формы. Практический анализ текста "A Wicked Woman" Дж. Лондона.

    курсовая работа [48,5 K], добавлен 16.02.2011

  • Цели контент-анализа, его относительная дешевизна, технологичность и использование для систематического мониторинга больших информационных потоков. Формальные элементы текста. Типы информационных массивов и единицы. Частотные и системные характеристики.

    курсовая работа [32,2 K], добавлен 20.01.2010

  • Понятие текста в концепциях лингвистов и психолингвистов, его основные характеристики, свойства и функции. Подходы к его описанию. Природа и процесс порождения текста. Механизмы и особенности его восприятия на примере анализа художественного произведения.

    курсовая работа [47,8 K], добавлен 15.01.2014

  • Теоретические основы изучения текста. Разграничение текста и дискурса. Понятие текста и подходы к его анализу. Употребление терминов texte и discours во французском языке. Сравнительно-сопоставительное исследование текста астрологического прогноза.

    дипломная работа [204,5 K], добавлен 03.07.2009

  • Текст как формально-логическое образование. Основные методы криптоанализа. Метод частотного анализа текста. Показатель частоты встречаемости буквы алфавита. Частотные характеристики биграмм. Определение ранжирования данных. Определение контент-анализа.

    реферат [280,3 K], добавлен 28.09.2011

  • Исследование композиционно-речевых форм в структуре англоязычных художественных текстов, проведение разбора повествования, описания и рассуждения. Представление о формально-грамматическом (синтаксическом), речевом и логико-смысловом строении текста.

    курсовая работа [55,4 K], добавлен 23.08.2015

  • Изучение вопросов об определении поэтической функции языка, понятие лингвистической поэтики. Сцены как вариативное начало в составе рамки содержательной конструкции текста. Понятие содержания текста. Цельный versus комплексный анализ интенции текста.

    реферат [38,4 K], добавлен 14.08.2010

  • Лингвостилистические особенности эпистолярного текста. Приемы реорганизации субъектной структуры текста письма при переводе с английского языка на русский. Анализ писем с точки зрения лингвистических и коммуникативно-прагматических особенностей.

    дипломная работа [97,5 K], добавлен 29.07.2017

  • Понятие "перевод". Основные типы переводческих ошибок. Характеристика концепций предпереводческого анализа, различные точки зрения на выполнение и технику перевода. Применение предпереводческого анализа текста на практике (в ходе анализа текстов).

    научная работа [172,9 K], добавлен 11.09.2012

  • Актуальное членение предложения как языковая универсалия, его связь со структурой и семантикой предложения; тема и рема. Функциональные, коммуникативные и верификативные типы высказываний на материале художественного текста произведений Ч. Айтматова.

    дипломная работа [515,6 K], добавлен 10.05.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.