Идентификация предметной области на основе нечетких правил изменения веса терминов

Точное определение предметной области текста на основе статистики с целью улучшения качества контекстного поиска путем выбора в качестве ключевых слов частотных терминов. Правильная идентификация предметной области для более точного перевода текста.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 38,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

11

Размещено на http://www.allbest.ru/

Ульяновский государственный технический университет

Идентификация предметной области на основе нечетких правил изменения веса терминов

Арзамасцева И.В.

1. Введение

Увеличение количества электронных документов и развитие индустрии систем обработки электронных текстов требует новых средств организации доступа к информации. Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по ключевым словам. Распространенные средства контекстного поиска по вхождению слов в документ не всегда обеспечивают адекватный выбор информации по запросу пользователя [1].

Точное определение предметной области текста на основе статистики улучшит качество контекстного поиска путем выбора в качестве ключевых слов частотных терминов данной предметной области. Кроме того, правильная идентификация предметной области поможет точнее перевести текст, используя нужный словарь.

Возрастание объемов информации в электронном виде требует создания специальных средств для ее хранения и обработки и способствует развитию специального класса программных комплексов - информационных хранилищ (репозиториев) [1]. Распознавание предметной области документа поможет правильно распределить тексты по классам таких информационных хранилищ.

предметная область контекстный поиск

2. Объект исследования

Объектом нашего исследования является терминологическая система нечеткой логики. На базе немецкоязычных текстов по нечеткой логике вручную были построены словари терминов, которые использует терминосистема НЛ. Получилось 6 словарей: терминов Нечеткой логики - Fuzzy (F), логики - Logik (L), математики - Mathematik (M), управляющих систем - Leitungstechnik (LT), искусственного интеллекта - Kuenstliche Intelligenz (KI), компьютерной техники - Computer (C).

Материалом исследования послужили научные тексты, статьи, монографии, учебники по нечеткой логике на немецком языке (всего 112) общим объемом 363625 словоупотреблений. Все тексты были переведены в формат WORD для удобства обработки программой Fuzzy-Base. В результате обработки были получены частотные словари каждого текста и общий частотный словарь терминосистемы нечеткой логики.

На основе полученных частотных словарей мы сформировали таблицу абсолютных частот терминов в каждом тексте, общее количество слов и общее количество терминов, что явилось исходными данными для дальнейших вычислительных экспериментов (приводятся первые 10 текстов).

Таблица 1. Абсолютные частоты терминов в текстах

C

F

KI

LT

L

M

Терминов

Слов

1993-1

0

11

0

1

17

14

43

1775

1993-2

0

10

0

7

17

7

41

1802

1993-3

0

7

0

6

8

13

34

3202

1993-4

0

72

0

4

53

30

159

3656

1993-5

0

41

0

20

58

21

140

4291

1993-6

0

73

0

8

43

23

147

3621

1993-7

0

2

0

12

13

11

38

2318

1993-8

0

14

0

26

41

21

102

3578

1993-9

0

9

0

14

23

12

58

3175

1993-10

0

10

0

24

30

8

72

3135

На основе полученных количественных характеристик была построена исходная система данных для анализа в виде частотных характеристик результатов обработки текстов.

3. Идентификация предметной области нечеткой логики

Проанализируем один из текстов, который входит в корпус текстов по Нечеткой логике.

Обработав текст, программа выдает отчет по статистике (таблица 2).

Теперь необходимо расставить коэффициенты значимости словарей, поскольку вес терминов из словаря Fuzzy превышает веса терминов из словаря Lоgik. Т.е. если в тексте имеется даже небольшое количество терминов их словаря Fuzzy, то текст будет относиться к этой проблемной области.

Таблица 2. Отчет по статистике

№ п/п

Раздел

Терминов

Всего слов

1

Fuzzy

11

2

LT

1

3

Logik

17

4

Mathematik

14

Итого:

43

1775

Процентное соотношение встреченных терминов из разных подсловарей по отношению к общему количеству слов в исследуемом тексте высчитывается по следующей формуле:

,,,

где P - процентное соотношение терминов из различных подсловарей между собой по отношению к общему количеству слов в обработанном тексте; К - изменяемый вручную коэффициент веса терминов; Х - количество терминов определенного подсловаря; S - общее количество (сумма) слов, обнаруженных в тексте.

Посчитать веса терминов можно по следующей формуле:

, (1)

где V - процентное соотношение терминов из различных подсловарей между собой в тексте; P - процентное соотношение терминов из различных подсловарей между собой по отношению к общему количеству слов в обработанном тексте;

Изменив вручную коэффициент веса терминов НЛ, можно изменить идентификацию предметной области (таблица 3):

(2)

Определить принадлежность текста к определенной предметной области на основе наибольшего значения терминов из определенного словаря можно по следующей формуле: , где SL - определенный подсловарь [2].

Таким образом, изменяя коэффициент веса терминов, можно получить нужный результат и правильно идентифицировать предметную область. По данной схеме мы просчитали все 112 текстов.

Таблица 3. Определение предметной области

Словарь

Терм-в

Слов

коэф

без коэф

%

с коэф

%

1

Fuzzy

11

170

0.62

25.5

1.05

37.2

2

LT

1

100

0.06

2.5

0.06

2.1

3

Logik

17

100

0.96

39.5

0.96

34

4

Mathem

14

95

0.79

32.5

0.75

26.6

Итого:

43

1775

2.43

100

2.82

99.9

МАХ

39.5

37.2

Вывод:

Logik

Fuzzy

4. Подсчет веса терминов

На первом этапе мы обработали тексты при помощи программы Fuzzy-Base и получили абсолютные частоты терминов в каждом тексте, общее количество слов и общее количество терминов.

Затем в программе Excel был высчитан вес терминов из каждого подсловаря и общий вес терминов в каждом тексте.

Таблица 4. Вес терминов

Текст

C

F

KI

LT

L

M

ИТОГО

1993-1

0

0.62

0

0.06

0.96

0.79

2.43

1993-2

0

0.55

0

0.39

0.94

0.39

2.27

1993-3

0

0.22

0

0.19

0.25

0.41

1.07

1993-4

0

1.97

0

0.11

1.45

0.82

4.35

1993-5

0

0.96

0

0.47

1.35

0.49

3.27

1993-6

0

2.02

0

0.22

1.19

0.64

4.07

1993-7

0

0.09

0

0.52

0.56

0.47

1.64

1993-8

0

0.39

0

0.73

1.15

0.59

2.86

1993-9

0

0.28

0

0.44

0.72

0.38

1.82

1993-10

0

0.32

0

0.77

0.96

0.26

2.31

Затем было подсчитано процентное отношение терминов между собой.

По формуле программа определяет терминов какого подсловаря в процентном отношении в тексте больше всего и относит текст к данной предметной области.

Таблица 5. Процентное соотношение терминов

Текст

C

F

KI

LT

L

M

ИТОГО

1993-1

0

25.51

0

2.469

39.506

32.51

100

1993-2

0

24.23

0

17.181

41.41

17.18

100

1993-3

0

20.56

0

17.757

23.364

38.32

100

1993-4

0

45.29

0

2.529

33.333

18.85

100

1993-5

0

29.36

0

14.373

41.284

14.99

100

1993-6

0

49.63

0

5.405

29.238

15.73

100

1993-7

0

5.488

0

31.707

34.146

28.66

100

1993-8

0

13.64

0

25.524

40.21

20.63

100

1993-9

0

15.39

0

24.176

39.56

20.88

100

1993-10

0

13.85

0

33.333

41.558

11.26

100

Таблица 6. Определение предметной области по количеству терминов

Текст

Наибольший %

ПО

1993-1

39.51

L

1993-2

41.41

L

1993-3

38.32

M

1993-4

45.29

F

1993-5

41.28

L

1993-6

49.63

F

1993-7

34.15

L

1993-8

40.21

L

1993-9

39.56

L

1993-10

41.56

L

Как мы видим, несмотря на то, что методом экспертных оценок все тексты были отнесены к предметной НЛ, программа определяет предметную область неправильно, т.к. термины из подсловарей Logik, Mathematik, и LT иногда употребляются чаще, чем термины из подсловаря Fuzzy. Это означает, что нам надо повысить вес терминов из подсловаря НЛ.

5. Изменение коэффициентов веса терминов

Изменив коэффициенты следующим образом C=2, F=70, KI=10, LT=10, L=12, M=10, получаем следующий результат:

Таблица 7. Вес терминов из различных подсловарей с коэффициентами

Текст

C

F

KI

LT

L

M

ИТОГО

1993-1

0

0.43

0

0.01

0.12

0.08

0.64

1993-2

0

0.39

0

0.04

0.11

0.04

0.58

1993-3

0

0.15

0

0.02

0.03

0.04

0.24

1993-4

0

1.38

0

0.01

0.17

0.08

1.64

1993-5

0

0.67

0

0.05

0.16

0.05

0.93

1993-6

0

1.41

0

0.02

0.14

0.06

1.63

1993-7

0

0.06

0

0.05

0.07

0.05

0.23

1993-8

0

0.27

0

0.07

0.14

0.06

0.54

1993-9

0

0.2

0

0.04

0.09

0.04

0.37

1993-10

0

0.22

0

0.08

0.12

0.03

0.45

Теперь высчитываем процентное соотношение терминов с измененными вручную весами терминов из различных подсловарей.

Таблица 8. Процентное соотношение терминов с измененными весами

Текст

C

F

KI

LT

L

M

ИТОГО

1993-1

0

67.19

0

1.563

18.75

12.5

100

1993-2

0

67.24

0

6.897

18.97

6.897

100

1993-3

0

62.5

0

8.333

12.5

16.67

100

1993-4

0

84.15

0

0.61

10.37

4.878

100

1993-5

0

72.04

0

5.376

17.2

5.376

100

1993-6

0

86.5

0

1.227

8.589

3.681

100

1993-7

0

26.09

0

21.74

30.44

21.74

100

1993-8

0

50

0

12.96

25.93

11.11

100

1993-9

0

54.05

0

10.81

24.32

10.81

100

1993-10

0

48.89

0

17.78

26.67

6.667

100

Теперь получаем следующий результат:

Таблица 9. Определение предметной области с изменением весов терминов

Текст

Решение 1

Решение 2

1993-1

39.51

L

67.19

F

1993-2

41.41

L

67.24

F

1993-3

38.32

M

62.50

F

1993-4

45.29

F

84.15

F

1993-5

41.28

L

72.04

F

1993-6

49.63

F

86.50

F

1993-7

34.15

L

30.44

L

1993-8

40.21

L

50.00

F

1993-9

39.56

L

54.05

F

1993-10

41.56

L

48.89

F

Теперь, как мы видим, программа определила предметную область более точно, но все же в шести случаях программа отнесла текст к предметной области Логика и один раз к предметной области Управляющие системы. Это означает, что в этих текстах терминов данных подсловарей существенно больше.

6. Выявление текстов, не относящихся к предметной области НЛ

Попробуем разобраться, почему это происходит, посмотрев на абсолютные частоты.

Таблица 10. Тексты, идентифицированные неправильно

Текст

C

F

KI

LT

L

M

Терминов

Слов

1996-35

0

1

0

0

18

9

28

2413

1996-44

0

30

0

0

455

37

522

4345

1999-63

0

10

0

1

111

41

163

6516

2004-96

0

3

0

56

24

15

98

1391

В тексте 1996-35 мало терминов относительно общего количества слов, термины подсловаря Логика преобладают, причем в тексте встречается всего один термин подсловаря НЛ. Посмотрев на текст, мы выяснили, что он является описанием проекта менеджмента экологических систем для низинных болот. Это глава дипломной работы "Habitateignungsmodelle fьr Conocephalus dorsalis", описывающая постановку задачи. Т.е. текст, который поисковый сервер отнес к разделу нечеткой логики из-за того, что термин "Fuzzy Logik" стоит в подзаголовке, на самом деле не относится к данной предметной области, а лишь использует некоторые положения нечеткой логики для исследования.

Текст 1996-44 является главой из книги "Fuzzy-Logik und Fuzzy-Control" (авторы Georg Jaanineh и Markus Maijohann), т.е. этот текст принадлежит к предметной области НЛ. Но данная глава, называющаяся "Klassische Mengen und klassische Logik" описывает классические множества и классическую логику. Т.е. наша программа, на основе имеющейся статистики (где 455 терминов относятся к подсловарю Логики и только 30 - к НЛ) совершенно верно идентифицировала предметную область.

Текст 2004-96 является главой из книги Юргена Зауэра "Neuronale Netze und Fuzzy Control-Systeme", которая описывает классические системы управления. Т.е. наша программа также совершенно точно определила предметную область.

Остальные тексты были обработаны программой до того как в словарь были внесены все термины, поэтому текст был идентифицирован неправильно. На втором этапе, после расширения словаря тексты были определены правильно.

7. Идентификация предметных областей логики и математики

Чтобы узнать, можно ли по нашей схеме определить принадлежность текста к другим предметным областям, мы взяли 10 текстов предметной области Логика и 10 текстов предметной области Математика. Мы выбрали данные предметные области потому, что в словаре терминосистемы НЛ имеются подсловари Логики и Математики. Конечно же эти словари являются неполными для точного определения данных предметных областей, поскольку они были необходимы нам для построения терминосистемы НЛ и мы использовали только те термины, которые встречались в текстах по НЛ.

Сначала подсчитаем абсолютные частоты терминов из разных подсловарей в данных текстах.

Таблица 11. Абсолютные частоты терминов

Текст

C

F

KI

LT

L

M

Терм-в

Слов

01. Logik

0

4

0

0

36

9

49

1597

02. Logik

0

0

0

0

26

8

34

2527

03. Logik

0

4

0

1

15

6

26

1006

04. Logik

0

29

0

3

48

6

86

1688

05. Logik

0

1

0

0

32

10

43

1105

06. Logik

0

2

0

0

134

7

143

3197

07. Logik

0

5

1

0

49

43

98

2082

08. Logik

0

9

0

1

59

9

78

1613

09. Logik

0

1

0

0

33

2

36

983

10. Logik

0

4

0

0

143

11

158

1755

01. Mathe

0

3

0

0

34

75

112

1635

02. Mathe

0

0

0

0

72

103

175

2974

03. Mathe

0

4

0

0

17

32

53

1667

04. Mathe

0

1

0

0

19

15

35

2222

05. Mathe

0

0

0

0

0

10

10

1312

06. Mathe

0

1

0

0

9

5

15

1152

07. Mathe

0

1

0

0

6

20

27

1499

08. Mathe

0

4

0

0

18

16

38

8499

09. Mathe

0

1

2

0

35

22

60

3800

10. Mathe

0

0

0

0

74

121

195

6544

Затем высчитаем вес терминов разных подсловарей.

Таблица 12. Вес терминов

Текст

C

F

KI

LT

L

M

ИТОГО

01. Logik

0

0.25

0

0

2.25

0.56

3.06

02. Logik

0

0

0

0

1.03

0.32

1.35

03. Logik

0

0.4

0

0.1

1.49

0.6

2.59

04. Logik

0

1.72

0

0.18

2.84

0.36

5.1

05. Logik

0

0.09

0

0

2.9

0.9

3.89

06. Logik

0

0.06

0

0

4.19

0.22

4.47

07. Logik

0

0.24

0.05

0

2.35

2.07

4.71

08. Logik

0

0.56

0

0.06

3.66

0.56

4.84

09. Logik

0

0.1

0

0

3.36

0.2

3.66

10. Logik

0

0.23

0

0

8.15

0.63

9.01

01. Mathe

0

0.18

0

0

2.08

4.59

6.85

02. Mathe

0

0

0

0

2.42

3.46

5.88

03. Mathe

0

0.24

0

0

1.02

1.92

3.18

04. Mathe

0

0.05

0

0

0.86

0.68

1.59

05. Mathe

0

0

0

0

0

0.76

0.76

06. Mathe

0

0.09

0

0

0.78

0.43

1.3

07. Mathe

0

0.07

0

0

0.4

1.33

1.8

08. Mathe

0

0.05

0

0

0.21

0.19

0.45

09. Mathe

0

0.03

0.05

0

0.92

0.58

1.58

10. Mathe

0

0

0

0

1.13

1.85

2.98

Теперь можно подсчитать процентное соотношение терминов из разных подсловарей между собой.

Таблица 13. Процентное соотношение терминов между собой

Текст

C

F

KI

LT

L

M

Итого

01. Logik

0

8.17

0

0

73.529

18.301

100

02. Logik

0

0

0

0

76.296

23.704

100

03. Logik

0

15.444

0

3.861

57.529

23.166

100

04. Logik

0

33.725

0

3.529

55.686

7.059

100

05. Logik

0

2.314

0

0

74.55

23.136

100

06. Logik

0

1.342

0

0

93.736

4.922

100

07. Logik

0

5.096

1.062

0

49.894

43.949

100

08. Logik

0

11.57

0

1.24

75.62

11.57

100

09. Logik

0

2.732

0

0

91.803

5.464

100

10. Logik

0

2.553

0

0

90.455

6.992

100

01. Mathe

0

2.628

0

0

30.365

67.007

100

02. Mathe

0

0

0

0

41.156

58.844

100

03. Mathe

0

7.547

0

0

32.075

60.377

100

04. Mathe

0

3.145

0

0

54.088

42.767

100

05. Mathe

0

0

0

0

0

100

100

06. Mathe

0

6.923

0

0

60

33.077

100

07. Mathe

0

3.889

0

0

22.222

73.889

100

08. Mathe

0

11.111

0

0

46.667

42.222

100

09. Mathe

0

1.899

3.165

0

58.228

36.709

100

10. Mathe

0

0

0

0

37.919

62.081

100

Теперь определяем категорию текста по наибольшему количеству терминов.

Таблица 14. Идентификация предметной области

Текст

Max %

ПО

01. Logik

73.53

L

02. Logik

76.30

L

03. Logik

57.53

L

04. Logik

55.69

L

05. Logik

74.55

L

06. Logik

93.74

L

07. Logik

49.89

L

08. Logik

75.62

L

09. Logik

91.80

L

10. Logik

90.46

L

01. Mathe

67.01

M

02. Mathe

58.84

M

03. Mathe

60.38

M

04. Mathe

54.09

L

05. Mathe

100.00

M

06. Mathe

60.00

L

07. Mathe

73.89

M

08. Mathe

46.67

L

09. Mathe

58.23

L

10. Mathe

62.08

M

Как мы видим, все логические тексты программа определила совершенно правильно, но четыре раза ошиблась с математическими текстами. Это произошло, во-первых, потому, что словарь Математики у нас существенно меньше словаря Логики, поскольку предметом исследования является терминосистема нечеткой логики. Кроме того, некоторые термины, которые мы в подъязыке НЛ отнесли в словарь Логики, в подъязыке математики будут являться общенаучными терминами.

Литература

1. Батыршин И.З., Недосекин А.О., Стецко А.А., Тарасов В.Б., Язенин А.В., Ярушкина Н.Г. Нечеткие гибридные системы. Теория и практика/ Под редакцией Н.Г. Ярушкиной. - М.: Физматлит, 2007.

2. Арзамасцева И.В. Интеллектуальная система идентификации проблемной области текста на базе нечетких правил / Вопросы современной науки и практики. Серия "Технические науки". - Тамбов: Изд-во ТГТУ. - 2008. - С.81-84.

Размещено на Allbest.ru


Подобные документы

  • Понятие и разновидности, подходы к формированию инфологических моделей. Модель информационной системы Захмана, направления ее развития и анализ результатов. Компоненты инфологического уровня описания предметной области. Сбор требований пользователей.

    презентация [136,3 K], добавлен 19.08.2013

  • Неформализованное описание предметной области. Словарь терминов для объектов и элементов данных. Первичные и альтернативные ключи. Диаграмма сущность-связь для предметной области. Неизбыточное редуцированное покрытие системы функциональных зависимостей.

    курсовая работа [398,8 K], добавлен 22.03.2015

  • Описание предметной области "Магазин по продаже компьютерных комплектующих". Построение ER и реляционной модели данных, сущности и связи. Создание ER и реляционной модели данных, запросов, представлений, хранимых процедур для предметной области.

    курсовая работа [32,2 K], добавлен 15.06.2014

  • Анализ предметной области. Обеспечение качества проектной документации. Построение инфологической (концептуальной) модели предметной области. Проектирование физической структуры базы данных. Разработка интерфейса, организация ввода и поиска данных.

    курсовая работа [2,5 M], добавлен 10.01.2016

  • Рассмотрение особенностей структурного разбиения предметной области. Характеристика функциональной и информационной модели бизнес-процессов предметной области. Построение IDEF0- и IDEF1Х-модели заданной предметной области с помощью пакета Design/IDEF.

    контрольная работа [486,5 K], добавлен 08.06.2019

  • Системный анализ и краткая характеристика предметной области. Функции для работы с буферизованной таблицей. Описание предметной области и инфологическое моделирование. Модель "сущность-связь". Проектирование баз данных на основе принципов нормализации.

    курсовая работа [112,9 K], добавлен 27.02.2009

  • Типология свойств объекта, его связей и моделей представления информации. Изображение предметной области в виде логических и физических моделей. Требования к системам баз данных. Достоинства трехуровневой архитектуры. Процесс идентификации объектов.

    лекция [60,0 K], добавлен 19.08.2013

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

  • Описание инфологической и концептуальной модели. Определение типов сущностей и их атрибутов. Поля базы данных, связи между таблицами. Программное обеспечение БД учебных дисциплин и его реализации на основе понятий и ключевых слов предметной области.

    дипломная работа [2,1 M], добавлен 26.05.2016

  • Разработка прототипа экспертной системы на языке программирования Prolog, позволяющий идентифицировать тип лекарства по заданным параметрам. Перечень идентифицируемых лекарств. Основные концепции и взаимосвязи между понятиями предметной области.

    курсовая работа [336,9 K], добавлен 21.02.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.