Интеллектуальная привязка некорректных ссылок к литературным источникам в библиографических базах данных с применением АСК-анализа и системы "Эйдос" (на примере российского индекса научного цитирования – РИНЦ)

Адекватная и технологичная оценка результативности, эффективности и качества научной деятельности конкретных ученых и научных коллективов страны. РИНЦ – национальная информационно-аналитическая система, аккумулирующая публикации российских ученых.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 25.05.2017
Размер файла 7,6 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Интеллектуальная привязка некорректных ссылок к литературным источникам в библиографических базах данных с применением АСК-анализа и системы "Эйдос" (на примере российского индекса научного цитирования - Ринц)

Луценко Евгений Вениаминович

Аннотации

Адекватная и технологичная оценка результативности, эффективности и качества научной деятельности конкретных ученых и научных коллективов является актуальной проблемой для информационного общества и общества, основанного на знаниях. Решение этой проблемы является предметом наукометрии и ее целью. Современный этап развития наукометрии существенно отличается от предыдущих появлением в открытом, а также платном on-line доступе огромного объема детализированных данных по большому числу показателей как об отдельных авторах, так и о научных организациях и вузах. В мире, это известные библиографические базы данных: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris или GeoRef. В России это прежде всего Российский индекс научного цитирования (РИНЦ). РИНЦ - это национальная информационно-аналитическая система, аккумулирующая более 9 миллионов публикаций российских ученых, а также информацию о цитировании этих публикаций из более 6000 российских журналов. Данных очень много, это так называемые "Большие данные" ("Big Data"). Основным первичным наукометрическим показателем, на основе которого строятся все остальные, такие, например, как индекс Хирша, является число цитирований работ автора, размещенных в библиографической базе данных. Это число цитирований определяется программным обеспечением РИНЦ путем так называемой "привязки", которая представляет собой грамматический разбор и поиск в базах данных работ автора, релевантных (соответствующих) ссылкам на них из источников литературы в работах различных авторов. Однако проблема состоит в том, что, как показывает опыт, авторы допускают очень большое количество некорректных и просто неполных ссылок в списках литературы, очень далеких от ГОСТ. В настоящее время программное обеспечение РИНЦ не может автоматически привязать эти некорректные ссылки и это требует вмешательства человека. Но централизованно, силами специалистов РИНЦ, это сделать не представляется возможным из-за огромного объема работ, а распределенная работа большого числа специалистов на местах все равно требует централизованной модерации. В результате работа по привязке ссылок к литературным источникам ведется очень медленно, и огромный объем ссылок оказывается непривязанными. Это ведет к занижению накометрических показателей как отдельных авторов, так и научных коллективов, что нельзя признать приемлемым. Решение этой проблемы предлагается путем применения автоматизированного системно-когнитивного анализа (АСК-анализ) и его программного инструментария - интеллектуальной системы "Эйдос". Приводится численный пример интеллектуальной привязки реальных некорректных ссылок к работам автора на основе небольшого объема реальных наукометрических данных, находящихся в открытом бесплатном on-line доступе в РИНЦ

Adequate and effective assessment of the efficiency, effectiveness and quality of scientific activities of specific scientists and research teams is crucial for the information society and society based on knowledge. The solution to this problem is the subject of scientometrics and its purpose. The current stage of development scientometrics differs greatly from its previous appearance in the open as well as paid on-line access to huge amount of detailed data on a large number of indicators on individual authors and on scientific organizations and universities. In the world, there are well-known bibliographic databases: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris, or GeoRef. In Russia, it is primarily the Russian scientific citing index (RSCI). RSCI is a national information-analytical system, accumulating more than 9 million publications of Russian scientists, as well as information about citation of these publications from more than 6,000 Russian journals. There is a lot of data, so-called "Big data". The main primary scientometric indicator (based on which we build all the rest, such as the h-index) is the number of citations of the author's works, placed in the bibliographic database. This number of citations is determined by the software of RSCI using so-called "binding" which is a grammatical analysis and search in databases for works of the author, for relevant links from references in the works of various authors. However, the problem is, as experience shows, that authors make a very large number of simply incorrect and incomplete references in the reference lists, very far from standard. Currently, the software that RSCI uses does not automatically bind these invalid references, and this requires human intervention. But, centrally, to do this is not possible by experts of RSCI because of the huge amount of work, and distributed work for a large number of specialists in the field still requires a centralized moderation. As a result, the work for binding references to the literary sources is very slow and a huge amount of links is unbound. This leads to an underestimation of nanomatrices indicators of both individual authors and research teams that cannot be considered acceptable. The solution to this problem is offered by applying the automated system-cognitive analysis (ASC-analysis) and its programmatic Toolkit - intellectual system called "Eidos". This work provides a numerical example of the intellectual anchor of the real incorrect references to the works of the author on the basis of a small amount of real scientific data that are publicly available free on-line access to the RSCI

Ключевые слова: интеллектуальная привязка, некорректные ссылки, литературные источники, библиографические базы данных, аск-анализ, система "эйдос", российский индекс научного цитирования ринц

Keywords: intelligent binding, incorrect links, literature, bibliographic data base, asc-analysis, "eidos", russian science citation index rsci

Введение

"Индекс Хирша - это такой наукометрический показатель, который отражает степень понимания автором того, что такое индекс Хирша" /проф. Е.В. Луценко/

Адекватная и технологичная оценка результативности, эффективности и качества научной деятельности конкретных ученых и научных коллективов является актуальной проблемой для информационного общества и общества, основанного на знаниях. Решение этой проблемы является предметом наукометрии и ее целью. научный информационный аналитический

Современный этап развития наукометрии существенно отличается от предыдущих появлением в открытом, а также платном on-line доступе огромного объема детализированных данных по большому числу показателей как об отдельных авторах, так и о научных организациях и вузах. В мире, это известные библиографические базы данных: Web of Science, Scopus, Astrophysics Data System, PubMed, MathSciNet, zbMATH, Chemical Abstracts, Springer, Agris или GeoRef.

В России это, прежде всего Российский индекс научного цитирования (РИНЦ). РИНЦ - это национальная информационно-аналитическая система, аккумулирующая более 9 миллионов публикаций российских ученых, а также информацию о цитировании этих публикаций из более 6000 российских журналов. Данных очень много, это так называемые "Большие данные" ("Big Data").

Основным первичным наукометрическим показателем, на основе которого строятся все остальные, такие, например, как индекс Хирша, является число цитирований работ автора, размещенных в библиографической базе данных. Это число цитирований определяется программным обеспечением РИНЦ путем так называемой "привязки", которая представляет собой грамматический разбор и поиск в базах данных работ автора, релевантных (соответствующих) ссылкам на них из источников литературы в работах различных авторов.

Однако проблема состоит в том, что, как показывает опыт, авторы допускают очень большое количество некорректных и просто неполных ссылок в списках литературы, очень далеких от ГОСТ.

В настоящее время программное обеспечение РИНЦ не может автоматически привязать эти некорректные ссылки и это требует вмешательства человека.

Но централизованно, силами специалистов РИНЦ, это сделать не представляется возможным из-за огромного объема работ, а распределенная работа большого числа специалистов на местах все равно требует централизованной модерации. В результате работа по привязке ссылок к литературным источникам ведется очень медленно, и огромный объем ссылок оказывается непривязанными. Это ведет к занижению накометрических показателей как отдельных авторов, так и научных коллективов, что нельзя признать приемлемым.

Решение этой проблемы предлагается путем применения автоматизированного системно-когнитивного анализа (АСК-анализ) и его программного инструментария - интеллектуальной системы "Эйдос". Приводится численный пример интеллектуальной привязки реальных некорректных ссылок к работам автора на основе небольшого объема реальных наукометрических данных, находящихся в открытом бесплатном on-line доступе в РИНЦ.

Методика (кратко об АСК-анализе)

Что такое АСК-анализ

Системный анализ представляет собой современный метод научного познания, общепризнанный метод решения проблем [5, 6, 7]. Однако возможности практического применения системного анализа ограничиваются отсутствием программного инструментария, обеспечивающего его автоматизацию. Существуют разнородные программные системы, автоматизирующие отельные этапы или функции системного анализа в различных конкретных предметных областях.

Автоматизированный системно-когнитивный анализ (АСК-анализ) представляет собой системный анализ, структурированный по базовым когнитивным операциям (БКО), благодаря чему удалось разработать для него математическую модель, методику численных расчетов (структуры данных и алгоритмы их обработки), а также реализующую их программную систему - систему "Эйдос" [1-3, 7]. Система "Эйдос" разработана в постановке, не зависящей от предметной области, и имеет ряд программных интерфейсов с внешними данными различных типов [3]. АСК-анализ может быть применен как инструмент, многократно усиливающий возможности естественного интеллекта во всех областях, где используется естественный интеллект. АСК-анализ был успешно применен для решения задач идентификации, прогнозирования, принятия решений и исследования моделируемого объекта путем исследования его модели во многих предметных областях, в частности в экономике, технике, социологии, педагогике, психологии, медицине, экологии, ампелографии, геофизике, энтомологии, криминалистике и др. [8, 9].

Истоки АСК-анализа

Известно, что системный анализ является одним из общепризнанных в науке методов решения проблем и многими учеными рассматривается вообще как метод научного познания. Однако, как впервые заметил еще в 1984 году проф. И.П. Стабин, на практике применение системного анализа наталкивается на проблему [10]. Суть этой проблемы в том, что обычно системный анализ успешно применяется в сравнительно простых случаях, в которых в принципе можно обойтись и без него, тогда как в действительно сложных ситуациях, когда он действительно чрезвычайно востребован и у него нет альтернатив, сделать это удается гораздо реже. Проф. И.П. Стабин предложил и путь решения этой проблемы, который он видел в автоматизации системного анализа [10].

Однако путь от идеи до создания программной системы долог и сложен, т.к. включает ряд этапов:

- выбор теоретического математического метода;

- разработка методики численных расчетов, включающей структуры данных в оперативной памяти и внешних баз данных (даталогическую и инфологическую модели) и алгоритмы обработки этих данных;

- разработка программной системы, реализующей эти математические методы и методики численных расчетов.

Методика АСК-анализа

Предпосылки решения проблемы

Перегудов Ф.И. и Тарасенко Ф.П. в своих основополагающих работах 1989 и 1997 годов [5, 6] подробно рассмотрели математические методы, которые в принципе могли бы быть применены для автоматизации отдельных этапов системного анализа. Однако даже самые лучшие математические методы не могут быть применены на практике без реализующих их программных систем, а путь от математического метода к программной системе долог и сложен. Для этого необходимо разработать численные методы или методики численных расчетов (алгоритмы и структуры данных), реализующие математический метод, а затем разработать программную реализацию системы, основанной на этом численном методе.

В числе первых попыток реальной автоматизации системного анализа следует отметить докторскую диссертацию проф. Симанкова В.С. (2001) [11]. Эта попытка была основана на высокой детализации этапов системного анализа и подборе уже существующих программных систем, автоматизирующих эти этапы. Идея была в том, что чем выше детализация системного анализа, чем мельче этапы, тем проще их автоматизировать. Эта попытка была реализована, однако, лишь для специального случая исследования в области возобновляемой энергетики, т.к. системы оказались различных разработчиков, созданные с помощью различного инструментария и не имеющие программных интерфейсов друг с другом, т.е. не образующие единой автоматизированной системы. Эта попытка, безусловно, явилась большим шагом по пути, предложенному проф. И.П. Стабиным, но и ее нельзя признать обеспечившей достижение поставленной цели, сформулированной Стабиным И.П. (т.е. создание автоматизированного системного анализа), т.к. она не привела к созданию единой универсальной программной системы, автоматизирующий системный анализ, которую можно было бы применять в различных предметных областях.

Необходимо отметить работы Дж. Клира по системологии и автоматизации решения системных задач, которые внесли большой вклад в автоматизацию системного анализа путем создания и применения универсального решателя системных задач (УРСЗ), реализованного в рамках оригинальной экспертной системы [12, 13]. Однако в экспертной системе применяется продукционная модель знаний, для получения которых от эксперта необходимо участие инженера по знаниям (когнитолога). Этим обусловлены следующие недостатки экспертных систем:

- они генерируют знания каждый раз, когда они необходимы для решения задач, и это может занимать значительно большее время, чем при использовании декларативной формы представления знаний;

- продукционные модели обычно построены на бинарной логике (if then else), что вызывает возможность логического конфликта продукций в процесс логического вывода, что приводит к необратимому останову логического процесса;

- эксперты - люди чаще всего заслуженные и их время и знания стоят очень дорого; поэтому привлечение экспертов для извлечения готовых знаний на длительное время проблематично и обычно эксперт просто физически не может сообщить очень большой объем знаний, а иногда и не хочет этого делать и сообщает неадекватные знания;

- чаще всего эксперты формулируют свои знания неформализуемым путем на основе своей интуиции, опыта и профессиональной компетенции, т.е. не могут сформулировать свои знания в количественной форме, а пользуются для их формализации порядковыми или даже номинальными шкалами, поэтому экспертные знания являются не очень точными и для их формализации необходим инженер по знаниям (когнитолог).

АСК-анализ как решение проблемы

Автоматизированный системно-когнитивный анализ разработан профессором Е.В. Луценко и предложен в 2002 году [1], хотя разработан он был значительно раньше, причем с программным инструментарием: системой "Эйдос" [1, 3, 7]. Основная идея, позволившая сделать это, состоит в рассмотрении системного анализа как метода познания (отсюда и "когнитивный" от "cognitio" - знание, познание, лат.). Эта идея позволила структурировать системный анализ не по этапам, как пытались сделать ранее, а по базовым когнитивным операциям системного анализа (БКОСА), т.е. таким операциям, к комбинациям которых сводятся остальные. Эти операции образуют минимальную систему, достаточную для описания системного анализа, как метода познания, т.е. конфигуратор. Понятие конфигуратора предложено В.А. Лефевром [14]. В 2002 году Е.В. Луценко был предложен когнитивный конфигуратор [1], включающий 10 базовых когнитивных операций.

Когнитивный конфигуратор:

1) присвоение имен;

2) восприятие (описание конкретных объектов в форме онтологий, т.е. их признаками и принадлежностью к обобщающим категориям - классам);

3) обобщение (синтез, индукция);

4) абстрагирование;

5) оценка адекватности модели;

6) сравнение, идентификация и прогнозирование;

7) дедукция и абдукция;

8) классификация и генерация конструктов;

9) содержательное сравнение;

10) планирование и поддержка принятия управленческих решений.

Каждая из этих операций оказалась достаточно элементарна для формализации и программной реализации.

Компоненты АСК-анализа:

- формализуемая когнитивная концепция и следующий из нее когнитивный конфигуратор;

- теоретические основы, методология, технология и методика АСК-анализа;

- математическая модель АСК-анализа, основанная на системном обобщении теории информации;

- методика численных расчетов, в универсальной форме реализующая математическую модель АСК-анализа, включающая иерархическую структуру данных и 24 детальных алгоритма 10 БКОСА;

- специальное инструментальное программное обеспечение, реализующее математическую модель и численный метод АСК-анализа - Универсальная когнитивная аналитическая система "Эйдос" [3].

Этапы АСК-анализа:

1) когнитивно-целевая структуризация предметной области;

2) формализация предметной области (конструирование классификационных и описательных шкал и градаций и подготовка обучающей выборки);

3) синтез системы моделей предметной области (в настоящее время система "Эйдос" поддерживает 3 статистические модели и 7 системно-когнитивных моделей (моделей знаний);

4) верификация (оценка достоверности) системы моделей предметной области;

5) повышение качества системы моделей;

6) решение задач идентификации, прогнозирования и поддержки принятия решений;

7) исследование моделируемого объекта путем исследования его моделей является корректным, если модель верно отражает моделируемый объект и включает: кластерно-конструктивный анализ классов и факторов; содержательное сравнение классов и факторов; изучение системы детерминации состояний моделируемого объекта; нелокальные нейроны и интерпретируемые нейронные сети прямого счета; классические когнитивные модели (когнитивные карты); интегральные когнитивные модели (интегральные когнитивные карты), прямые обратные SWOT-диаграммы; когнитивные функции и т.д.

Математические аспекты АСК-анализа

Математическая модель АСК-анализ основана на теории информации, точнее на системной теории информации (СТИ), предложенной Е.В. Луценко [1, 2, 3] Математическая модель АСК-анализа описана в ряде работ: http://elibrary.ru/author_items.asp?authorid=123162. Это значит, что в АСК-анализе все факторы рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенное состояние, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации [8, 9].

Это напоминает подход Дугласа Хаббарда [15], но, в отличие от него, имеет открытый универсальный программный инструментарий (систему "Эйдос"), разработанный в постановке, не зависящей от предметной области [1-3]. К тому же на систему "Эйдос" уже в 1994 году было три патента РФ [3, 16 См., например: http://lc.kubagro.ru/aidos/index.htm ], а первые акты ее внедрения датируются 1987 годом [1, 3] http://lc.kubagro.ru/aidos/aidos02/PR-4.htm , тогда как основная работа Дугласа Хаббарда [15] появилась лишь в 2009 году. Это означает, что идеи АСК-анализа не только появились, но и были доведены до программной реализации в универсальной форме и применены в различных предметных областях на 22 с лишним года раньше появления работ Дугласа Хаббарда.

Поэтому АСК-анализ обеспечивает корректную сопоставимую обработку числовых и нечисловых данных, представленных в разных типах измерительных шкал и разных единицах измерения [8, 9]. Метод АСК-анализа является устойчивым непараметрическим методом, обеспечивающим создание моделей больших размерностей при неполных и зашумленных исходных данных о сложном нелинейном динамичном объекте управления. Этот метод является чуть ли не единственным на данный момент, обеспечивающим многопараметрическую типизацию и системную идентификацию методов, инструментарий которого (интеллектуальная система "Эйдос") находится в полном открытом бесплатном доступе [3, 16] http://lc.kubagro.ru/aidos/_Aidos-X.htm на сайте разработчика по адресу: http://lc.kubagro.ru/aidos/_Aidos-X.htm.

На рисунке 1 приведена карта мира с отображением мест и времени запуска системы "Эйдос" за период с 9 декабря 2016 года по 10 января 2017 года Актуальную на текущий момент карту можно вызвать по ссылке: http://j90540lw.beget.tech/map4.php.

Из этой карты мира видно, что в настоящее время, к сожалению, система "Эйдос" больше востребована в Европе и США, чем в России.

Рисунок 1. Карта мира с отображением мест и времени запуска системы "Эйдос" за период с 9 декабря 2016 года по 25 января 2017 года

Некоторые результаты применения АСК-анализа в различных предметных областях

Метод системно-когнитивного анализа и его программный инструментарий интеллектуальная система "Эйдос" были успешно применены при проведении 6 докторских и 7 кандидатских диссертационных работ в ряде различных предметных областей по экономическим, техническим, психологическим и медицинским наукам.

АСК-анализ был успешно применены при выполнении десятков грантов РФФИ и РГНФ различной направленности за длительный период - с 2002 года по настоящее время (2016 год).

По проблематике АСК-анализа издана 22 монография, получено 29 патентов на системы искусственного интеллекта, их подсистемы, режимы и приложения, опубликовано более 200 статей в изданиях, входящих в Перечень ВАК РФ (по данным РИНЦ). В одном только Научном журнале КубГАУ (входит в Перечень ВАК РФ с 26-го марта 2010 года) автором АСК-анализа проф. Е.В. Луценко опубликовано 200 статей, общим объёмом 350,683 у.п.л., в среднем 1,753 у.п.л. на одну статью.

По этим публикациям, грантам и диссертационным работам видно, что АСК-анализ уже был успешно применен в следующих предметных областях и научных направлениях: экономика (региональная, отраслевая, предприятий, прогнозирование фондовых рынков), социология, эконометрика, биометрия, педагогика (создание педагогических измерительных инструментов и их применение), психология (личности, экстремальных ситуаций, профессиональных и учебных достижений, разработка и применение профессиограмм), сельское хозяйство (прогнозирование результатов применения агротехнологий, принятие решений по выбору рациональных агротехнологий и микрозон выращивания), экология, ампелография, геофизика (глобальное и локальное прогнозирование землетрясений, параметров магнитного поля Земли, движения полюсов Земли), климатология (прогнозирование Эль-Ниньо и Ла-Нинья), возобновляемая энергетика, мелиорация и управление мелиоративными системами, криминалистика, энтомология и ряд других областей.

АСК-анализ вызывает большой интерес во всем мире. Сайт автора АСК-анализа [16] посетило около 500 тыс. посетителей с уникальными IP-адресами со всего мира. Еще около 500 тыс. посетителей открывали статьи по АСК-анализу в Научном журнале КубГАУ.

Необходимо отметить, что в развитии различных теоретических основ и практических аспектов АСК-анализа приняли участие многие ученые: д.э.н., к.т.н., проф. Луценко Е.В., Засл. деятель науки РФ, д.т.н., проф. Лойко В.И., к.ф.-м.н., Ph.D., проф., Трунев А.П. (Канада), д.э.н., д.т.н., к.ф.-м.н., проф. Орлов А.И., к.т.н., доц. Коржаков В.Е., д.э.н., проф. Барановская Т.П., д.э.н., к.т.н., проф. Ермоленко В.В., к.пс.н. Наприев И.Л., к.пс.н., доц. Некрасов С.Д., к.т.н., доц. Лаптев В.Н., к.пс.н, доц. Третьяк В.Г., к.пс.н., Щукин Т.Н., д.т.н., проф. Симанков В.С., д.э.н., проф. Ткачев А.Н., д.т.н., проф. Сафронова Т.И., д.э.н., доц. Горпинченко К.Н., к.э.н., доц. Макаревич О.А., к.э.н., доц. Макаревич Л.О., к.м.н. Сергеева Е.В. (Фомина Е.В.), Бандык Д.К. (Белоруссия), Чередниченко Н.А., к.ф.-м.н. Артемов А.А., д.э.н., проф. Крохмаль В.В., д.т.н., проф. Рябцев В.Г., к.т.н., доц. Марченко А.Ю., д.т.н., проф. Фролов В.Ю., д.ю.н, проф. Швец С.В., Засл. деятель науки Кубани, д.б.н., проф. Трошин Л.П., Засл. изобр. РФ, д.т.н., проф. Серга Г.В., Сергеев А.С., д.б.н., проф. Стрельников В.В. и другие.

Предлагаемая идея применения АСК-анализа для решения поставленной в работе проблемы

Казалось бы что здесь сложного?

Ссылка на работу должна совпадать с библиографическим описанием самой работы и нет никакой проблемы найти ее в базе данных по точному совпадению тестов ссылки и описания работы. Точно также делается в любой информационно-поисковой системе (ИПС): отчет формируется из записей базы данных, в которых все значения полей точно совпадают со значениями, заданными в запросе.

Но дело в том, что обычно (как правило) текст ссылки отличается от текста библиографического описания работы и точное их совпадение наблюдается крайне редко. Поэтому подход, реализуемый в ИПС с точным поиском в данном случае практически неприменим.

Но есть ИПС с поиском по неполному запросу. В таких ИПС для каждой записи базы данных определяется степень ее соответствия с запросу. Эта степень соответствия считается равной числу полей запроса и записи, значения которых совпали. Для таких ИПС необходим предварительный грамматический разбор как описания самой работы, так и ссылки на нее. При этом разборе определяются значения полей библиографических описаний работы (источника) и ссылки на нее. После этого происходит сравнение значений этих полей. Конечно, в этом случае и сам грамматический разбор является проблемой. При ошибке в разборе поиск работы ведется уже не там, например, при определении сборника статей конференции как журнала поиск ведется уже в журналах и не дает результата. Но главное не в этом, а в том, что вес или роль всех полей библиографического описания считается одинаковым, тогда как в действительности он разный. Так, например, год издания и Ф.И. О. автора значительно важнее какого-нибудь слова в названии.

Есть ИПС с нечетким поиском по нечеткому запросу. В таких ИПС, как и в ИПС по неполному запросу, когда значения некоторых полей могут отсутствовать, для каждого поля определяется его вес и уже после этого для всех записей базы данных определяется степень их соответствия запросу уже не просто по числу совпавших полей, но уже по суммарному весу совпавших полей. В таких ИПС возникает проблема адекватного определения веса полей при идентификации записей. Обычно этот вес определяется экспертным путем, т.е. "на основе опыта, интуиции и профессиональной компетенции" Если их не хватает, то фактически "от фонаря", а в систему вводится вручную. Конечно, при реальных объемах данных РИНЦ как определение этих весов, так и их ввод в систему вручную совершенно невозможен из-за огромных объемов данных. Получается, что необходимо и это автоматизировать.

Автоматизированные системы, которые обеспечивают автоматическое определение весов признаков и нечеткую идентификацию с их использованием называются системами распознавания образов. Такие системы могут рассматриваться как дальнейшее обобщение ИПС с неполным и нечетким запросом.

Универсальная когнитивная аналитическая система "Эйдос" [3] является такой системой. Более того, система "Эйдос" обеспечивает широкие возможности применения интеллектуальных технологий для обработки нечисловых данных, в частности текстов и у авторов имеется большой опыт решения задач в этой области [17-24].

Предлагается решение поставленной в работе проблемы путем преобразования данных в информацию, а ее в знания (рисунки 2 и 3) [25, 26] Основные публикации автора по вопросам выявления, представления и использования знаний: http://www.twirpx.com/file/793311/.

Рисунок 2. О соотношении содержания понятий: "Данные", "Информация" и "Знания"

Рисунок 3. Этапы преобразования данных в информацию, а ее в знания

Данные - это информация, записанная на каком-либо носителе или находящаяся в каналах связи и представленная на каком-то языке или в системе кодирования и рассматриваемая безотносительно к ее смысловому содержанию.

Исходные данные об объекте управления обычно представлены в форме баз данных, чаще всего временных рядов, т.е. данных, привязанных ко времени. В соответствии с методологией и технологией автоматизированного системно-когнитивного анализа (АСК-анализ), развиваемой проф. Е.В. Луценко, для управления и принятия решений использовать непосредственно исходные данные не представляется возможным. Точнее сделать это можно, но результат управления при таком подходе оказывается мало чем отличающимся от случайного. Для реального же решения задачи управления необходимо предварительно преобразовать данные в информацию, а ее в знания о том, какие воздействия на корпорацию к каким ее изменениям обычно, как показывает опыт, приводят.

Информация есть осмысленные данные.

Смысл данных, в соответствии с концепцией смысла Шенка-Абельсона, состоит в том, что известны причинно-следственные зависимости между событиями, которые описываются этими данными. Таким образом, данные преобразуются в информацию в результате операции, которая называется "Анализ данных", которая состоит из двух этапов:

1. Выявление событий в данных (разработка классификационных и описательных шкал и градаций и преобразование с их использованием исходных данных в обучающую выборку, т.е. в базу событий - эвентологическую базу).

2. Выявление причинно-следственных зависимостей между событиями.

В случае систем управления событиями в данных являются совпадения определенных значений входных факторов и выходных параметров объекта управления, т.е. по сути, случаи перехода объекта управления в определенные будущие состояния под действием определенных сочетаний значений управляющих факторов. Качественные значения входных факторов и выходных параметров естественно формализовать в форме лингвистических переменных. Если же входные факторы и выходные параметры являются числовыми, то их значения измеряются с некоторой погрешностью и фактически представляют собой интервальные числовые значения, которые также могут быть представлены или формализованы в форме лингвистических переменных (типа: "малые", "средние", "большие" значения экономических показателей).

Какие же математические меры могут быть использованы для количественного измерения силы и направления причинно-следственных зависимостей?

Наиболее очевидным ответом на этот вопрос, который обычно первым всем приходит на ум, является: "Корреляция". Однако, в статистике это хорошо известно, что это совершенно не так. Для преобразования исходных данных в информацию необходимо не только выявить события в этих данных, но и найти причинно-следственные связи между этими событиями. В АСК-анализе предлагается 7 количественных мер причинно-следственных связей, основной из которых является семантическая мера целесообразности информации по А. Харкевичу.

Знания - это информация, полезная для достижения целей.

Значит для преобразования информации в знания необходимо:

1. Поставить цель (классифицировать будущие состояния моделируемого объекта на целевые и нежелательные).

2. Оценить полезность информации для достижения этой цели (знак и силу влияния).

Второй пункт, по сути, выполнен при преобразовании данных в информацию. Поэтому остается выполнить только первый пункт, т.к. классифицировать будущие состояния объекта управления как желательные (целевые) и нежелательные.

Знания могут быть представлены в различных формах, характеризующихся различной степенью формализации:

- вообще неформализованные знания, т.е. знания в своей собственной форме, ноу-хау (мышление без вербализации есть медитация);

- знания, формализованные в естественном вербальном языке;

- знания, формализованные в виде различных методик, схем, алгоритмов, планов, таблиц и отношений между ними (базы данных);

- знания в форме технологий, организационных, производственных, социально-экономических и политических структур;

- знания, формализованные в виде математических моделей и методов представления знаний в автоматизированных интеллектуальных системах (логическая, фреймовая, сетевая, продукционная, нейросетевая, нечеткая и другие).

Таким образом, для решения сформулированной проблемы необходимо осознанно и целенаправленно последовательно повышать степень формализации исходных данных до уровня, который позволяет ввести исходные данные в интеллектуальную систему, а затем:

- преобразовать исходные данные в информацию;

- преобразовать информацию в знания;

- использовать знания для решения задач управления, принятия решений и исследования предметной области.

Результаты (численный пример на реальных данных)

Рассмотрим численный пример, основанный на реальных данных РИНЦ и иллюстрирующий применение АСК-анализа и системы "Эйдос" для решения поставленной в работе проблемы.

При этом выполним описанные выше этапы АСК-анализа и этапы преобразования данных в информацию, а ее в знания.

Исходные данные

Исходные данные для численного примера взяты с сайта РИНЦ: http://elibrary.ru/ по автору: "Елепов Б.С."

Эти данные состоят из двух файлов:

- Обучающая выборка.doc (6 страниц, 111 источников);

- Тестовая выборка.doc (27 страниц, 588 ссылок на источники).

Ниже приведены фрагменты этих файлов.

Фрагмент файла обучающей выборки (работы автора)

РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР

ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И. Вестник Российской академии естественных наук. Западно-Сибирское отделение. 2016. № 18. С. 198-205.

ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ: НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2015. № 8. С. 7-14.

ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин Ю.И. Теория и практика общественно-научной информации. 2014. № 22. С. 21-32.

ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА: ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2014. № 7. С. 14-22.

ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого развития. 2013. Т. 21. № 4. С. 463-473.

БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2013. № 4. С. 7-18.

Фрагмент файла тестовой выборки (ссылки на работы автора)

Алексеев A.G, Елепов Б.С., Котов В.Е., Метляев Ю.В. о программе работ по созданию сети информационно-вычислительных систем (центров) в Сибирском отделении АН СССР. -Новосибирск, 1987. -27 с. -(Препр./ВЦ Сиб. отд-ния АН СССР; N 734).

Алексеев А.С., Елепов Б.С., Бобров JI.K. Развитие инфраструктуры информации Сибирского отделения РАН//Информационные ресурсы. Интеграция. Технология: 3-я междунар. конф. ?НТИ-97?, Москва, 26 -28 нояб. 1997 г.: Материалы конф. М., 1997. -С. 15-16.

Алексеев А.С., Елепов Б.С., Бобров Л.К. Развитие инфраструктуры информации Сибирского отделения РАН//Информационные ресурсы. Интеграция. Технология./Междунар. конф. НТИ-97. М., 26 -28 ноября 1997 г. -М., 1997. -С. 15 -16.

Алексеев А.С., Елепов Б.С., Котов В.Е., Метляев Ю.В. О программе работ по созданию сети информационно-вычислительных систем (Центров) в Сибирском отделении АН СССР. - Новосибирск, 1987. - 27 с. - (Препринт / РАН. Сиб. отд-ние. ВЦ; 743).

Алексеев А.С., Елепов Б.С., Котов В.Е., Метляев Ю.В. О программе работ по созданию сети информационно-вычислительных систем (центров) в Сибирском отделении АН СССР. -Новосибирск, 1987, -27 с. -(Препр./ВЦ Сиб. отд-ния АН СССР; N 734)

Древнерусские книжные памятники в Сибири: цифровое решение проблемы сохранности и доступности/В.Н. Алексеев //Библиосфера. -2007. -№ 1. -С. 9 -15.

Алексеев В.Н., Дергачева-Скоп Е.И., Елепов Б.С., Шабанов А.В. Древнерусские книжные памятники в Сибири: цифровое решение проблемы сохранности и доступности//Библиосфера. 2007. № 1. С. 9-14.

Алексеев, В.Н. Древнерусские книжные памятники в Сибири: Цифровое решение проблемы сохранности и доступности / В.Н. Алексеев, Е.И. Дергачева-Скоп, Б.С. Елепов, А.В. Шабанов // Библиосфера. - № 1. - 2007

Аристов Ю.И., Глазнев И.С., Алексеев В.Н., Гордеева Л.Г., Сальникова И.В., Шилова И.А., Кундо Л.П., Елепов Б.С., // Библиосфера. 2009. Т. 5. № 1. С. 26.

Открытое письмо/Арский Ю.М., Елепов Б.С., Зайцев В.Н. и др.//Поиск. -1999.-№43 (545). С. 3.

Полностью оба эти файла (как и ряд других) приведены по ссылке: http://ej.kubagro.ru/2017/01/upload/01.zip.

Когнитивно-целевая структуризация предметной области

На этом этапе АСК-анализа мы должны решить, что мы хотим определять и на основе чего.

В данном случае мы хотим, по словам, входящим в библиографические описания ссылок на литературные источники определять сами эти источники (идентифицировать их), и, таким образом, привязывать ссылки к источникам.

В системе "Эйдос" реализована возможность лемматизации, но мы не будем ей пользоваться, т.к. она хотя и сокращает размерности моделей и ускоряет обработку, но приводит к некоторой потере информации и понижению достоверности идентификации.

Формализация предметной области

Как видно из рисунка 3 этот этап АСК-анализа состоит в разработке справочников классификационных и описательных шкал и градаций и кодировании с их помощью исходных данных, в результате чего формируется база событий или обучающая выборка. По сути, этот этап представляет собой нормализацию исходных данных, т.е. их преобразование в такую форму, которую удобно обрабатывать на компьютере.

Для небольших задач это можно сделать и вручную. Но гораздо удобнее воспользоваться специально созданными для этого программными интерфейсами системы "Эйдос" с внешними базами данных. В системе "Эйдос" есть довольно много таких интерфейсов (рисунок 4):

Рисунок 4. Программные интерфейсы системы "Эйдос" с внешними данными различных типов

Для наших целей подходят интерфейсы 2.3.2.2 и особенно 2.3.2.1. Рассмотрим стандарты представления исходных, достоинства и ограничения этих интерфейсов.

Универсальный программный интерфейс импорта данных из табличных файлов (режим 2.3.2.2)

Этот программный интерфейс предназначен для ввода данных из табличных файлов MS Excel или dbf. В таблице 1 приведен фрагмент исходных данных, подготовленных для интерфейса 2.3.2.2:

Таблица 1 - Исходные данные в стандарте интерфейса 2.3.2.2 (фрагмент)

Объект

Классы

Признаки

1-РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР

1-РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР

РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР

2-ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И. Вестник Российской академии естественных наук. Западно-Сибирское отделение. 2016. № 18. С. 198-205.

2-ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И. Вестник Российской академии естественных наук. Западно-Сибирское отделение. 2016. № 18. С. 198-205.

ПРОБЛЕМЫ КОМПЛЕКТОВАНИЯ НАУЧНЫХ БИБЛИОТЕК: НОЖНИЦЫ РЕФОРМЫ НАУКИ Елепов Б.С., Гуськова А.Е., Босина Л.В., Подкорытова Н.И. Вестник Российской академии естественных наук. Западно-Сибирское отделение. 2016. № 18. С. 198-205.

3-ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ: НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2015. № 8. С. 7-14.

3-ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ: НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2015. № 8. С. 7-14.

ГОСУДАРСТВЕННАЯ ПУБЛИЧНАЯ НАУЧНО-ТЕХНИЧЕСКАЯ БИБЛИОТЕКА СИБИРСКОГО ОТДЕЛЕНИЯ РОССИЙСКОЙ АКАДЕМИИ НАУК В ЭЛЕКТРОННОЙ СРЕДЕ: НОВЫЕ НАПРАВЛЕНИЯ ДЕЯТЕЛЬНОСТИ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2015. № 8. С. 7-14.

4-ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин Ю.И. Теория и практика общественно-научной информации. 2014. № 22. С. 21-32.

4-ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин Ю.И. Теория и практика общественно-научной информации. 2014. № 22. С. 21-32.

ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ СИБИРСКОГО ОТДЕЛЕНИЯ РАН КАК ШАГ К ФОРМИРОВАНИЮ ЕДИНОГО НАУЧНО-ОБРАЗОВАТЕЛЬНОГО ИНФОРМАЦИОННОГО ПРОСТРАНСТВА Елепов Б.С., Жижимов О.Л., Федотов А.М., Шокин Ю.И. Теория и практика общественно-научной информации. 2014. № 22. С. 21-32.

5-ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА: ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2014. № 7. С. 14-22.

5-ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА: ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2014. № 7. С. 14-22.

ФОРМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И НАУЧНАЯ БИБЛИОТЕКА: ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКИЙ ПРОГНОЗ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2014. № 7. С. 14-22.

6-ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого развития. 2013. Т. 21. № 4. С. 463-473.

6-ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого развития. 2013. Т. 21. № 4. С. 463-473.

ИССЛЕДОВАНИЯ СИБИРСКОГО ОТДЕЛЕНИЯ РАН В ОБЛАСТИ НАНОНАУКИ И НАНОТЕХНОЛОГИИ: БИБЛИОМЕТРИЧЕСКИЙ АНАЛИЗ Бусыгина Т.В., Елепов Б.С., Зибарева И.В., Лаврик О.Л., Шабурова Н.Н. Химия в интересах устойчивого развития. 2013. Т. 21. № 4. С. 463-473.

7-БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2013. № 4. С. 7-18.

7-БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2013. № 4. С. 7-18.

БИБЛИОТЕКИ И МИРЪ Елепов Б.С., Лаврик О.Л. Труды ГПНТБ СО РАН. 2013. № 4. С. 7-18.

На рисунке 5 приведена экранная форма управления интерфейсом 2.3.2.2 с параметрами для ввода данных из таблицы:

Рисунок 5. Экранная форма управления интерфейсом 2.3.2.2 с параметрами для ввода данных из таблицы 1.

Данный режим формирует классификационные и описательные шкалы и градации и обучающую выборку на основе исходных данных, подобных представленным в таблице 1. Работоспособные модели были созданы.

Как классы рассматривалось библиографическое описание целиком, а как признаки этого описания - слова и числа, из которых оно состоит.

Однако авторы отказались от этого варианта, т.к., как оказалось, некоторые библиографические описания содержали более 255 символов, т.е. по длине были больше, чем максимальный размер поля базы данных, и, поэтому, были обрезаны до 255 символов. Поэтому данный вариант в данной статье не рассматривается. Отметим лишь, что в системе "Эйдос" есть встроенная лабораторная работа №3.02 (рисунки 6 и 7), которая как раз предназначена для изучения студентами этого подхода. Этому же посвящены работы автора [17-23] и ряд других.

Рисунок 6. Helps по встроенным лабораторным работам системы "Эйдос"

Рисунок 7. Help по встроенной лабораторной работе 3.02 системы "Эйдос"

Программный интерфейс импорта данныхи з текстовых файлов (режим 2.3.2.1)

По этой причине для формализации предметной области был выбран интерфейс 2.3.2.1, который фактически не имеет ограничения на размер текстовых файлов обучающей выборки (эти файлы должны быть не более 2 Гб).

Но для импорта исходных данных для обучающей выборки и распознаваемой выборки из текстовых файлов вида, приведенного в разделе 3.1, необходимо сначала разбить эти файлы на абзацы и каждый абзац записать в виде отдельного файла в папки:

- c:\Aidos-X\AID_DATA\Inp_data\ для обучающей выборки (источников);

- c:\Aidos-X\AID_DATA\Inp_rasp\ для распознаваемой выборки (тестовой выборки или выборки ссылок на источники).

Экранная форма служебного режима 2.3.2.9, предназначенного для этого разбиения, приведена на рисунке 8:

Рисунок 8. Экранная форма управления режимом 2.3.2.9.

Для работы этого режима необходимо с помощью MS Word преобразовать файл исходных данных в текстовый файл с кодировкой DOS-текст и поместить его в папку: c:\Aidos-X\AID_DATA\Inp_data\, а затем запустить режим 2.3.2.1.

В результате работы режима с файлом исходных данных, фрагмент которого приведен в разделе 3.1, а полностью он приведен по ссылке: http://ej.kubagro.ru/2017/01/upload/01.zip, получим 111 текстовых файлов в папке: c:\Aidos-X\AID_DATA\Inp_data\ (рисунок 10):

Рисунок 10. Текстовые файлы с библиографическими описаниями литературных источников обучающей выборки (работа автора), сформированные режимом 2.3.2.9

Ниже приведено содержимое файла: "000001 - Обучающая выборка.txt":

РАЗРАБОТКА МОДЕЛИ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОЙ ОСНОВЫ ИНФОРМАЦИОННО-БИБЛИОТЕЧНОЙ СИСТЕМЫ СО РАН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ КОММУНИКАЦИОННОЙ СРЕДЫ Редькина Н.С., Гуськов А.Е., Баженов С.Р., Скарук Г.А., Кулева О.В., Шевченко Л.Б., Паршиков Р.М. отчет о НИР


Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.