Бикластеризация объектно-признаковых данных на основе решеток замкнутых множеств

Метод биоинформатики для изучения данных генной экспрессии, опирающийся на свойства решеток замкнутых множеств. Реализация эффективного алгоритма поиска бикластеризации объектно-признаковых данных для бинарных данных. Исследование его сложности.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 146,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Бикластеризация объектно-признаковых данных на основе решеток замкнутых множеств

Введение

алгоритм бикластеризация множество

В настоящее время по сравнению с традиционным кластерным анализом методы бикластеризации завоевывают все большую популярность, особенно в рядах исследователей в области биоинформатики для изучения данных генной экспрессии Madeira et al., 2004. Это вызвано потребностью в сохранении объектно-признаковой структуры данных, например, для адекватного понимания в каких свойствах выражено сходство некоторой группы генов. Различные приложения этих методов востребованы в области анализа Интернет-данных, например, такие алгоритмы - основа некоторых рекомендательных Интернет-сервисов Ignatov et al., 2008.

В данной работе мы представляем метод бикластеризации, основанный на решетках формальных понятий. Благодаря средствам анализа формальных понятий (АФП) Ganter et al., 1999 для любых объектно-признаковых данных можно построить иерархическую структуру формальных понятий (бикластеров специального вида), позволяющую отобразить их таксономические свойства в удобном для аналитика виде. Основным недостатком решеток понятий является их громоздкость, например, для объектно-признаковой таблицы размером 10х10 число бикластеров в худшем случае равно 210. Одной из задач, на решение которой направлены усилия ученых, работающих в данном сообществе, является разработка методов по отбору наиболее полезных, релевантных понятий, сокращению размеров порождаемого множества понятий. Один из подходов заключается в ослаблении требований к формальным понятиям, в его рамках возможно не только сокращение числа порождаемых бикластеров, но успешное устранение влияния шума на результаты Besson et al., 2006. Нами предлагается метод бикластеризации, который использует только небольшую часть формальных понятий (объектные и признаковые), для порождения бикластеров особого вида. В качестве критерия отбора релевантных бикластеров применяется их плотность. В дополнение к описываемой в статье версии алгоритма предлагается ее параллельная реализация. Проводятся эксперименты на реальных данных, иллюстрирующие улучшение производительности благодаря оптимизации и распараллеливанию при различных порогах плотности.

Основные определения

Контекстом в АФП называют тройку = (G, M, I), где G -- множество объектов, M -- множество признаков, а отношение I G M говорит о том, какие объекты обладают теми или иными признаками.

Для произвольных A G и B M определены операторы Галуа:

A' = {m M | g A (g I m)};

B' = {g G | m B (g I m)}.

Оператор (.)'' (двукратное применение оператора (.)') является оператором замыкания: он идемпотентен (A'''' = A''), монотонен (A B влечет A'' B'') и экстенсивен (A A'').

Множество объектов A G, для которого A'' = A, называется замкнутым. Аналогично для замкнутых множеств признаков - подмножеств множества M.

Пара множеств (A, B), таких, что A G, B M, A' = B и B' = A, называется формальным понятием контекста .

Множества A и B замкнуты и называются объемом и содержанием формального понятия (A, B) соответственно.

Для множества объектов A множество их общих признаков A' служит описанием сходства объектов из множества A, а замкнутое множество A'' является кластером сходных объектов (с множеством общих признаков A').

Множество объектных понятий образовано парами объектов (g'', g') для всех g G, а множество признаковых понятий - (m', m'') для всех mM.

Термин бикластер предложен в работе Миркин, 1996 и означает множество объектов, сходство которых задано посредством общих значений признаков.

Другое определение бикластера предложено в работе Barkov et al., 2006. Алгоритм Bi-Max, описанный в этой работе строит максимальные по вложению бикластеры, определяемые следующим образом.

Дано m генов, n ситуаций и бинарная таблица e такая, что eij=1 (ген i активен в ситуации j) или eij=0 (ген i не активен в ситуации j) для всех i1,m и j1,n.

Пара (G, C)2{1,…,n}Ч2{1,…,m} называется максимальным по вложению бикластером тогда и только тогда, когда выполнено (1) для любых iG и jC: eij=1 и (2) не существует (G1,C1) 2{1,…,n}Ч2{1,…,m} таких, что (a) для любых i1G1 и j1C1: eij=1 и (b) GG1, СC1 и (G1, C1)(G, C).

Пусть H - множество генов, S - множество ситуаций, а EHЧS - бинарное отношение задаваемое таблицей e, |H|=m, |S|=n. Верно следующее утверждение

Утверждение 1. Для любой пары (G, C), GH, CS следующие два утверждения эквивалентны.

(G, C) максимальный по вложению бикластер таблицы e;

(G, C) формальное понятие контекста (H, S, E).

В следующем разделе мы дадим определение бикластера, основанное на АФП.

Вычислительная модель

Определение 1. Если (g,m)I, то (m',g') называется объектно-признаковым бикластером или оа-бикластером с плотностью с(m',g')=|I?(mg')|/(|m'||g'|).

Приведем основные свойства оа-бикластеров (рис. 1).

Утверждение 2.

1. 0?с?1.

2. оа-бикластер (m',g') является формальным понятием тогда и только тогда, когда с=1.

3. Если (m', g') - бикластер, то (g'', g')?(m', m'').

Рис. 1. оа-бикластер

Определение 2. Пусть (A,B)2GЧ2M будет бикластером и сmin неотрицательное действительное число такое, что 0?сmin?1, тогда (A, B) называется плотным, если он удовлетворяет ограничению с(A,B)?сmin.

Свойство монотонности (антимонотонности) некоторого ограничения часто используется в Data Mining, например, для поиска ассоциативных правил для улучшения эффективности алгоритма.

Отношение на множестве оа-бикластеров определяется по вложению соответствующих компонент: (A, B) (C, D)AC и BD.

Утверждение 3. Ограничение с(A,B)? сmin не является ни монотонным, ни антимонотонным в смысле отношения .

Однако ограничение сmin обладает другими полезными свойствами. Если сmin=0, то мы получаем множество всех оа-бикластеров контекста . Для сmin=0 каждое формальное понятие исходного контекста содержится в некотором его оа-бикластере, т.е. верно следующее утверждение.

Утверждение 4. Для любого (Ac, Bc)B(G, M, I) существует бикластер (Ab, Bb)B такой что (Ac, Bc)(Aa, Bb).

Утверждение 5. Для данного формального контекста = (G, M, I) и сmin=0 наибольшее число оа-бикластеров равно |I|, а все оа-бикластеры порождаются за время O(|I|(|G|+|M|)).

Утверждение 6. Для данного формального контекста = (G, M, I) и сmin>0 наибольшее число оа-бикластеров равно |I|, а все оа-бикластеры порождаются за время O(|I||G||M|).

Интересующее нас множество бикластеров является результатом работы Алгоритма 1 (табл. 1).

Табл. 1.

Вход: = (G, M, I) - формальный контекст, сmin - минимальное значение порога плотности.

Выход: B={(Ak,Bk)| 0?k?|B|} - множество бикластеров

1

2

3

4

5

6

7

8

9

10

11

O.size=|G|, A.size=|M|, B={}

For g in G:

Og=g'

For m in M:

Am=m'

For g in G:

For m in Og:

b=(Og, Am)

if(с(b)?сmin):

B.Add(b)

return B

Благодаря свойству антимонотонности оператора (.)' мы провели оптимизацию условия порождения бикластера в цикле 6-10 и избежали вычисления операции замыкания в циклах 2-3 и 4-5.

Результаты

Для экспериментальной оценки эффективности предложенного алгоритма бикластеризации была запрограммирована версия Алгоритма 1. В качестве языка реализации был выбран C# из среды разработки Microsoft Visual Studio 2008. Дополнительно была исследована возможность распараллеливания (масштабирования) алгоритма с помощью средств библиотеки Task Parallel Library, входящей в состав Microsoft .NET Framework 4.0.

Эксперименты были проведены на данных из UCI Machine Learning Repository и на массиве данных о покупке рекламных словосочетаний компании Yahoo. В таблице 2 приведено описание этих наборов данных, для каждого из них указано количество объектов, признаков, число пар принадлежащих отношению I, плотность контекста и количество его формальных понятий.

Табл. 2.

Название

|G|Ч|M|

|I|

Плотность

B(G, M, I)

advertising

2000Ч3000

9245

0,015

8950740

breast-cancer

286Ч43

2851

0,232

9918

flare

1389Ч49

18057

0,265

28742

postoperative

90Ч26

807

0,345

2378

SPECT

267Ч23

2042

0,333

21550

vote

435Ч18

3856

0,492

10644

zoo

101Ч28

862

0,305

379

Помимо производительности алгоритмов нас интересовала зависимость количества порождаемых оа-бикластеров от выбранного порога плотности сmin, результаты экспериментов приведены в таблице 3.

В 6 экспериментах из 7 мы наблюдаем заметно меньшее число бикластеров по сравнению с количеством формальных понятий. Для 7 эксперимента такой результат объясняется тем, что имеется большое количество объектов, содержания которых представимы в виде пересечения содержаний других объектов (операция редуцирования контекста по объектам оставляет только 59 объектов из 100).

Табл. 3.

Название

advertising

breast-cancer

post-operative

flare

SPECT

vote

zoo

B(G,M,I)

8950740

9918

2378

28742

21550

10644

379

сmin=0

92345

2851

807

18057

807

3856

862

сmin=0,1

89735

2851

807

18057

2042

3856

862

сmin=0,2

80893

2851

807

18057

2042

3856

862

сmin=0,3

65881

2849

807

18050

2042

3855

862

сmin=0,4

45665

2678

807

17988

2029

3829

853

сmin=0,5

25921

1908

725

17720

1753

3527

776

сmin=0,6

10066

310

402

16459

835

2575

521

сmin=0,7

2081

17

18

9353

262

1458

341

сmin=0,8

165

2

2

1450

85

382

225

сmin=0,9

3

2

2

293

32

33

63

сmin=1

0

2

2

3

12

1

7

Отношение числа порожденных понятий к количеству бикластеров показано в таблице 4.

Табл. 4.

Название

advertising

breast-cancer

flare

postoperative

SPECT

vote

zoo

Сокращение

96,9

3,5

1,6

2,9

10,6

2,8

0,4

Приведем результаты экспериментов по оценке временной эффективности алгоритмов на самом крупном из имеющихся массивов реальных данных - advertising (рис. 2).

Зависимость количества бикластеров от величины порога носит довольно плавный характер, хотя для некоторых данных UCI Machine Learning Repository это количество остается постоянным при уменьшении значения порога на 0,1, начиная с 1, для нескольких первых точек.

По рисунку 2 можно судить о том, что параллельная версия оптимизированного алгоритма работает быстрее последовательной реализации на 45%. Дополнительные эксперименты проведены на массивах данных из UCI Machine Learning Repository, результаты носят аналогичный характер.

Рис. 2. Сравнение производительности алгоритмов

Благодарности. Работа выполнена при финансовой поддержке РФФИ (проект № 08-07-92497-НЦНИЛ_а).

Выводы и дальнейшие исследования

Получена эффективная реализация алгоритма бикластеризации на основе решеток замкнутых множеств для случая бинарных объектно-признаковых данных. Для некоторых задач кластеризации возможно применение жадных стратегий, которые позволяют добиться решения близкого к оптимальному за меньшее число итераций. Для предложенного алгоритма это позволит избежать применения параметра сmin, возможны следующие жадные стратегии: покрытие (некоторой доли) отношения I или множества M (актуально для рекомендательных систем). Необходимо исследование шумоустойчивых свойств алгоритма.

В качестве направлений дальнейших исследований можно предложить разработку жадных версий разработанного алгоритма, например, по покрытию множества признаков M или отношения I, а также исследование их предсказательных свойств для рекомендательных систем и анализа данных генной экспрессии.

Список литературы

1.Barkov et al., 2006 Barkow, S., Bleuler, S., Prelic, A., Zimmermann, P., and E. Zitzler. BicAT: a biclustering analysis toolbox, Bioinformatics, 22(10), 2006.

2.Besson et al., 2004 Besson J., Robardet C., Boulicaut J-F. Constraint-based mining of formal concepts in transactional data. In: Proceedings of the 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining, 2004.

3.Besson et al., 2006 Besson, J., Robardet, C., Boulicaut, J.F.: Mining a New Fault-Tolerant Pattern Type as an Alternative to Formal Concept Discovery, In: Schдrfe, H., Hitzler, P., Ohhrstrom, P. (eds.) ICCS 2006. LNCS (LNAI), vol. 4068, Springer, 2006.

4.Ganter et al., 1999 Ganter B. and Wille R., Formal Concept Analysis: Mathematical Foundations, Springer, 1999.

5.Ignatov et al., 2008 Ignatov D.I., Kuznetsov S.O. Concept-based Recommendations for Internet Advertisement//In proceedings of The Sixth International Conference Concept Lattices and Their Applications (CLA'08), Olomouc, Czech Republic, 2008.

6.Madeira et al., 2004 Sara C. Madeira and Arlindo L. Oliveira, "Biclustering Algorithms for Biological Data Analysis: A Survey IEEE/ACM Transactions on Computational Biology and Bioinformatics, VOL 1, NO. 1, 2004.

7.Mirkin, 1996 Mirkin B.G. Mathematical Classification and Clustering. Kluwer Academic Publishers, 1996.

Размещено на Allbest.ru


Подобные документы

  • Проблема применения методов прогнозирования кадровой работы на основе использования компьютерных технологий. Концепция банка данных, сущность и функции. Отличие реляционных и объектно-ориентированных баз данных. Организация и технология обработки данных.

    реферат [1,0 M], добавлен 23.09.2014

  • Организация данных с помощью бинарных деревьев. Определение бинарного дерева. Упорядоченное двоичное дерево поиска и его свойства. Программная реализация добавления данных в упорядоченное двоичное дерево с использованием динамических структур данных.

    курсовая работа [459,0 K], добавлен 09.08.2012

  • Сущность и функциональные особенности баз данных, их классификация и типы, внутренняя структура и элементы. Модели данных, хранящихся в базах: иерархическая, сетевая, реляционная, многомерная, объектно-ориентированная. Виды запросов и типы таблиц.

    дипломная работа [66,7 K], добавлен 06.01.2014

  • Компоненты и классификация банков данных. Модели данных: иерархическая, сетевая, реляционная, постреляционная, многомерная, объектно-ориентированная. Настольные системы управления базами данных: VisualdBase, Рarаdох, Microsoft FoxРrо и Visual FoxРrо.

    курсовая работа [849,8 K], добавлен 25.04.2015

  • Объединение данных с функциями их обработки в сочетании со скрытием ненужной для использования этих данных информации. Описание классов, их свойства. Спецификаторы доступа private и public. Доступ к элементам объекта. Сущность константного метода.

    лабораторная работа [485,9 K], добавлен 22.10.2013

  • Реализация алгоритма верификации данных; разработка программы обнаружения аномальных данных в одномерных выборках. Характеристика методов D-статистики, Титьена-Мура, диаграммы "Ящик с усами"; обеспечение эффективности оценок статистических данных.

    курсовая работа [2,5 M], добавлен 27.05.2013

  • Разработка приложения для работы с базой данных, с использованием объектно-ориентированного и визуального программирования. Проектирование физической структуры базы данных. Программная реализация, процесс взаимодействия пользователя с приложениями.

    курсовая работа [1,5 M], добавлен 31.01.2016

  • Что такое базы данных, визуализация информации базы. Структура и свойства простейшей базы данных. Характеристика определений, типов данных, безопасность, специфика формирования баз данных. Подходы к проектированию технического задания. Работа с таблицами.

    презентация [4,3 M], добавлен 12.11.2010

  • Общая характеристика моделей баз данных: объектно-ориентированная, иерархическая, реляционная. Всемирная паутина глобальной компьютерной сети Интернет как сетевая база данных, рассмотрение особенностей основных составляющих: узел, уровень, связь.

    презентация [1,4 M], добавлен 14.10.2013

  • Базы данных и системы управления ими. Свойства полей баз данных, их типы и безопасность. Программное обеспечение системы управления базами данных, современные технологии в данной области. Принципы организации данных, лежащие в основе управления.

    курсовая работа [24,6 K], добавлен 11.07.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.