Защита фармацевтических патентов

Интеллектуальная собственность в фармацевтической индустрии, существующие онтологические и лингвистические модели. Современные методы автоматического анализа патентов. Фармацевтическое изобретение как центральный элемент онтологии, связи между классами.

Рубрика Государство и право
Вид дипломная работа
Язык русский
Дата добавления 26.08.2017
Размер файла 109,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Введение

Ни один другой сегмент рынка не зависит настолько от интеллектуальной собственности, как фармацевтическая индустрия. Любая фармацевтическая инновация подразумевает масштабную предварительную работу в области патентного права для определения перспективных направлений научно-исследовательских работ. Исходной точкой для создания инновационной технологии является тщательное исследование существующего уровня техники, которое может быть выполнено наиболее эффективно с помощью анализа патентного ландшафта. Анализ патентного ландшафта в сфере химических патентов, к которым, в частности, относятся патенты на лекарственные препараты, позволяет выявить ключевые тенденции в отрасли, определить компании, проявляющие наибольшую изобретательскую активность, а также обозначить направления развития - технологические сферы, которые недостаточно покрыты патентными документами. Такое внимание к патентам можно считать оправданным, ведь содержание патентных документов действительно уникально: во-первых, патент содержит информацию, достаточную для реализации изобретения экспертом в данной предметной области; во-вторых, именно патент описывает границы монополии на объект патентования, то есть, в строгих формулировках закрепляет, на какие именно аспекты изобретения предоставляется правовая защита, что важно как для правообладателя, так и для организаций, ведущих исследовательские работы в схожем направлении.

Создание вручную полномасштабных отчётов о патентном ландшафте не представляется возможным, так как данный процесс обычно подразумевает изучение нескольких десятков тысяч патентных документов. В связи с этим широко применяются методы автоматической обработки текстов патентов, среди которых самым многообещающим подходом на данный момент является использование онтологий и семантических технологий сети Интернет.

В процессе автоматического создания патентного ландшафта фармацевтической индустрии обычно используются ресурсы по медико-биологической тематике, такие как онтологии заболеваний, классификации лекарственных средств, медицинские номенклатуры и т.д. Однако эти ресурсы, столь эффективные для работы с научными статьями, не достигают такого же уровня качества в процессе анализа патентных текстов. Это связано с тем, что ключевыми терминами в биомедицинских онтологиях обычно являются естественно-научные концепты, что не позволяет описывать правовые аспекты изобретения.

Несмотря на всплеск в развитии методов анализа химических патентов за последнее десятилетие, до сих пор не существует онтологии, которая в качестве центрального элемента моделировала бы понятие фармацевтического изобретения, то есть описывала бы лекарственное средство не в столько в медицинских, сколько в юридических терминах.

Таким образом, целью данного исследования является разработка лингвистической онтологии интеллектуальной собственности в сфере фармацевтических препаратов. Особое внимание в работе уделяется построению модели текста патента, так как лингвистические особенности патента, от которых во многом зависит выбор метода обработки текста, остаются малоисследованными, несмотря на законодательно зафиксированную однозначную структуру патентной заявки.

В процессе исследования была использована литература нескольких видов. В первую очередь, теоретическим фундаментом для создания онтологии стала литература, посвященная описанию автоматических методов анализа текстов патентов. Значительную группу источников составляет литература, затрагивающая тему онтологий и репрезентации знания в компьютерных системах. Для освещения юридических аспектов использовались источники, описывающие особенности интеллектуальной собственности в фармацевтической индустрии, инструкции для подачи патентной заявки и для анализа патентоспособности изобретений, а также законодательные акты в сфере интеллектуальной собственности, действующие как на территории Российской Федерации, так и в других странах. Для понимания специфики медико-биологической предметной области использовалась литература по разным направлениям естественно-научной тематики, также были изучены многочисленные научные классификации, онтологии и электронные ресурсы, которые имеют наибольший уровень цитирования и наиболее широкое применение в современных биомедицинских проектах. Наконец, в качестве источников данных были использован всемирно известные базы данных патентов, такие как база патентов Европейского патентного ведомства и поисковой системы Google Patents.

Работа состоит из введения, четырех основных глав и заключения. В первой главе под названием «Разработка онтологии: постановка задачи» мы перечисляем ключевые задачи, которые встают перед разработчиком онтологии фармацевтической собственности, и подробно описываем методы решения данных задач.

Вторая глава «Автоматический анализ патентов: введение в проблематику» предоставляет краткий обзор предметных областей, затронутых при создании онтологии. Во-первых, освещены особенности патентов на лекарственные средства. Во-вторых, описано современное состояние в сфере автоматического анализа патентного ландшафта и роль методов автоматической обработки текстов в данной области. В-третьих, данный раздел затрагивает значение семантических технологий и онтологий для майнинга химических патентов и для медико-биологической сферы в целом. В-четвертых, в данном разделе представлен перечень эталонных медицинских ресурсов с кратким описанием каждого из них, а также предлагаются возможности использования этих ресурсов для разрабатываемой онтологии. Наконец, в последней части главы представлены выводы о современном состоянии методов автоматической обработки химических патентов.

Третья глава «Разработка онтологии: теоретические аспекты» включает в себя анализ ключевых определений онтологии в информатике, а также перечень и подробное описание принципов разработки онтологических моделей. Кроме того, в главе представлена универсальная пошаговая инструкция к разработки онтологий. Важной частью данного раздела является описание лингвистической модели патента, включающее анализ структуры и ключевых лингвистических особенностей патентов, определяющих использование тех или иных методов майнинга текстов.

Четвертая и заключительная глава «Разработка онтологии: реализация» представляет описание разработанной онтологии - онтологических классов, их определений и отношений между ними.

В главе «Заключение» мы подытожим результаты и в общих чертах опишем дальнейшие возможности работы над онтологией.

1. Разработка онтологии патентования в сфере фармацевтики: постановка задачи

В настоящее время существует множество независимо разработанных онтологий и прочих электронных ресурсов, описывающих различные аспекты фармацевтических препаратов. В зависимости от области применения, онтологии могут различаться по охвату, центральным концептам и их атрибутам, уровню детализации и в целом по общей перспективе моделирования. Среди онтологий в открытом доступе наиболее распространённой является практика моделирования на основе некоторой научной классификации, и тогда онтология играет роль логической модели для описания современного уровня научных знаний в какой-либо узкой области. Так, например, в качестве центрального критерия для разграничения онтологических классов может быть использована классификация по химической структуре или по терапевтическому эффекту, который, в свою очередь, также может быть описан на разных уровнях - от крупных анатомических концептов, таких как орган или система органов, до молекулярных «мишеней» лекарственных средств, представляя собой описание с точки зрения специфического механизма взаимодействия лигандов и протеиновых молекул человеческого организма. Центральным элементом онтологии могут быть токсикологические свойства активных веществ, как, например, в онтологии OpenTox (Tcheremenskaia et al. 2012). Исследоваться могут также нежелательные эффекты применения препаратов, к примеру, в Онтологии побочных эффектов (англ. The Ontology of Adverse Events) (He et al. 2014). Онтологии могут также моделировать лекарственные препараты как конечный продукт разработки фармацевтических компаний, и тогда на первый план выходят такие атрибуты, как торговое наименование, производитель, лекарственная форма и дозировка.

Все перечисленные онтологии находят широкое применение в задачах, использующих методы биомедицинского майнинга текстов. Однако в рамках автоматического анализа патентного ландшафта в фармацевтике значительной проблемой остаётся невысокая эффективность применения биомедицинских онтологий. В первую очередь, это связано с тем, что имеющиеся ресурсы и онтологии подробно описывают те или иные концепты медико-биологической предметной области, при этом совершенно не затрагивая правовые аспекты, которые являются ведущей темой для анализа патентных текстов.

Исследование патентного ландшафта подразумевает описание лекарственных средств в качестве объектов интеллектуальной собственности, что выдвигает на первый план особую структуру - понятие изобретения, которое имеет природу, принципиально отличную от лекарственного препарата как продукта на рынке или как совокупности физических, химических и прочих свойств, представленных в строгом научном описании. Закрепленные законодательными актами узко трактуемые требования к новизне, изобретательскому уровню и промышленной применимости изобретения не находят отражения в существующих онтологиях. Точно так же с помощью имеющихся технологий невозможно смоделировать и различные уровни патентной защиты (например, противопоставление между абсолютной и косвенной защитой химических соединений), разнообразие видов изобретений (к примеру, различия между патентом на новое соединение, на композицию веществ, на способ производства вещества и на новый метод применения известной фармацевтический субстанции), а также различные подходы к оценке патентоспособности.

Решением этой проблемы является такая онтологическая модель, которая рассматривала бы фармацевтический продукт с перспективы его патентования. Как следствие, возникает задача разработки онтологии интеллектуальной собственности в фармацевтической индустрии. В соответствии с методологией разработки онтологических моделей, описанной далее в разделе «Понятие онтологии и методология разработки онтологических моделей», поставленную задачу можно разбить на несколько подзадач, наиболее важными из них являются следующие:

1) проанализировать основные классификации объектов интеллектуальной собственности;

2) выявить особенности патентования в фармацевтической индустрии;

3) описать технологические потребности, возникающие при исследовании патентного ландшафта в сфере фармацевтических инноваций;

4) идентифицировать ключевые типы изобретений, возникающих в сфере фармацевтики, и дать им онтологические определения;

5) установить атрибуты онтологического класса, описывающего изобретение;

6) определить дополнительные концепты, которые необходимы для полноценного онтологического моделирования понятия изобретения;

7) построить лингвистическую модель текста патента;

8) разработать онтологию на основе принятых решений относительно ключевых концептов;

9) интегрировать в разработанную онтологию ссылки на эталонные ресурсы по медико-биологической тематике;

10) провести оценку непротиворечивости, точности и полноты отдельных элементов онтологии и онтологии в целом;

11) описать направления для будущей работы над созданной онтологией.

Разработанная онтология позволит выдвинуть на первый план понятие патента в сфере фармацевтики. Помещение концепта изобретения в центр онтологической модели позволит эффективно применять семантические технологии именно в сфере патентной аналитики, учитывать все особенности патентных текстов и узкие требования научно-исследовательских проектов фармацевтических компаний.

2. Автоматический анализ химических патентов: введение в проблематику

2.1 Интеллектуальная собственность в фармацевтической индустрии

Разработка фармацевтического препарата - продолжительный процесс, требующий значительных инвестиций. Согласно статистике, из пяти тысяч тестируемых химических веществ только одно получает одобрение Управления по санитарному надзору за качеством пищевых продуктов и медикаментов США и вместе с ним возможность стать продуктом на фармацевтическом рынке (Kuhlik 2004).

Процесс разработки лекарственного средства состоит из множества этапов, с помощью чего обеспечивается многоступенчатый отбор небезопасных и неэффективных веществ (Atkinson et al. 2007). В самом начале, с помощью научных баз данных химических соединений исследователи идентифицируют несколько тысяч молекул, которые могут иметь потенциальное применение в качестве лекарственного средства. Как только подходящие кандидаты определены, они подвергаются продолжительному доклиническому тестированию in vitro - в лаборатории, часто с использованием тестирования на животных. Доклинические испытания позволяют исследователям выявить химические, биологические и токсикологические свойства соединений и определить, какие из веществ обладают терапевтическим действием на нужном уровне. Далее отобранные вещества начинают участие в программах клинических испытаний, которые, в свою очередь, включают несколько этапов:

1) исследование фармакокинетических и фармакодинамических характеристик химического соединения на небольшой группе здоровых добровольцев;

2) исследование терапевтического действия и краткосрочных побочных эффектов на небольшой группе пациентов с заболеванием;

3) подтверждение результатов на максимально большой выборке из популяции (Atkinson et al. 2007).

Если результаты клинических исследований показывают, что соединение эффективно и безопасно как в краткосрочной, так и в долгосрочной перспективе, компания может подать заявку в уполномоченные институты для получения разрешения на продажу и использование препарата в повседневной медицинской практике. Наконец, если разрешение было получено, новое лекарственное средство допускается к использованию в лечебных учреждениях, при этом применение нового препарата продолжает регулироваться контролирующими организациями для подтверждения его долгосрочной безопасности. К подобным уполномоченным организациям, например, относятся Управление по санитарному надзору за качеством пищевых продуктов и медикаментов (США), Европейское агентство лекарственных средств (Европейский союз) и Федеральная служба по надзору в сфере здравоохранения (Россия).

За последние несколько десятилетий средняя продолжительность пребывания препарата в фазе клинических испытаниях выросла практически до семи лет и продолжает расти в настоящее время из-за усиливающихся требований к клиническим данным о характеристиках лекарственных средств (Grabowski 2002). Весь процесс разработки нового лекарственного вещества от выявления подходящих кандидатов до выхода препарата на рынок может занимать от десяти до пятнадцати лет (Kuhlik 2004).

Процесс создания лекарственных препаратов осложняется не только по причине длительности исследовательских работ, но и вследствие высоких рисков прерывания проекта из-за несоответствия нового вещества установленным нормам. В отличие от основной части рынка, где бизнес-проект обычно может завершиться досрочно по экономическим соображениям, в фармацевтической индустрии значительная часть проектов прекращается по научным причинам, таким как отсутствие эффективности или безопасности. Особенно важно при этом, что нежелательные характеристики препарата могут быть выявлены на любом этапе разработки, включая исследования после выхода на рынок (Gassman, Reepmeyer 2008). В качестве трагического примера можно привести препарат «Талидомид», долгосрочные побочные эффекты которого были выявлены спустя несколько лет после поступления в продажу.

Помимо высоких рисков и продолжительности научно-исследовательских работ, даже в случае успешной разработки препарата прибыль от его реализации на рынке не всегда соответствует уровню вложенных инвестиций. По статистике, лишь три из десяти лекарственных средств приносят доход, который превосходит или хотя бы покрывает средние затраты на НИОКР (DiMasi, Grabowski 2012).

Наконец, вместе с появлением нового препарата появляется и возможность создания его биоэквивалентных копий - дженериков, так как лекарственные средства могут быть скопированы с помощью анализа химического состава вещества. Для такого производства по принципу обратной разработки не требуется проведение дорогостоящих клинических испытаний, и для получения разрешения на продажу чаще всего необходимо доказать биоэквивалентность оригинального и воспроизведённого препарата. Как следствие, цена дженерика зачастую устанавливается значительно ниже цены оригинального лекарственного средства, что приводит к серьёзным убыткам компании-разработчика. Во многих других отраслях (например, в сфере разработки программного обеспечения) повсеместно используются самые разнообразные способы задержать выход копий нового продукта, например, договоры о неразглашении и соглашения о намерениях, однако традиции медицинских исследований поощряют исследователей к ранней огласке изобретения, обычно задолго до того как продукт попадёт на рынок. Именно поэтому в области фармацевтики патентные консультации сопровождают научно-исследовательские работы с самых первых дней разработки (Grabowski 2002).

В основном, полную разработку нового препарата могут позволить себе компании, лидирующие на международном фармацевтическом рынке. Действительно, согласно исследованиям, с начала с 1950-х годов примерно 50% активных лекарственных веществ были разработаны всего 21 компанией, при этом все из них относились или относятся к гигантам фармацевтической индустрии (Kiriyama 2011). В связи с трудоёмкостью создания нового лекарственного средства, как крупные компании, так и небольшие ведут и менее дорогостоящие научно-исследовательские проекты, такие как поиск новых способов получения активного вещества, разработка новых композиций на основе известных субстанций и исследование новых способов лечения с помощью запатентованных препаратов.

Такое разделение на изобретение связано с различием по уровню защиты. В патентоведческой литературе принято разделять прямую и косвенную защиту химического соединения. Прямая защита означает, что патент защищает непосредственно структуру либо наименование химического соединения по общепринятой номенклатуре, по которому структуру можно представить (Челышева 1996). Абсолютной прямой защите противопоставляются косвенные способы защиты химического соединения - через защиту композиций, патентование нового способа применения (например, для лечение другого заболевания) или способа производства. Важно, что правовая защита, предоставляемая обладателю патента на новое химическое соединение, не сравнима по широте ни с патентом на вещество-композицию, ни с патентом на способ или устройство (Челышева 1996).

Объектом патентования может быть не только не только индивидуальное химическое вещество, но и группа веществ, объединённых общей структурной формулой. Существования такого общего вида патентов приводит к возможности селективных изобретений - изобретений на соединения, которые подпадают под общую структурную формулу известных веществ, но не были получены и исследованы специальным образом (Игнатов, Серова 2017). Для выдачи патента на селективное изобретение обычно требуется доказательство новых свойств частного вещества, неизвестных в случае общей группы соединений.

С точки зрения патентного права, защита вещества с новым назначением возможна, только если новая активность соединения не известна из уровня техники, то есть не вытекает очевидно из признаков соединения (Игнатов, Серова 2017). Подобная ситуация наблюдается и при патентовании новых способов лечения с помощью изменения режима дозировок известного вещества (Сергеев, Фарбер 2014).

Фармацевтическая индустрия, наряду с биотехнологиями и химической промышленностью, является одной из трёх технологических отраслей, в которой патент буквально эквивалентен продукту (Lehman 2003). Это объясняется тем, что объём инвестиций в создание лекарственного препарата зависит не столько от химических и физических свойств его компонентов, сколько от накопленной информации о его безопасности и эффективности. Как следствие, финансовый успех препарата упирается в правильное и максимально широкое патентование структурной формулы нового вещества, поэтому логично, что фармацевтические компании стремятся оградить своё изобретение защитным кластером документов и максимально продлить срок его жизни (который часто уменьшается за счёт патентования на ранней стадии и длительных процедур проверок со стороны государственных органов). Исключительный статус новых веществ создаётся с помощью многочисленных документов об интеллектуальной собственности, определяющих границы монополии на фармацевтическое изобретение.

Действительно, ни один другой сегмент рынка не зависит настолько от интеллектуальной собственности, как фармацевтическая индустрия (Grabowski 2002). Любая фармацевтическая инновация - будь то новое вещество, композиция известных субстанций, новая лекарственная форма или применение известного соединения по новому назначению - подразумевает масштабную предварительную работу в области патентного права, в частности, анализ патентного ландшафта, определение перспективных направлений научно-исследовательских работ и патентование собственных изобретений на различных стадиях разработки. В связи с этим патентная аналитика становится неотъемлемой частью инновационного процесса в фармацевтике.

Согласно определению Всемирной организации интеллектуальной собственности, патентный ландшафт - это обзор патентной активности и тенденций в какой-либо отрасли. Результаты анализа патентного ландшафта можно представить в виде карты патентов в форме таблиц, графиков, диаграмм и графов, что позволяет легко и быстро воспринимать информацию.

Согласно Руководству по подготовке отчетов патентных ландшафтов (англ. Guidelines for Preparing Patent Landscape Reports), разработанному при поддержке Всемирной организации интеллектуальной собственности, анализ патентного ландшафта позволяет узнать инновационные тренды, т.е. технологические направления с наибольшей активностью патентования, а также отследить всплески патентной активности за нужный промежуток времени; определить страны, занимающие лидирующую позицию по исследовательским работам в некотором направлении; выявить организации с наибольшим количеством патентов на ключевые технологии; идентифицировать отдельных изобретателей и составить сеть их соавторства и соразработки; обнаружить «окна возможностей» - технологии, которые недостаточно покрыты патентами и имеют потенциал для разработки (Trippe 2015). Таким образом, аналитические исследования патентных документов и научно-технической литературы предоставляют компаниям возможность понять потенциальные риски и принять взвешенное решение, основанное на реальных данных.

Патенты являются прямым продуктом НИОКР и признаются ценным ресурсом для анализа технологических возможностей (Lee et al. 2015). Не стоит недооценивать уникальность патентной информации: зачастую содержание патента может быть единственным описанием изобретения, каждое из которых имеет потенциал стать научным прорывом (Trippe 2015). Согласно статистике, около 80% всей информации об изобретении содержится в тексте соответствующего патента (Blackman 1995).

2.2 Современные методы автоматического анализа патентов

Создание отчёта о патентном ландшафте включает в себя исследование основных тенденций в определённой отрасли, анализ географического охвата патентов, кластеризацию и классификацию патентных текстов в соответствии с критериями поиска, описательный статистический анализ метаданных патентов и многие другие операции (Trippe 2015). С учётом того что качественное патентное исследование обыкновенно основано на нескольких тысячах документов, становится очевидно, что создание полномасштабного отраслевого отчёта вручную не представляется возможным даже для большой группы экспертов.

В любой области, где требуется быстрое и точное извлечение информации из большого объёма неструктурированной информации, разумное применение находят автоматические методы интеллектуальной обработки текстов, или майнинг текстов (Rebholz-Schuhmann et al. 2005). Автоматизированный анализ текстовых данных может значительно сократить затраты на обработку базы документов. В качестве примера можно привести исследование, в котором было показано, что система PreBIND, созданная для разметки протеинов в медицинских текстах, на 70% сократила время работы экспертов над аннотированием, что равняется 176 рабочим дням (Donaldson et al. 2003).

Исследователи в сфере естественных наук впервые осознали перспективность майнинга медико-биологических текстов в начале 1990-х годов, когда возникла потребность автоматически извлекать из текстов названия генов и их характеристики для пополнения баз данных по геномике (Hafner et al. 1994). В 1998 году начали появляться первые исследования по биомедицинскому майнингу текстов, и в последующие годы интерес к майнингу текстов резко возрос в связи с успешной автоматизацией в самых разных отраслях естественно-научных исследований и здравоохранения (Cohen, Demner-Fushman 2014).

Несмотря на трудности, связанные со спецификой естественно-научных текстов, автоматический анализ медико-биологических документов достиг достаточно зрелого уровня, когда на основе более простых компьютерно-лингвистических приложений, таких как извлечение медицинских терминов, уже создаются комплексные алгоритмы на семантическом уровне, позволяющие распознавать сложные концепты с несколькими слотами в объёмных коллекциях данных. Среди таких систем можно упомянуть MiTAP, TRESTLE и Centrifuser - известные системы автоматического реферирования текстов по медико-биологической тематике, а также вопросно-ответную систему для использования в медицинской практике CQA-1.0 (Damianos et al. 2002; Gaizauskas et al. 2001; Kan et al. 2001; Demner-Fushman, Lin 2007). Такое стремительное развитие всего за несколько лет стало возможным во многом благодаря усилиям исследователей по созданию общедоступных электронных медико-биологических ресурсов.

В отличие от биомедицинских источников, тексты патентов (которые, кстати, формально являются таким же общедоступным ресурсом, как и научные статьи) в большом объёме стали доступны лишь недавно: в 2010 году Ведомство по патентам и товарным знакам США выпустило более десяти терабайтов патентных данных, позволив, наконец, проводить крупномасштабные патентные исследования без обращения к коммерческим ресурсам или к базам данных с выгрузкой документов «вручную» (Rodriguez-Esteban, Bundschus 2016).

Во многом анализ патентов опирается на извлечение из текста ключевых слов и выражений по заранее составленным спискам, при этом списки могут различаться в зависимости от поля документа, по которому проводится поиск. Такой поиск по заданым спискам слов с использованием операторов объединения, пересечения и расстояния между терминами в тексте относится к традиционному методу булева поиска, который широко используется, к примеру, в юридических практиках (например, на нём основана юридическая поисковая служба Westlaw), а также в системах каталогизации литературы, разработанных для профессиональных библиотекарей (IF 36). Однако такой способ извлечения информации имеет существенные ограничения, очевидные для каждого, кто сталкивался с булевым поиском по текстовым базам данных. Во-первых, медико-биологические концепты отличаются невероятным многообразием синонимичных названий и неологизмов, и включить все из них в поисковые списки представляется невозможным (Cohen, Demner-Fushman 2014). Так, например, онкологические заболевания могут быть классифицированы как с точки зрения топографии (то есть, с точки зрения локализации опухоли в определённых анатомических единицах), так и с точки зрения морфологии (с точки зрения гистологии самой опухоли). В связи с этим, при поиске новых соединений, использующихся в лечении заболеваний, необходимо включать все возможные пересечения терминов между двумя классификациями, а также учитывать повсеместное использование косвенных описаний заболеваний (например, kinase-disease associations или disorders related to tyrosine kinase). Кроме того, медицинская терминология разбивается на множество семантических классов, таких как названия химических веществ (которые могут быть записаны в разных химических номенклатурах), названия генов и протеинов, обозначения для разных типов клеток, наименования заболеваний, мутаций и злокачественных опухолей, анатомические термины и т.д. К тому же, внутри каждого семантического класса определены многочисленные как официальные, так и негласные правила наименования и не менее многочисленные отклонения от этих правил. Что касается текстов патентов, то стоит упомянуть, что фармацевтические компании в одном изобретении могут патентовать множество молекул, связанных одной общей формулой, в то время как в тексте будет упомянута лишь общая формула. И, конечно, поиск по ключевым словам не подразумевает никакого семантического вывода значения (то есть, при таком поиске невозможно использовать перенос свойств класса на свойства его экземпляра). Становится понятным, что составление списков слов и выражений не позволяет извлекать информацию с нужной точностью и, в особенности, с нужной полнотой. Многие исследователи в области автоматизации текстового анализа не без основания считают, что списки терминов значительно проигрывают другим методам информационного поиска и могут иметь только очень ограниченное использование для майнинга текстов медицинской тематики (Cohen, Demner-Fushman 2014).

Разумеется, модель булева поиска - не единственная возможность работать с текстами патентов. Более комплексные методы анализа патентов включают в себя использование вероятностных моделей информационного поиска, моделей векторного пространства, а также многомерные методы анализа данных (факторный анализ, анализ соответствий и т.д.). В качестве примера можно привести несколько инструментов, использующихся в рабочей практике. В работе (Osborn et al.) описана система, включающая в себя ряд поверхностных техник преобразования текста в векторное пространство для поиска. Плюсом системы является отсутствие синтаксического и семантического анализа, что снижает время, требуемое для вычислений и делает возможным обработку очень объёмных баз текстов. Полнота и точность извлечения информации достигается за счёт анализа встречаемости терминов и использования статистических методов ранжирования. В статье (Larkey) предложена система информационного поиска и классификации текстов на основе вероятностной модели. В работе (Marinescu et al. 2002) описан подход, который использует техники многомерного анализа и кластеризации, а именно анализ соответствий и иерархический кластерный анализ, проведённые после поверхностной лингвистической предобработки текстов.

2.3 Онтологические модели в медико-биологической сфере

Майнинг фармацевтических патентов как отдельное направление стал активно развиваться лишь в последнее десятилетие, и потому данной сфере ещё только предстоит накопление результатов об эффективности различных методов. Однако уже сейчас возможно делать предсказания о наиболее перспективных направлениях развития. Одним из наиболее многообещающих подходов к анализу текстов химических патентов является интеграция методов майнинга текстов и семантических технологий сети Интернет (Rodriguez-Esteban et al. 2014). Семантические технологии Web - это «организация такого представления данных в сети, чтобы допускалась не только их визуализация, но и их эффективная автоматическая обработка программами разных производителей» (Брайчевский и др. 2005: 29). Концепция семантической паутины была выдвинута Тимом Бернерсом-Ли на международной конференции XML-2000 в 2000 году (Berners-Lee et al. 2001). На этой же конференции в последующие годы был разработан всеобщий открытый стандарт для создания семантических ресурсов - язык Средства описания ресурсов RDF (англ. (Resource Description Framework). Средства описания ресурсов RDF был задуман как язык описания мета-данных в сети Интернет (Broekstra et al. 2002). Этот стандарт обеспечивает возможность легко объединять любые электронные ресурсы в формате в любом приложении.

Семантические технологии позволяют представить знание в виде моделей предметных областей - онтологий, которые описываются языком сетевых онтологий OWL (англ. Web Ontology Language), который соответствует схеме RDF (Allemang, Hendler 2011). Онтологии - ключевое звено в процессе превращения сети Интернет в систему семантического уровня. На это есть несколько причин. Во-первых, онтология как метод классификации накопленных данных является одним из базовых научных способов организации знания, который использовался задолго до появления современных технологий. Теперь, когда онтологии существуют в машиночитаемом формате, любой электронный ресурс может быть дополнен онтологией, которая объединяет схожие понятия, структурирует и обогащает содержание, а также связывает данный ресурс с тысячами других. Действительно, разобщённые данные, которые прошли валидацию на основе определённой онтологической модели, становятся «умными» данными - полными, точными и непротиворечивыми, содержащими только те связи, которые были установлены инженером по семантическим технологиям (Allemang, Hendler 2011). Язык онтологий OWL предоставляет возможность удобно описывать термины предметной области и определять правила логического вывода в заданной модели, причём с помощью этого языка можно создавать онтологии на любом уровне конкретизации - от общих моделей до узкоспециализированных. Помимо этого, готовая онтология, если она включает экземпляры классов, может использоваться и как база данных семантического уровня благодаря языку запросов SPARQL. Любая доступная в сети онтология имеет свой уникальный идентификатор и предоставляет уникальные идентификаторы классам, экземплярам и связям, которые в ней содержатся. Это позволяет использовать понятия, определённые в онтологии, в любом документе в сети Интернет, достаточно лишь для терминов в документе указать их уникальные идентификаторы в данной онтологии. Онтологии можно объединять вместе с другими онтологиями и электронными ресурсами, их легко модифицировать, включать в онтологии верхних уровней; возможно даже использовать небольшие части онтологии или отдельные свойства, определённые в ней. Любые приложения могут использовать онтологии, просто ссылаясь на идентификаторы в ней.

Помимо всех преимуществ использования онтологии в качестве схемы предметной области, информационные онтологии - ещё и эффективный инструмент извлечения данных. Онтологии подробно описывают классы и накладывают ограничения на их свойства, и потому при извлечении из текста экземпляра класса, автоматически становятся известны и его свойства. Так, например, если система информационного поиска извлекла название некоторого фармацевтического препарата из текста, то она может также предположить, что ближайший контекст (такой как абзац или страница) будет содержать информацию о химической формуле, ингредиентах и механизме действия, так как эти атрибуты являются свойствами класса лекарственного вещества.

Неудивительно, что онтологии и семантические технологии вызвали столь пристальное внимание со стороны разработчиков и уже оказались в центре внимания экспертов в сфере биомедицинского анализа данных (Musen 2002). С начала 1990-х годов было разработано огромное количество биомедицинских онтологий, и как следствие, возникла необходимость выработать некоторую систему, которая позволила бы легко объединять различные медико-биологические базы знаний, находящиеся в свободном доступе в сети Интернет. С этой целью возникла коллективная научная инициатива Открытые биомедицинские технологии (англ. Open Biomedical Ontologies, сокращенно OBO) (Smith et al. 2007). Организация разрабатывает и внедряет принципы машиночитаемого представления естественно-научного знания, используя в качестве примера наиболее успешные биомедицинские онтологии. Эти принципы включают в себя описание форматов и синтаксические правила, ограничения на охват онтологии, границы связей между терминами в онтологии, особенности использования ресурсов и т.д. (Smith et al. 2007).

Среди разработчиков биомедицинских технологий широко используется также Базовая формальная онтология (The Basic Formal Ontology, сокращенно BFO) - онтология верхнего уровня, созданная для облегчения работы в научной сфере (Smith et al. 2015). Онтология не содержит терминов, которые относятся к конкретной области науки, но предоставляет базовую схему описания любых объектов и их отношений независимо от области знания. Так, например, онтология содержит такие свойства, как «являться частью чего-либо», «иметь определение» и т.д. В настоящий момент Базовая формальная онтология используется более чем в 250 онтологиях по всему миру (Smith et al. 2015).

Таким образом, онтологии и семантические технологии являются поистине универсальным инструментом, который имеет множество вариантов использования - от организации накопленного знания и вывода новых данных до верификации содержания и автоматического извлечения информации. В сфере анализа фармацевтических патентов онтологии начали использоваться сравнительно недавно, а потому представляют собой малоисследованную область с высоким потенциалом развития.

2.4 Эталонные биомедицинские ресурсы

За последние несколько десятилетий в сфере биомедицинских технологий исследователями было разработано множество электронных ресурсов естественно-научной информации. В настоящей главе мы опишем эталонные базы данных и онтологии, которые имеют наибольшее цитирование и наиболее широкое использование в прикладных и научных проектах. Перечисленные ресурсы были тщательно изучены и послужили опорой для разработки собственной онтологии.

Биомедицинские онтологии

Проект «Генная онтология»

Проект «Генная онтология» (англ. Gene Ontology, сокращенно GO) - это инициатива по созданию единого ресурса для описания продуктов генного вида (Ashburner et al. 2000). Проект возник на основе на трёх баз данных: FlyBase (база данных генома плодовых мушек), Mouse Genome Informatica (база данных генома мыши) и Saccharomyces Genome Database (база данных генома пекарских дрожжей) (Ashburner et al. 2000). Онтология аккумулирует научные знания о том, как гены кодируют биологические функции на молекулярном, клеточном и тканевом уровне, и используется для аннотации генных функций в научной литературе. Формальная онтология разделяется на три крупных класса: биологический процесс, молекулярная функция и клеточный компонент - и охватывает более 40 тысяч биологических концептов. Создатели проекта подчёркивают, что основным преимуществом онтологии является возможность быстро интегрировать новые знания, так как публикации по геномике появляются практически ежедневно (Smith et al. 2007). Генная онтология - одна из наиболее влиятельных онтологий в биоинформатике на данный момент (Cohen, Demner-Fushman 2014).

Термины, описанные в Генной онтологии, могут использоваться для извлечения из текстов патентов молекулярных «мишеней» лекарственных средств - энзимов, рецепторов, транспортных протеинов и т.д., а также для описания механизма действия между данными протеинами и активным действующим веществом препарата.

Онтология заболеваний

Онтология заболеваний (англ. Disease Ontology, сокращенно DO), разработанная в Институте Генома Человека Мэрилендского университета в Балтиморе, представляет собой исчерпывающую общедоступную базу знаний, описывающую более восьми тысяч заболеваний человека (Schriml et al. 2012). Создание онтологии стало первым проектом, в центре внимания которого находится классификация заболеваний на основе этиологии. Изначально в качестве основной лексики для терминов онтологии был использован стандарт МКБ-9 (Международная классификация болезней, травм и причин смерти 9-го пересмотра), однако онтология активно взаимодействует и с прочими стандартами и интегрирует синонимичные концепты из таких ресурсов, как MeSH или SNOMED CT (Lipscomb 2000; Donnelly 2006).

Несмотря на то что в онтологии отсутствуют некоторые редкие заболевания, она является одним из лучших и всеобъемлющих ресурсов, оптимизированных для разметки заболеваний в научных текстах. Онтология заболеваний использовалась для разметки базы данных генома крысы, для аннотации базы данных иммунных эпитопов и в других научных проектах (Twigger et al. 2007; Vita et al. 2010). Работа над базой данных продолжается до сих пор: с 2012 года было проведено 192 пересмотра и добавлено свыше 760 терминов (Kibbe et al. 2015).

Концепты, определённые в онтологии заболеваний, могут использоваться для разметки заболеваний и расстройств, упомянутых в текстах патентов, и для установления связей между заболеванием и показаниями препаратов.

Фундаментальная анатомическая модель

Фундаментальная анатомическая модель (англ. Fundamental Model of Anatomy, сокр. FMA) - это развивающаяся онтология, описывающая модель строения человеческого тела. Фундаментальная модель содержит около 70 тысяч анатомических концептов от макроклеточных комплексов до органов человеческого тела и более 110 тысяч синонимичных названий; кроме того, в онтологии содержатся более полутора миллионов связей между концептами и определены около 170 возможных типов связей (Rosse, Mejino 2003). Также Фундаментальная анатомическая модель является частью Информационной системы по анатомии (англ. Anatomy Information System, сокращённо AIS), предоставляющей графический интерфейс к анатомической модели и возможности навигации по базе данных на разных уровнях детализации.

Термины, определённые в Фундаментальной анатомической модели, могут использоваться для установления связей между анатомическими концептами и способами применения лекарственного средства.

Ресурсы Национальной библиотеки медицины США

Национальная библиотека медицины США (англ. National Library of Medicine, сокращённо NLM) - крупнейшая в мире библиотека медицинской литературы, основанная в 1836 году. В настоящее время Национальная библиотека медицины США координирует более шести тысяч американских медицинских библиотек и предоставляет доступ к огромной коллекции естественно-научных электронных ресурсов. К проектам библиотеки относятся база данных публикаций по медицине Pubmed, тезаурус MeSH, Унифицированный язык медицинских систем (UMLS), база данных химических соединений PubChem и прочие проекты, известные во всем научном мире. Далее мы опишем основные ресурсы, созданные при поддержке Национальной библиотеки медицины США.

Medical Subject Headings (MeSH)

Медицинские предметные рубрики (Medical Subject Headings, сокращённо MeSH) - это контролируемый словарь, который был разработан и продолжает поддерживаться в настоящее время Национальной библиотекой медицины США (Lipscomb 2000). Словарь MeSH включает около 27 тысяч дескрипторов, организованных в 16 крупных классов, среди них - Анатомия, Организмы, Болезни и т.д. Благодаря иерархической структуре, MeSH позволяет выполнять поиск по статьям на разных уровнях детализации. Помимо основных дескрипторов, словарь MeSH также содержит более 210 тысяч дополнительных записей - списков синонимов и схожих терминов, и потому может использоваться как тезаурус. Основной целью применения MeSH является индексация и каталогизация естественно-научных текстов в базах статей Medline и PubMed, однако MeSH стал также используется используется множеством исследователей для разметки собственных электронных ресурсов. Многие биомедицинские онтологии включают ссылки на идентификаторы MeSH.

Медицинские предметные рубрики предоставляют химическую классификацию фармацевтических препаратов, и потому идентификаторы MeSH могут использоваться в онтологии для интеграции.

RxNorm

RxNom - это стандартная терминология фармацевтических препаратов, поддерживаемая Национальной медицинской библиотекой США (Nelson et al. 2011). Ресурс RxNorm был создан на основе нескольких баз данных лекарственных средств и включает в себя более 60 тысяч нормализованных концептов, их наименования (международные непатентованные наименования, фирменные названия, наименования в химических номенклатурах), атрибуты (ингрединеты, лекарственная форма, дозировка), а также связи между ними. RxNorm является эталонной терминологией в сфере фармацевтики в США и используется клиниками, аптечными сетями, фармацевтическими компаниями и другими организациями в сфере медицины и здравоохранения в системах обработки фармацевтических данных.

Терминология RxNorm предоставляет стандартизированные списки лекарственных форм, лекарственных групп, а также информацию о торговых наименованиях и дозировках современных препаратов, что может быть использовано в разрабатываемой онтологии.

Unified Medical Language System (UMLS)

Унифицированный язык медицинских систем (Unified Medical Language System, сокращенно UMLS) - это система интеграции медицинских ресурсов, разработанная Национальной медицинской библиотекой США (Cohen, Demner-Fushman 2014). Система UMLS объединяет более 150 ресурсов медицинской терминологий, сохраняя исходные связи между терминами и наследуя исходную иерархическую структуру. Синонимичные названия из разных источников группируются в единый концепт и имеют общий уникальный идентификатор.

Система UMLS состоит из трёх основных компонентов:

1) тезаурус Metathesaurus, который представляет собой всеобъемлющий список синонимов медико-биологических концептов и может использоваться как самостоятельный ресурс;

2) семантическая сеть, которая определяет семантические классы и устанавливает отношения между ними;

3) SPECIALIST - система, объединяющая лексикон медико-биологических терминов и инструменты обработки текстов естественно-научной тематики.

Унифицированный язык медицинских систем облегчает разработку инструментов анализа естественно-научной литературы и медицинских информационных систем.

SNOMED CT

Систематизированная медицинская номенклатура - Клинические термины (англ. SNOMED Clinical Terms) - это машинночитаемый ресурс, описывающий медицинская номенклатуру. Ресурс включает более 380 тысяч концептов и около 800 тысяч определений терминов (Donnelly 2006). Клиническая терминология была создана при поддержке Международной организации по разработке стандартов в области медицинской терминологии и является наиболее полной номенклатурой здравоохранения. Целью SNOMED CT является систематизация медицинской информации для применения в клинической практике: ресурс предоставляет возможность вести медицинскую документацию и использовать консультирующие системы при постановке диагноза. В США SMOMED CT является обязательным стандартом обмена клиническими данными, утверждённым Министерством здравоохранения и социальных служб США.

Международные стандарты, реестры и классификации МНН

Международное непатентованное наименование (МНН) - уникальное наименование действующего вещества лекарственного средства, рекомендованное Всемирной организацией здравоохранения (ВОЗ). Система наименований устанавливает идентификаторы активных фармацевтических веществ. Каждое МНН является уникальным наименованием, признанным во всём мире, и общественной собственностью. Система существует с 1953 года и в настоящее время список наименований включает более 7000 идентификаторов и пополняется каждый год на 120-150 новых названий.

Целью глобальной системы непатентованных наименований является обеспечение работников здравоохранения универсальными глобально доступными обозначениями фармацевтических веществ.

Непатентованные наименования используются в для составления фармакопей, в научной литературе и как основа для торговых наименований. Несмотря на то что система МНН является всемирно признанной и используется повсеместно, некоторые страны имеют собственные списки непатентованных наименований, которые обычно лишь слегка отличаются от основной системы, разработанной ВОЗ. В качестве примера можно привести Справочник национальных непатентованных названий США (англ. United States Adopted Names, сокр. USAN) и Британский справочник национальных непатентованных названий (англ. British Adopted Names, сокр. BAN).

Международная классификация болезней 10-го пересмотра

Международная классификация болезней 10-го пересмотра (сокр. МКБ-10) является общепринятой медицинской классификацией, разработанной Всемирной организацией здравоохранения. Классификация содержит коды заболеваний, симптомов и причин смерти. МКБ-10 является международным стандартом медицинских отчётов о заболеваниях и клинических состояний. Используется для удобного хранения и обработки клинической информации, для создание распределённых систем хранения данных пациентов, облегчает сравнение и статистический анализ.

Анатомо-терапевтическо-химическая классификация

Анатомо-терапевтическо-химическая классификация (англ. Anatomical Therapeutic Chemical Classification System) - международная система классификации лекарственных средств. Сотрудничающим центром ВОЗ по методологии статистики лекарственных средств в Осло, Норвегия. АТС подразделяет лекарственные средства на группы, имеющие 5 различных уровней, каждый из которых определяется комбинацией терапевтических фармакологических, химический свойств или принадлежностью к анатомическому органу или системе органов. В большинстве случаев каждому лекарственному средству присваивается только один АТС-код. Лекарственным средствам, имеющим несколько основных показаний для медицинского применения, может быть присвоено более одного АТС-кода.

3. Разработка онтологии: теоретические аспекты

3.1 Понятие онтологии и принципы построения онтологии

Моделирование знания основано на концептуализации. Согласно Новейшему философскому словарю, под этим термином понимается «определение понятий, отношений и механизмов управления, необходимых для описания процессов решения задач в избранной предметной области» (Грицанов 1999). Концептуализация складывается в результате коммуникации экспертов в предметной области и представляет собой обобщённое понимание ключевых терминов и связей между ними. Концептуализация не обязательно существует в явно определённом виде, она может присутствовать в сознании нескольких людей в виде схемы объектов и отношений между ними. Концептуализация - это семантическая структура, которая кодирует имплицитные правила, накладывающие ограничения на некоторую область действительности (Uschold, King 1995).


Подобные документы

  • Основные положения по определению интеллектуальной собственности. Защита прав и законных интересов авторов и обладателей патентов. Защита интеллектуальных прав на изобретения, полезные модели и промышленные образцы. Авторское право, управление ОИС.

    реферат [31,7 K], добавлен 18.03.2011

  • Исследование порядка регистрации и выдачи патентов на изобретение в Российской Федерации. Лица, имеющие право на получение патента. Нормативное регулирование получения патента. Анализ этапов патентования. Алгоритм получения отдельных видов патентов.

    курсовая работа [44,0 K], добавлен 11.01.2017

  • Географическое положение и состояние экономики Японии. Разработка национальных стратегических программ по вопросам создания и правовой защиты интеллектуальной собственности. Порядок получения патентов и регистрации изобретений в Патентном ведомстве.

    доклад [28,5 K], добавлен 27.11.2013

  • Интеллектуальная собственность: понятие и виды. Система законодательства об охране интелектуальной собственности. Права авторства и преждепользования на изобретение. Нарушение прав на изобретение. Охрана российских изобретений за рубежом.

    реферат [32,8 K], добавлен 27.11.2008

  • Интеллектуальная собственность и авторские права. Нарушения авторских прав и их охрана. Условия гражданско-правовой ответственности за нарушение авторских и смежных прав. Практика применения правил о компенсации в связи с нарушением исключительных прав.

    дипломная работа [102,7 K], добавлен 25.06.2010

  • Характеристика объектов интеллектуального права. Идейные обоснования интеллектуальной собственности как элемента информационного общества. Ответственность за нарушение авторских и смежных прав. Международная защита интеллектуальной собственности.

    лекция [1,5 M], добавлен 15.11.2016

  • Понятие и особенности нормативно-правового регулирования интеллектуальной собственности, история развития и методы защиты. Субъекты и объекты авторского права. Интеллектуальная собственность в экономике России. Анализ существующей судебной практики.

    курсовая работа [46,4 K], добавлен 30.09.2014

  • Интеллектуальная собственность, ее охрана и защита. Вступление Казахстана во Всемирную торговую организацию. "Специальный доклад 301", приоритетный контроль списка. Защита авторских прав и интеллектуальной собственности в Интернете, проблемы обеспечения.

    статья [16,6 K], добавлен 02.11.2013

  • Сущность и состав интеллектуальной собственности. Объекты авторского права и промышленной собственности. Правовой механизм их защиты, признаки патентоспособности. Формы передачи объектов интеллектуальной собственности (технологии), лицензионные соглашения

    контрольная работа [35,8 K], добавлен 14.07.2011

  • История появления и развития понятия "интеллектуальная собственность". Характерные особенности института интеллектуальной собственности в гражданском законодательстве России. Перечень объектов и описание правовой природы интеллектуальной собственности.

    курсовая работа [29,3 K], добавлен 02.08.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.