Безэкземплярные и экземплярные онтологии

(Доклад на XXXVI Междунар. филолог. конф. 12 марта 2007 г. в Санкт-Петербургском университете)

 

Иллюстративный материал к докладу можно загрузить отсюда.

 

 

Цель моего доклада – привлечь внимание к одному противопоставлению внутри онтологий, которое позволяет выделить специфический их тип – безэкземплярные онтологии, и познакомить вас с теми особенностями безэкземплярных онтологий, которые я успел заметить на сегодняшний день. Вторичная цель моего доклада – получить отклик и, возможно, какую-то дополнительную информацию, которую я мог упустить, по заинтересовавшему меня противопоставлению.

 

{Что такое онтология? / Что я понимаю под онтологией?}

 

Когда специалисты по информатике, инженерии знаний, семантике говорят «онтология», они имеют в виду

- либо некоторую структуру, которая интерпретируется как модель/отражение области знаний

- либо такую область знаний, структурированную особым образом.

Т.е. либо как билатеральную, либо как унилатеральную сущность, но так или иначе в рассмотрение вовлекается некоторая структура, которую принято приписывать онтологиям.

Что же это должна быть за структура?

По сути, это множество (конечное) с определенными на нем отношениями, в числе которых имеется отношение строгого порядка, и это отношение получает интерпретацию как родовидовое.

Строгий порядок = антирефлексивное антисимметричное транзитивное отношение.

(Частичный) порядок = рефлексивное антисимметричное транзитивное отношение.

 

ИЛЛ.1 – ТАКСОНОМИЯ (с несколькими экземплярами)

 

На первой иллюстрации для примера приведена онтология, с которой я работал в начале 90-х гг., создавая простенькую, игрушечную вопросно-ответную систему YAWA. Она несколько обновлена. Это изображение в виде ориентированного графа, ориентация которого задается относительным расположением узлов по вертикали. В качестве имен узлов взяты, где можно, слова естественного языка (в данном случае английского).

 

Онтология, в которой определено только родовидовое отношение, называется таксономией.

Но можно добавить и другие отношения, как это изображено дополнительными дугами трех типов на второй иллюстрации («быть главой государства» - имеется в виду функциональное отношение «быть первым лицом в государстве», то, что называется national leader, «быть президентом», «быть премьер-министром»).

 

ИЛЛ. 2 – ТАКСОНОМИЯ , ГДЕ ДОБАВЛЕНЫ НЕСКОЛЬКО ОТНОШЕНИЙ (между экземплярами)

 

Определив онтологию в общем виде, я хотел бы обратить ваше внимание на то, что существует некоторое варьирование в содержании этого понятия. Говоря об этом, я буду опираться прежде всего на формальную сторону вопроса, и только потом добавлять содержательную интерпретацию.

Во-первых, минимальным элементам или некоторым из минимальных элементов в отношении (строгого) порядка может быть придан особый статус, т.е. они будут рассматриваться как совершенно особые элементы множества. Речь идет о том, что нижние ярусы в родовидовой иерархии интерпретируются как экземпляры (в другой терминологии - индивиды), тогда как все остальные являются классами (в других терминах – понятиями, категориями).

Тогда и родовидовое отношение расщепляется на два частичных отношения: одно из них устанавливается между классами, и именно оно в первую очередь получает право называться родовидовым, родовидовым в собственном, узком смысле слова, а второе устанавливается в парах класс – экземпляр и обозначается как «принадлежность экземпляра классу».

Во-вторых, может быть наложено то ограничение, что все отношения, кроме выделенного ранее родовидового (в широком смысле), устанавливаются исключительно между экземплярами (а не между классами или не между классами и экземплярами).

 

Собственно, наша иллюстрация изображает именно этот случай.

ИЛЛ. 2

 

Назовем такие отношения межэкземплярными. Присутствие данного ограничения – типовой случай для языка Web Ontology Language – сокращенно и немножко нелогично OWL (где отношения называются Properties и они могут связывать, помимо экземпляров, текстовые строки, таз. литералы, и численные значения с размерностью (data values), но, во всяком случае, не классы).

Правда, в модели онтологии Protégé, которая во многом ориентирована на OWL, во многом, но не во всем, допускаются также отношения между экземплярами, с одной стороны, и классами, с другой стороны (Winery – location – Wine region), но лично мне это решение представляется нелогичным.

Таким образом, во множестве, на котором определена онтология, межэкземплярные отношения строятся на том подмножестве, которое представляет собой экземпляры. Если введенные межэкземплярные отношения осмысленны (а в онтологии других и не может быть), то можно ожидать, что области первых элементов в соотносимых парах (так сказать, точек отправления) и вторых элементов в этих парах (по той же аналогии, точек прибытия) соответствуют некоторым классам онтологии.

ИЛЛ. 2.

Ну, например, все точки отправления для отношения «быть главой государства» принадлежат классу STATE и, более того, для каждого элемента этого класса предполагается участие в данном отношении в качестве точки отправления. Аналогично, все точки прибытия для этого отношения принадлежат классу NATIONAL LEADER и для каждого элемента этого класса предполагается участие в данном отношении в качестве точки прибытия; если у нас нет класса, компактно собирающего в себе точки отправления или точки прибытия для некоторого отношения, возможно, есть смысл его задать дополнительно, даже несмотря на то, что имя такого класса не будет соответствовать никакому устойчивой терминологической (и шире – лексической) единице. Так в данной онтологии появились классы (STATE THAT HAS a CHANCELLOR), (STATE THAT HAS a PRESIDENT), (STATE THAT HAS a PRIME MINISTER)

 

Области точек отправления (которые можно было бы также назвать областями определения - как в мат. анализе говорят о функциях) на жаргоне Web Ontology Language называют доменами, domains; области точек прибытия, соответственно ranges (в мат. анализе – множества значений); наверное, это можно перевести как диапазоны.

 

В обобщенном виде, в абстракции от конкретных пар экземпляров, межэкземплярные отношения можно определить (в очень свободном смысле слова) как упорядоченные пары «домен – диапазон». И эти абстрагированные определения на нашей диаграмме можно графически изобразить линиями, которые соединяют класс-домен с классом-диапазоном, не забывая при этом, что за одной такой стрелкой стоит множество стрелок соединяющих попарно отдельные экземпляры из этих классов.

 

ИЛЛ. 3: ТАКСОНОМИЯ с определением межэкземплярных отношений.

 

Сами отношения могут рассматриваться как элементы таксономии, подобные классам, и могут выстраиваться в иерархию, что показано на следующей иллюстрации.

 

ИЛЛ. 4.

 

Стремясь называть вершины онтологического графа везде, где это возможно, словами (устойчивыми словосочетаниями) естественного языка, мы оказываемся в ситуации, когда нам одни и те же слова требуются как для обозначения обычных, субстанциальных классов, так и для обозначения иерархизированных отношений. (отмечу попутно, что речь идет о так называемых реляционных существительных) Чтобы отличить имена отношений от имен обычных классов, к первым здесь добавлено R после подчеркивания.

 

Но интересно, как будут выглядеть иные отношения, кроме родовидового и межэкземплярных? Есть ли потребность связывать отношениями классы, и что из этого получается.

 

Можно, допустим, рассмотреть функциональное отношение «руководить» которое будет соединять классы:

National Leader и State

Head of Government и Government

Chancellor и [State that has a Chancellor]

 

ИЛЛ. 5 ТАКСОНОМИЯ с обозначенными межпонятийными отношениями.

 

имея в виду, что начальником, главным в каждой стране является некто, называемый National Leader, начальник в Government называется в общем случае Head of Government, а не, допустим, Manager of Government или Governor of the Country; для третьего примера я разумного комментария, который бы обосновывал полезность соотнесения этих понятий пока что не вижу, но, вне всяких сомнений, между этими двумя классами устанавливается отношение точно такой же природы, что и в первых двух парах.

 

Обратите внимание, линии, соединяющие соотносительные классы имеют здесь иной смысл, не тот же, что на предыдущей диаграмме (ИЛЛ. 4). Если там они связывали домен, т.е. множество точек отправления, с диапазоном, т.е. множеством точек прибытия, то здесь они связывают каждый раз отдельную точку отправления с отдельной точкой прибытия.

 

То есть можно заметить, что эти отношения – отношения между классами – нередко носят метаязыковой характер, они могут описывать существенные признаки понятий (играть особую роль в описаниях терминологических систем, а не, допустим, актуальной ситуации в некоторой сфере жизни) и, несомненно, будут необходимы для правильной интерпретации текста на естественном языке в системах для его автоматической переработки.

 

Так, в моделях онтологий, разрабатываемых коллективом под руководством Б.В.Доброва и Н.В.Лукашевич, - онтологии, которые называются РуТез и Онтология по естественным наукам и технологиям, вообще нет отношений между экземплярами. Есть только отношения между классами, но их число ограничено: родовидовое, партитивное, общеассоциативное (которое по сути дела интерпретируется как отношение обусловленности) и квазисинонимия. То есть это по характеру отношений, которые там вводятся, - безэкземплярные онтологии. Никто не мешает «населять» онтологию экземплярами, но уже введенные отношения не будут их соединять нетривиальным образом.

Назначение онтологий РуТез и Онтологии по естественным наукам обозначено так: «информационно-поисковые задачи такие как индексация и поиск документов, автоматическая рубрикация, поиск ответов на вопросы, поиск похожего документа».

Сходная ситуация в онтологии OMEGA (группа Eduard Hovy, введены отношения IS-A, PART-OF, SUBSTANCE-OF, ELEMENT-OF, а также так называемые «побочные» THEME, INSTRUMENT, PERTAINS-TO)

 

Очень возможно, что для создания полезных полнофункциональных приложений нужно создавать онтологии, в которых используются оба вида отношений.

Не исключено также, что лишь недостаток информации помешал мне заметить, что онтологии OMEGA или использовавшаяся при ее создании MikroKosmos на самом деле соединяют в себе эти два вида отношений – но при моем знакомстве с ними я обнаружил только отношения между классами, характерные для безэкземплярных онтологий.

 

Для представления смысла отдельного предложения может потребоваться сеть, в которой придется сочетать оба типа отношений.

 

В нашей онтологии можно также ввести отношение «возглавлять» как нефункциональное, и это отношение будет представлено всеми парами классов, указанными при вводе отношения «руководитель», а также парами

President – State That Has a President

Prime Minister – State That Has a Prime Minister

Вообще говоря, здесь указываются только нетривиальные межпонятийные отношения в данной онтологии. К тривиальным относятся такие отношения, которые могут быть получены из существующего операцией «снижения»: если отношение R установлено между классами a и b (aRb), и класс x таксономически подчинен a, а y подчинен b, то «снижение» соотносительной пары aRb позволяет установить то же отношение R между x и b (xRb) и между a и y (aRy) [но при этом не позволяет (запрещает?) установить его между x и y]

В нашем примере: будем считать, что класс (ORGANIZATION) объединяет такие сущности, которые обязательно кем-то возглавляются (в нефункциональном смысле). Тогда мы можем установить межпонятийное отношение «возглавлять» (нефункциональное) между классами HEAD и ORGANIZATION. Кажется нормальным допустить возможность «снижения» этого отношения и установления его в парах {ORGANIZATION; возглавлять; X}, где в качестве X может быть взят любой класс из таксономически подчиненных классу HEAD (NATIONAL LEADER, PRESIDENT, PRIME MINISTER, CHANCELLOR}, (имея в виду интерпретацию: «всякий премьер-министр возглавляет некоторую организацию»), а также

установления этого отношения в парах {Y; возглавлять; HEAD}, где в качестве Y может быть взят любой класс из таксономически подчиненных классу ORGANIZATION (GOVERNMENT, STATE…)

В то же время «снижение» по обеим ветвям таксономического дерева, и от HEAD, и от GOVERNMENT, не дает возможности с уверенностью построить соотносительную пару (например, нет смысла объединять таким отношением понятия PRESIDENT и GOVERNMENT (разве что в смысле «некоторые президенты возглавляют некоторые правительства»; но если «снизиться» от (ORGANIZATION) по ветви к введенному дополнительно классу PARLIAMENT, то даже такая интерпретация невозможна, скажем для пары CHANCELLOR и PARLIAMENT).

Разумеется, введенное здесь на скорую руку понятие «снижения» чрезвычайно близко хорошо известному понятию наследования; примечательно только то, что понятие наследования, изначально определенное для классов, может быть, хотя и  весьма своеобразно, перенесено на отношения, связывающие эти классы.

 

И нисколько не подвергая сомнению возможную полезность соединения в одной онтологии двух типов отношений, я хотел бы привлечь внимание к некоторым различиям между ними, которые мне кажутся принципиальными.

Имея в виду, что существует два основных типа онтологий:

первый тип – онтологии с экземплярами и с отношениями, вводимыми между экземплярами;

второй тип – онтологии без экземпляров и с отношениями, вводимыми между классами;

и

признавая существование комбинированных онтологий, я вместе с тем призвал бы к разумному расчленению такого объекта как онтологии, и к раздельному изучению отношений в экземплярных и в безеэкземплярных онтологиях с точки зрения их содержательной природы и, далее, с точки зрения особенностей их выражения в естественном языке.

 

На данный момент я могу предложить только самую предварительную и, к сожалению, несистематическую характеристику отношений в безэкземплярных онтологиях.

 

Во-первых, как мы видели, эти отношения описывают свойства понятий и могут найти языковое выражение в высказываниях с метаязыковой функцией.

См. также, например, отношение «осуществлять функцию в масштабе государства», которое можно обозначить на нашей диаграмме (ИЛЛ. 5), если ввести на ней названия основных ветвей государственного управления (EXECUTIVE, LEGISLATION), которые будут соединены с наиболее общими названиями государственных органов, выполняющих эти функции (GOVERNMENT, PARLIAMENT).

Информационная нагрузка, которая приходится на эти отношения – связывать понятия, а также термины, обозначающие функцию государственного управления и орган, ее выполняющий.

 

Во-вторых, межпонятийные отношения могут представлять собой метаотношения, то есть отношения, соединяющие отдельные введенные ранее отношения – своего рода отношения второго порядка.

В данной предметной области без особых натяжек мне проиллюстрировать это свойство не удалось, но это можно сделать, если обратиться, например, к области физики, точнее механики, точнее кинематики:

 

Экземплярная онтология.

{транспортное средство A; скорость; 100 км/ч}

{транспортное средство B; скорость; 110 км/ч}

{транспортное средство A; ускорение; 20 км/ч2}

 

Безэкземплярная онтология.

{пройденный путь; производная от; скорость}

{скорость; производная от; ускорение}

 

Лингвистика, точнее морфология, точнее морфемика:

 

Экземплярная онтология.

{«писатель»; корень; «пис»}

{«писатель»; суффикс; «а»}

{«писатель»; суффикс; «тель»}

{«читатель»; корень; «чит»}

{«читатель»; суффикс; «а»}

{«читатель»; суффикс; «тель»}

 

Безэкземплярная онтология.

 

{словоформа; часть; корень}

{корень; следовать за; суффикс}

 

Возникает, таким образом, впечатление, что это отношения из двух разных сфер.

Одна – сфера практического знания, сфера баз данных; другая – сфера теоретических/концептуальных знаний, знаний в собственном смысле слова.

 

С этим связана третья особенность отношений, определяемых в безэкземплярных онтологиях: в языковых выражениях для этих отношений именами соотносимых сущностей являются именные группы в генерическом (родовом) денотативном статусе. Что же касается межэкземплярных отношений, то имена соотносимых сущностей употребляются референтно. Это, казалось бы очевидное, обстоятельство может оказаться полезным при семантическом анализе предложений в языках, где референциальные характеристики имен не грамматикализованы, например, в русском. Разница в смысле предложений «Президент возглавляет страну с 2000 года» и «Страну возглавляет президент, избираемый всенародным голосованием раз в четыре года» связана не только с различиями в референциальном статусе имен, но и в содержании главного предиката, который в первом случае получает интерпретацию в экземплярной онтологии, а во втором – в безэкземплярной. Отсюда может проистекать разница в информационной структуре предложения (выявление пресуппозиций, импликаций, соотношение старого и нового).

 

Немало примеров языкового выражения отношений из безэкземплярных онтологий находится в пословицах, разного рода сентенциях (молчание – знак согласия, хлеб – всему голова; бытие определяет сознание; человек - мера всех вещей)

 

Если, проводя классификацию по одному признаку, мы обнаруживаем, что выделяемые по этому признаку классы отличаются и рядом других признаков, это свидетельствует о том, что взятый для классификации признак является существенным.

 

Вообще говоря, изучение отношений заставляет внимательнее посмотреть на семантико-синтаксические свойства реляционных существительных, которые в силу своей двойственности могут обозначать как субстанциальные классы, так и отношения.

 

Нужно тщательнее подбирать имена единиц онтологии, - конечно, хорошо пользоваться словами естественного языка, но нужны некоторые уточнения, в частности, для синсемантических слов, слов с активной валентностью нужно указывать, какая именно валентность учитывается при использовании этого слова в качестве имени отношения (например, head of government – head of which government – или head of government of what country. От этого, например, уточнения при описании класса в безэкземплярной онтологии, будет зависеть, с чем связан данный класс межпонятийным отношением «руководить»)

 

Границы между классами и экземплярами в некоторых отраслях знания не всегда очевидны: например, техника (различия между серийно выпускаемой моделью и ее экземпляром), лингвистика (различия между единицей речи и единицей языка, до некоторой степени – различия между вариантом и инвариантом). Возможно, тот факт, что межпонятийные отношения (из безэкземплярных онтологий) качественно отличаются от межэкземплярных отношений, поможет точнее установить границу между классами и экземплярами (а также между терминами и номенами)

 

Возможны аналогии с иерархией формальных грамматик у Хомского: более простые модели (наподобие автоматной грамматики или безэкземплярной онтологии) напрямую применимы редко, но легче формализуются и более предсказуемы, поэтому предпринимаются попытки использовать их как можно больше.

 

Завершить доклад я хотел бы практическим выводом из предложенного разграничения, который, по моему мнению, сводится к необходимости уметь правильно пользоваться существующими инструментами и понимать их ограничения. То есть правильно понимать, что, если, допустим, в основу представления кладется язык OWL, то не следует рассчитывать, что он приспособлен для передачи межпонятийных отношений. И напротив, строя онтологию для системы пополнения базы данных по результатам обработки текстовых данных, не стоит полагаться на безэкземплярные онтологии. Комбинируя в семантической модели, при необходимости, характеристики экземлярной и безэкземплярной онтологии, следует хорошо представлять границы сферы действия каждой из них, прежде всего, в части возможностей отражения отношений.

 

Адрес для откликов – sko v a l2 003@ma il.ru (убрать все пробелы)