С.А. Коваль

Роль корпуса в создании реалистичных моделей словоизменительной морфологии

1. Постановка задачи

Для каждой из трех основных функций морфологических компонентов в лингвистических информационных технологиях (ЛИТ) – анализа, синтеза и типизации[1], – может быть предусмотрен определенный набор возможностей оптимизации исходных данных за счет обращения к текстовому материалу, т.е. к корпусу.

Цель настоящей публикации – представить основные направления такой оптимизации в построении компьютерных моделей морфологии для русского языка в письменной форме. Перечень этих основных направлений будет дополнен разбором одного конкретного случая использования корпусных данных для оптимизации процедуры морфологического анализа.

2. Объекты приложения корпусных исследований
в оптимизации моделей морфологии

2.1. Морфологический анализ

Серьезной проблемой морфологического анализа является неоднозначность разбора текстовых словоформ вследствие их омонимии. Эта омонимия может иметь внутрилексемный или межлексемный характер.

В первом случае исчисление вариантов и типов омонимии, необходимое для ее разрешения за счет контекста (на следующих шагах анализа) может опираться на грамматические описания. Вот некоторые типы внутрилексемной омонимии в русском языке: совпадение всех форм несклоняемых существительных; совпадение формы вин. падежа с формой им. или род. падежа у существительных и прилагательных; более частные случаи в системе склонения, например, омонимия род. / дат. / пр. падежа ед. числа и им. / вин. падежа мн. числа в формах типа пути, ночи, революции; совпадение тв. ед. и дат. мн. в формах типа белых, рабочих; совпадение 2 лица мн. числа изъявит. наклонения с повелит. наклонением (дышите, объездите, кричите); 1 лица мн. числа наст. времени и кр. формы страд. причастия наст. времени в муж. роде (видим, любим, употребляем); возможность отнести личные формы непрошедшего времени у двувидовых глаголов (напр., реализует, исследуют) как к наст., так и к буд. времени.

Исчисление вариантов межлексемной омонимии должно опираться на специальные исследования. К счастью, для письменной формы русского языка достаточно полное такое исследование уже было проведено в рамках программы создания Машинного фонда русского языка, и итоговый перечень случаев такой омонимии содержится в «Списке омоформ» Ж. Г. Аношкиной, доступном в Интернете[2]. Этот материал уже был подвергнут классификации в работе Т.Ю. Кобзаревой и Р.Н. Афанасьева[3].

В решении проблемы омонимии роль корпуса сводится к выявлению действительной омонимии, реализуемой в актуаль­ном подъязыке, и к отказу от рассмотрения отсутствующей там мнимой омонимии. Достигаемый при этом эффект уменьшения числа ситуаций (редуцирование) омонимии позволит:

·            получить более правильные результаты морфоло­гического анализа. Ввиду несовершенства алгоритмов автоматического снятия омонимии заведомый (и обоснованный) отказ от рассмотрения отдельных случаев омонимии может дать более верный морфологический разбор, чем очередное усложнение общей процедуры снятия омонимии.

·            ускорить морфологический анализ (существенно для работы наиболее компактных вычислительных устройств, ограниченных как по мощности процессоров, так и по объему памяти),

Отсутствие реализации некоторых случаев омонимии, заложенных в языковой системе в целом, чаще всего возможно благодаря преимущественному употреблению тех или иных значений слова в данном подъязыке. Такие значения могут харак­теризоваться отсутствием ряда форм. Например, учет огра­ничений на возможности образования множественного (напри­мер, для слова мощность в подъязыке физики в отличие от подъ­языка публицистики на экономические темы или специализация в подъязыке бизнеса в отличие от подъязыка текстов об органи­зации высшего образования) или единственного (например, инве­стиции в языке специальных текстов по бизнесу и менеджменту в отличие от подъязыка более массовых публикаций на эту же тему) числа может существенно сократить количество грамма­тических неоднозначностей, обнаруживаемых в анализируемых текстах. Такое редуцирование системной омонимии носит «штуч­ный» (полексемный) характер и должно выявляться для каждой лексемы индивидуально.

Другие ресурсы для редуцирования омонимии могут быть связаны с отсутствием в сфере употребления данного подъязыка коммуникативной установки на использование некоторых форм или же наличием формальных требований предпочитать одни формы другим. Примерами могут служить отсутствие потребно­сти в использовании повелит. наклонения в текстах научных работ или в использовании буд. времени в текстах описаний изо­бретений, что позволяет редуцировать соответствующие типы омонимии. Этот вид редуцирования системной омонимии может проявляться в широких пластах лексики и получать подтвер­ждение сразу для больших грамматических группировок слов.

Естественно, решения о редуцировании тех или иных случа­ев омонимии должны приниматься на основе корпуса, репре­зентативного для того подъязыка, который обрабатывается в данной задаче ЛИТ.

2.2. Морфологический синтез

Проблемой морфологического синтеза, сравнимой по своей значимости с проблемой омонимии при анализе, является вариативность в построении тех или иных форм слова. Если эта проблема еще не привлекла внимание исследователей, то только потому, что носит узкоспециальный характер: синтез текста на естественном языке включен в решение сравнительно немногих актуальных задач ЛИТ (прежде всего, в машинный перевод).

Несколько особый случай, хотя и близкий по сути к вариативности, представляют собой ситуации, в которых само образование формы находится под вопросом.

Разумеется, если на выходе из приложения ЛИТ должен быть связный текст (как это имеет место при машинном переводе), то в ситуациях грамматической вариативности следует принимать компетентные решения о выборе из имеющихся вариантов и о порождении/непорождении формы, находящейся под вопросом.

В русской словоизменительной морфологии вариативность представлена немалым числом случаев, и в качестве источника, охватившего большинство из них, может рассматриваться, например, словарь-справочник «Грамматическая правильность русской речи»[4]. В то же время материал указанного справочника неоднороден (многие случаи вариации рукой / рукою, сильней / сильнее – затрагивают те подъязыки, которые едва ли принадлежат к объектам моделирования модулей синтеза в современных ЛИТ). Среди примеров, затрагивающих более обычные для ЛИТ стили и жанры, можно назвать: варианты форм им. и род. падежа мн. числа (секторы / сектора, граммов / грамм), вариативность построения обозначений места с предлогами в, на (в цехе / в цеху), изменяемость/неизменяемость некоторых имен собственных (из Иокогама / из Иокогамы), варианты кр. форм прилагательных в муж. роде (естествен / естественен), личные формы глаголов типа мерить, мучить, формы муж. рода прош. времени некоторых приставочных глаголов с суффиксом -ну- (прибегнул / прибег) и т.п.

Проблематичность образования отдельных форм заслуживает отдельного исследования[5], за отправную точку которого уместно будет взять как «Грамматический словарь» А. А. Зализняка[6] (далее – ГСРЯ), так и современные толковые словари, содержащие обновленные данные о грамматических особенностях лексем[7].

Подчеркнем, что данные указанных словарей, в том числе включенные туда решения о предпочтении или санкциониро­вании / несанкционировании тех или иных форм, основываются на существовавших до сих пор методах работы с лексическим материалом. В настоящее время эти данные должны быть подвергнуты верификации на имеющихся корпусах – как общих («национальных»), так и специализированных, составляемых разработчиками приложений ЛИТ в соответствии с решаемыми прикладными задачами. Такая верификация позволит достичь, в качестве эффекта, естественности порождаемого текста, его соответствия узусу моделируемого подъязыка.

2.2. Морфологическая типизация

Суть процедуры морфологической типизации заключается в том, чтобы за минимальное число запросов к пользователю определить для нового слова, отсутствующего на данный момент в словарной базе данных, его словоизменительный тип. Простейший алгоритм морфологической типизации предусматривает предварительное создание базы данных по всем известным в моделируемой системе словоизменения исходам словоформ, в которой каждый исход ассоциируется со слово­изменительным типом, иногда не единственно возможным, и с грамматическим значением.

Словоформа, которой представлено вновь вводимое слово (например, интранете), проверяется на соответствие ее исхода всем исходам, имеющимся в базе данных, и если вариантов совпадения несколько, то пользователю предлагаются варианты некоторой иной формы (например, им. падеж ед. числа интранет или неопр. форма интрануть), которые синтезируются для всех попавших в рассмотрение словоизменительных типов.

Качество реализации данной процедуры выражается в исключении из диалога с пользователем ненужных запросы к минимуму. Возможность сокращения запросов основывается на выделении среди словоизменительных типов тех, которые ассоциируются с закрытым списком слов языка (подъязыка) и не могут быть задействованы в морфологическом оформлении неологизмов. Какие-либо исследования в этой области нам не известны. Предпосылкой для таких исследований должна слу­жить извлеченная из ГСРЯ в явном виде номенклатура слово­изменительных типов русского языка (которая существует сейчас в виде иерархизированной системы индексов, рассыпанных по словарным статьям[8]), а сами исследования, хотя и могут в значи­тельной степени отталкиваться от сведений о продуктивности / непродуктивности отдельных словообразовательных типов[9], предполагают отслеживание динамики лексической подсистемы, соответствующей избранному подъязыку, т.е. обращение к диахроническому (хотя и в небольшом временном диапазоне) корпусу.

Такая оптимизация будет предусматривать исключение из обслуживающей базы данных исходов словоформ, представляя­ющих закрытые словоизменительные типы, что создаст эффект повышения дружественности процедур типизации по отношению к пользователю. Покажем это на примере с формой интранете обращаясь, в отсутствие необходимых исследований, не к данным корпуса, а к общим представлениям о степени распро­странения тех или иных словоизменительных типов. Представ­ляется, что в отсутствие какой-либо дополнительной (внешней по отношению к этой процедуре) информации нельзя избежать предъявления пользователю обоих вариантов (интранет и интрануть). При этом в случае подтверждения субстантивного варианта еще предстоит определить в диалоге, как выглядит им. падеж мн. числа – интранеты (как лазареты), интранета (как рапорта), или отсутствует, как, вероятно (вопреки ГСРЯ), у генералитет. В то же время оптимизация должна отсечь вопрос о возможной форме интранетья (как прутья), а, в гипотетическом случае подтверждения формы интрануть позволит без дополнительных запросов приписать словоизменительный тип глагола совершенного вида (а не несовершенного, как у замкнутой группы глаголов типа гаснуть, сохнуть).

3. Пример: случай омонимии глагольных форм

Можно привести пример возможного редуцирования омони­мии при разработке процедуры морфологического анализа, кото­рый, как представляется, затрагивает не отдельные подъязыки, а чуть ли не всю систему языка, хотя и не описан в полной мере в лингвистической литературе. Речь идет об уже упомянутой выше (раздел 2.1) ситуации, когда у некоторых русских глаголов форма 1 лица мн. числа наст. времени совпадает с кр. формой страд. причастия наст. времени в муж. роде (видим, любим, употребляем).

С учетом относительно небольшой употребительности крат­ких причастий и следуя собственному языковому чутью, предпо­ложим, что в ситуации этой омонимии говорящие (и, особенно, пишущие) стремятся обходиться вообще без соответствующих форм кратких причастий. Подтверждение этой гипотезы следует искать в корпусных данных; поскольку она формулируется применительно ко всему русскому языку в письменной форме, подходящим для ее проверки корпусом может быть Национальный корпус русского языка[10] (далее – НКРЯ).

Разумеется, для проведения подобного исследования пригодна та часть НКРЯ, где вслед за автоматическим морфологическим анализом была снята грамматическая омонимия (объем этого подкорпуса в момент проведения исследования составлял 5 млн. с/у).

По данным ГСРЯ был выделен набор глаголов, способных, реализуя заложенную в системе языка возможность, порождать интересующий нас тип омонимии. Из этого набора (объемом около 7100 глаголов[11]) в подкорпусе НКРЯ со снятой омонимией было найдены формы 376 глаголов. По грамматической интерпретации найденные в корпусе 1054 употреблений распределились на 1035 личных форм и 18 кратких причастий, т.е. лишь в менее 2 % случаев потенциально омонимичные фор­мы реализуют возможность выступить в роли краткого прича­стия. На общем фоне выделяется лишь форма любим, где из 28 употреблений на долю краткого причастия приходится 6.

Если вспомнить о предложенном ранее принципе индиви­дуального (полексемного) характера редуцирования внутри­лексемной омонимии и исключить из рассмотрения форму любим[12], то для остающихся потенциально омонимичных форм интерпретация в качестве краткого причастия будет реализовы­ваться в немногим более 1% случаев. Верхняя часть списка потенциально омонимичных форм приводится в таблице 1.

Таблица 1. Наиболее частотные формы с потенциальной омонимией «кр. форма муж. рода страд. причастия наст. времени / 1 лицо мн. числа наст. времени» (согласно НКРЯ)

Форма

Всего с/у

Личных форм, с/у

Кр. при­частий, с/у

видим

79

78

1

делаем

37

37

 

понимаем

31

31

 

любим

28

22

6

просим

26

26

 

читаем

24

24

 

начинаем

23

23

 

слышим

21

21

 

предлагаем

19

19

 

получаем

18

18

 

считаем

16

16

 

играем

15

15

 

представляем

15

15

 

называем

13

13

 

продолжаем

12

12

 

желаем

11

11

 

наблюдаем

11

11

 

поздравляем

11

11

 

слушаем

10

10

 

теряем

9

9

 

Разумеется, нельзя всерьез обсуждать статистическую значимость того факта, что, допустим, все 100% из 10 употребле­ний формы слушаем являются личными формами, а не краткими причастиями. Однако, если мы вернемся к общей статистике (лишь в 12 случаях из 1026 омонимия разрешается в пользу краткого причастия), то общая тенденция в языке будет несомненна. И вполне целесообразно будет считать в моделях морфо­логии, применяемых в ЛИТ, что такие глаголы, как делать, понимать, просить, читать, начинать, не имеют в своих парадигмах кр. формы страд. причастия наст. времени муж. рода, что позволит избежать ошибок при разрешении омонимии этих и других доста­точно частотных глаголов (в форме 1 лица мн. числа), а также несколько увеличить быстродействие анализаторов.

Для глаголов, относительно менее частотных в языке в целом, но более употребительных в некоторых подъязыках, окончательный вывод о целесообразности включения данной причастной формы в парадигму должен быть сделан на основе специализированных корпусов необходимого объема.

4. Заключение

Таким образом, в модели словоизменительной морфологии для ЛИТ, в которых требуется однозначная интерпретация входного текста, целесообразно предположить, что ряд русских переходных глаголов несовершенного вида не имеют кр. формы страд. причастия наст. времени муж. рода (хотя существование этой формы допускается имеющимися справочными изданиями), и, следовательно, омонимия «кр. форма муж. рода страд. причастия наст. времени / 1 лицо мн. числа наст. времени» для этих глаголов не имеет места. Однако для установления более точных границ списка этих глаголов требуются дополнительные корпусные исследования.



[1] Полуавтоматическое определение морфологического (словоизме­нительного) типа для слова, добавляемого в существующую лексиче­скую базу данных (о месте этой процедуры в функциональности морфологических компонентов компьютерных систем см. Коваль С.А. Лингвистические проблемы компьютерной лингвистики. СПб., 2005. С. 77-78).

 

[2] www.artint.ru/cfrl/homoforms/index.htm.

 

[3] Кобзарева Т.Н., Афанасьев Р.Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в РЯ на основе словаря диагностических ситуаций // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. семинара Диалог’2002. Т. 2.

 

[4] Граудина Л.К., Ицкович В.А., Катлинская Л.П. Грамматическая правильность русской речи. Стилистический словарь вариантов. 2-е изд., испр. и доп. М., 2001.

 

[5] В пределах личных глагольных форм такое исследование вы­полнено в: Гурин Г. Б. Глаголы с неполной личной парадигмой в совре­менном русском литературном языке (на материале словарей). АКД. Петрозаводск, 2000, где содержится также анализ типов дефектности парадигм.

 

[6] Зализняк А. А. Грамматический словарь русского языка. Словоизменение. 4-е изд., испр. и доп. М., 2003.

 

[7] Например, Современный толковый словарь русского языка / Автор проекта и гл. ред. С. А. Кузнецов. СПб.: Норинт, 2001.

 

[8] Для именных частей речи свод индексов содержится в «При­ложении» к: Зализняк А. А. Русское именное словоизменение. М., 1967, однако там не учитываются индивидуальные особенности лексем (в том числе стилистически ограниченные), комментируемые в ГСРЯ примечаниями курсивом.

 

[9] Это описание системы словоизменения через систему слово­образования возможно в силу очевидных (хотя и не всегда однознач­ных) корреляций между словообразовательными и словоизменитель­ными типами слов. Отметим, что при господствующих сегодня подходах к организации морфологической типизации востребованной оказывается прежде всего информация о продуктивности суф­фиксальных словообразовательных типов.

 

[10] www.ruscorpora.ru.

 

[11] Полный список этих глаголов и некоторые другие данные о проведенном исследовании, не вошедшие в текст для публикации в сборнике, можно найти на этом сайте.

 

[12] Можно предположить, что особое место этой формы связано с ее семантическими особенностями, однако приходится признать отсутствие у нас убедительного комментария к этому явлению.