Мой доклад «Роль корпуса в создании реалистичных моделей словоизменительной морфологии» на конференции «Корпусная лингвистика-2006» в том виде, в котором он вошел в сборник трудов конференции, находится здесь. В текст, переданный для публикации, внесены два изменения:

- исправлена опечатка (дублирование фрагмента предложения)

- текст сноски, содержащий упоминание материалов данного сайта, оформлен с включением гиперссылки.

 

В дальнейшем здесь будет помещен расширенный вариант статьи «Роль корпуса в создании реалистичных моделей словоизменительной морфологии» и результаты запросов к Национальному корпусу русского языка.

 

ПРОЦЕДУРА ОТБОРА МАТЕРИАЛА

 

Материал для третьего раздела доклада/статьи ("Пример: случай омонимии глагольных форм";  рассматривается омонимия форм 1 л. мн. ч. наст. вр. и кр. страд. прич. наст. вр. муж. р.) отбирался следующим образом:

 

Первоначально был определен список потенциальных омонимов. Отбор осуществлялся из электронной версии словаря "Грамматического словаря русского языка" А.А.Зализняка (далее - Словарь Зализняка), загруженной с сайта starling.rinet.ru.

Алгоритм отбора:
1) глаголы упорядочены по индексам словаря Зализняка
2) из всех глаголов отобраны глаголы "нсв" и "св-нсв", не являющиеся возвратными и не имеющие в индексе "нп"
3) из них исключены глаголы 3, 10, 11 и 14 типа (страд. прич. наст. вр. не образуется у всех глаголов данного типа)
4) далее исключены глаголы 7, 8, 13 типа (даже если страд. прич. наст. вр. образуется, оно отчетливо отличается от формы 1 л. мн. ч.)
5) исключено большинство глаголов 4, 5 и 6 типа, у которых общая (для данного типа) возможность образовывать страд. прич. наст. вр. не реализуется. Основанием для исключения этих глаголов служили комментарии в "Грамматических сведениях" к Словарю Зализняка (с. 102, 105, 111 в издании 2003 г.)
5) Исключены отдельные глаголы:
знать, иметь, весить, значить, стоить, гласить (основание: помета "страд. нет" в Словаре Зализняка)
петь (основание: чутье носителя языка)

Оставлен список из 7101 глагола. Данный список использовался для уменьшения трудоемкости загрузки данных с сайта RUSCORPORA — для того, чтобы получить список допустимых 3 - 4-буквенных концовок анализируемых омонимов и избежать сплошной загрузки с сайта RUSCORPORA всех форм на -АЕМ/-УЕМ/-ИМ/-ЮЕМ/-ЯЕМ, в том числе таких, которые не могут быть омонимами.

В корпусе найдены краткие причастия с 5 разными трехбуквенными концовками (аем, бим, дим, ним, уем) и личные формы с 12 разными трехбуквенными концовками (аем, бим, вим, дим, еем, ним, оем, рим, сим, уем, шим, яем). Итоговая статистика результатов запросов приводится здесь.
 

Последнее обновление страницы 22 января 2007 г. (см. ниже)

К сожалению, не удалось выдержать обещанные ранее сроки электронной публикации расширенного варианта доклада (все планы сдвинулись ввиду серьезных технических трудностей). Этот текст будет выложен на сайт при первой возможности.