Мой доклад «Роль корпуса в
создании реалистичных моделей словоизменительной морфологии» на конференции
«Корпусная
лингвистика-2006»
- исправлена опечатка (дублирование фрагмента предложения)
- текст сноски, содержащий упоминание материалов данного сайта, оформлен с включением гиперссылки.
В дальнейшем здесь будет помещен расширенный вариант статьи «Роль корпуса в создании реалистичных моделей словоизменительной морфологии» и результаты запросов к Национальному корпусу русского языка.
ПРОЦЕДУРА ОТБОРА МАТЕРИАЛА
Материал для третьего раздела доклада/статьи ("Пример: случай омонимии глагольных форм"; рассматривается омонимия форм 1 л. мн. ч. наст. вр. и кр. страд. прич. наст. вр. муж. р.) отбирался следующим образом:
Первоначально был определен список потенциальных омонимов.
Отбор осуществлялся из электронной версии словаря "Грамматического словаря
русского языка" А.А.Зализняка (далее - Словарь Зализняка), загруженной с сайта
starling.rinet.ru.
Алгоритм отбора:
1) глаголы
упорядочены по индексам словаря Зализняка
2) из всех глаголов отобраны
глаголы "нсв" и "св-нсв", не являющиеся возвратными и не имеющие в индексе
"нп"
3) из них исключены глаголы 3, 10, 11 и 14 типа (страд. прич. наст. вр.
не образуется у всех глаголов данного типа)
4) далее исключены глаголы 7, 8,
13 типа (даже если страд. прич. наст. вр. образуется, оно отчетливо отличается
от формы 1 л. мн. ч.)
5) исключено большинство глаголов 4, 5 и 6 типа, у
которых общая (для данного типа) возможность образовывать страд. прич. наст. вр.
не реализуется. Основанием для исключения этих глаголов служили комментарии в
"Грамматических сведениях" к Словарю Зализняка (с. 102, 105, 111 в издании 2003
г.)
5) Исключены отдельные глаголы:
знать, иметь, весить, значить, стоить,
гласить (основание: помета "страд. нет" в Словаре Зализняка)
петь (основание:
чутье носителя языка)
Оставлен список из 7101
глагола. Данный список использовался для уменьшения трудоемкости загрузки
данных с сайта RUSCORPORA — для того, чтобы получить
список допустимых 3 - 4-буквенных концовок анализируемых омонимов и избежать
сплошной загрузки с сайта RUSCORPORA всех форм на -АЕМ/-УЕМ/-ИМ/-ЮЕМ/-ЯЕМ, в том
числе таких, которые не могут быть омонимами.
В корпусе найдены краткие
причастия с 5 разными трехбуквенными концовками (аем, бим, дим, ним, уем) и
личные формы с 12 разными трехбуквенными концовками (аем, бим, вим, дим, еем,
ним, оем, рим, сим, уем, шим, яем). Итоговая статистика результатов запросов
приводится здесь.
Последнее обновление страницы 22
января 2007 г. (см. ниже)
К сожалению, не удалось выдержать обещанные ранее сроки
электронной публикации расширенного варианта доклада (все планы сдвинулись ввиду
серьезных технических
трудностей). Этот текст будет выложен на сайт при первой
возможности.