В течение 2007-2010 гг. я с благодарностью принимал
предложения прочитать морфологический и синтаксический разделы курса
"Компьютерный анализ естественно-языкового текста" на кафедре информационных систем в искусстве и гуманитарных науках
Санкт-Петербургского государственного университета.
Вторую половину курса, посвященную, в основном, семантическому уровню, читает профессор
Валерий Шлемович Рубашкин.
С данной страницы можно загрузить презентации, посвященные моим прошедшим лекциям по этому курсу.
Лекция 1 - Введение в дисциплину
Лекция 2 (сдвоенная) - Морфологический
уровень в лингвистических информационных технологиях; Основные понятия
морфологии в компьютерной морфологии; Основные процедуры компьютерной
морфологии
Лекция 3 (сдвоенная) - Компьютерная
морфология русского языка
Лекция 4 - Демонстрация возможностей
MorphWizard (из пакета Dialing, разработанного группой АОТ). Типология методов
морфологического анализа
Лекция 5 (сдвоенная) - Основные
характеристики различных типов формальных грамматик и распознающих устройств
(Формальное определение языка и грамматики. Конечные автоматы и автоматные
грамматики. Иерархия Хомского. Контекстно-свободные и контекстно-зависимые
грамматики. Проблема выбора адекватной грамматики для описания естественного
языка)
Лекция 6 - Конечные преобразователи
Лекция 7 (сдвоенная) - Представление
лексико-морфологической информации средствами Xerox Tools (язык LEXC, интерфейс
командной строки xfst). Регулярные языки и регулярные отношения. Операции над
регулярными языками.
Лекция 8 - Операции над регулярными
отношениями. Информация к практическому заданию по использованию lexc и xfst.
Лекция 9 - Альтернативы Xerox Tools в работе
с конечными преобразователями. Операции над регулярными отношениями. Операции
высокого уровня и дополнительные возможности Xerox Tools. Технология Ispell.
Лекция 10 - Типология методов
морфологического анализа по Н.Н.Леонтьевой. Алгоритм "предсказания"
АОТ. Частеречная разметка: назначение, содержание, разметка в Национальном
корпусе русского языка.
Лекция 11 (сдвоенная) - Омоформы русского
языка. Методы снятия омонимии при частеречной разметке (типология методов,
использование контекстных правил, обучаемые алгоритмы Э.Брилла, общие сведения
о статистических методах). Типы омонимии.
Лекция 12 - Синтаксический уровень автоматического
анализа текста на естественном языке: постановка задачи. Структуры составляющих
как метаязык для формального описания знаний о синтаксическом уровне.
Лекция 13 - Структуры зависимостей как
альтернативный метаязык для формального описания знаний о синтаксическом
уровне, сравнение достоинств и недостатков двух типов синтаксических структур,
понятие синтаксической группы по А.В.Гладкому.
Лекция 14 - Постановка задачи парсинга.
Общие/начальные сведения об организации парсинга для грамматик составляющих.
Пример реализации синтаксического компонента в пакете программ АОТ.
Презентация по 14 лекции дополнена тремя материалами в формате MS Word (в архивах ZIP). Это тезисы по теме "Синтаксическая
неоднозначность", комментированный конспект описания алгоритма
Эрли из книги А.Ахо и Дж.Ульмана "Теория синтаксического анализа, перевода и компиляции"
и конспект лекции, посвященной синтаксическому компоненту системы ЭТАП.
Последнее обновление страницы 11 февраля 2012 г.