Автоматический анализ текста на морфологическом уровне

Автоматический анализ текста на синтаксическом уровне

В течение 2007-2010 гг. я с благодарностью принимал предложения прочитать морфологический и синтаксический разделы курса "Компьютерный анализ естественно-языкового текста" на кафедре информационных систем в искусстве и гуманитарных науках Санкт-Петербургского государственного университета.
Вторую половину курса, посвященную, в основном, семантическому уровню, читает профессор Валерий Шлемович Рубашкин.

С данной страницы можно загрузить презентации, посвященные моим прошедшим лекциям по этому курсу.

Лекция 1 - Введение в дисциплину
Лекция 2 (сдвоенная) - Морфологический уровень в лингвистических информационных технологиях; Основные понятия морфологии в компьютерной морфологии; Основные процедуры компьютерной морфологии
Лекция 3 (сдвоенная) - Компьютерная морфология русского языка
Лекция 4 - Демонстрация возможностей MorphWizard (из пакета Dialing, разработанного группой АОТ). Типология методов морфологического анализа
Лекция 5 (сдвоенная) - Основные характеристики различных типов формальных грамматик и распознающих устройств (Формальное определение языка и грамматики. Конечные автоматы и автоматные грамматики. Иерархия Хомского. Контекстно-свободные и контекстно-зависимые грамматики. Проблема выбора адекватной грамматики для описания естественного языка)
Лекция 6 - Конечные преобразователи
Лекция 7 (сдвоенная) - Представление лексико-морфологической информации средствами Xerox Tools (язык LEXC, интерфейс командной строки xfst). Регулярные языки и регулярные отношения. Операции над регулярными языками.
Лекция 8 - Операции над регулярными отношениями. Информация к практическому заданию по использованию lexc и xfst.
Лекция 9 - Альтернативы Xerox Tools в работе с конечными преобразователями. Операции над регулярными отношениями. Операции высокого уровня и дополнительные возможности Xerox Tools. Технология Ispell.
Лекция 10 - Типология методов морфологического анализа по Н.Н.Леонтьевой. Алгоритм "предсказания" АОТ. Частеречная разметка: назначение, содержание, разметка в Национальном корпусе русского языка.
Лекция 11 (сдвоенная) - Омоформы русского языка. Методы снятия омонимии при частеречной разметке (типология методов, использование контекстных правил, обучаемые алгоритмы Э.Брилла, общие сведения о статистических методах). Типы омонимии.
Лекция 12 - Синтаксический уровень автоматического анализа текста на естественном языке: постановка задачи. Структуры составляющих как метаязык для формального описания знаний о синтаксическом уровне.
Лекция 13 - Структуры зависимостей как альтернативный метаязык для формального описания знаний о синтаксическом уровне, сравнение достоинств и недостатков двух типов синтаксических структур, понятие синтаксической группы по А.В.Гладкому.
Лекция 14 - Постановка задачи парсинга. Общие/начальные сведения об организации парсинга для грамматик составляющих. Пример реализации синтаксического компонента в пакете программ АОТ.
Презентация по 14 лекции дополнена тремя материалами в формате MS Word (в архивах ZIP). Это тезисы по теме "Синтаксическая неоднозначность", комментированный конспект описания алгоритма Эрли из книги А.Ахо и Дж.Ульмана "Теория синтаксического анализа, перевода и компиляции" и конспект лекции, посвященной синтаксическому компоненту системы ЭТАП.  

На начальную страницу

Последнее обновление страницы 11 февраля 2012 г.