|
|
Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | Г.И. Кустова, О.Н. Ляшевская, Е.В. Падучева, Е.В. Рахилина
Г.И. Кустова, О.Н. Ляшевская, Е.В. Падучева, Е.В. Рахилина Всероссийский Институт научной и технической информации РАН (Москва, Россия)
Семантическая разметка в Национальном корпусе русского языка: результаты, проблемы, перспективы
Тексты Национального корпуса русского языка, относящиеся к периоду с 1960-х годов до настоящего времени, снабжены двумя видами лингвистической разметки: морфологической и семантической. Семантическая разметка является продолжением и расширением морфологической и включает как словообразовательные и лексико-семантические пометы (такие, как ‘отглагольное существительное’, ‘качественное/относительное прилагательное’, ‘диминутив’ и т.п.), так и собственно семантические признаки, по которым слова группируются в соответствующие семантические (тематические, таксономические) классы. Например, глаголам приписываются признаки: ‘движение’, ‘местонахождение’, ‘обладание’, ‘восприятие’, ‘эмоции’, ‘речь’ и др.; прилагательным – признаки: ‘размер’, ‘форма’, ‘цвет’, ‘вкус’, ‘запах’, ‘температура’, ‘место’, ‘время’ и др.; предметным существительным приписываются признаки: ‘лицо’, ‘животное’, ‘растение’, ‘вещество’, ‘инструмент’ и др.; отглагольные существительные наследуют признаки производящих глаголов, отадъективные – производящих прилагательных, кроме того, непредметные существительные могут получать «энциклопедические» признаки: ‘наука’, ‘искусство’, ‘игра’, ‘спорт’, ‘медицина’, ‘право’, ‘политика’ и т.п. Наличие семантической разметки, даже в ее нынешнем, неполном варианте, дает возможность пользователям получать из корпуса примеры языковых употреблений по заданному семантическому признаку (или набору признаков), а также позволяет проверять различные гипотезы и решать разнообразные лингвистические задачи. При этом можно комбинировать морфологические и семантические признаки, т.е. искать вхождения не только слов или словоформ, но и целых конструкций. Вот некоторые примеры запросов: 1) задан поиск конструкций: а) частица ХОТЬ + глагол в форме инфинитива (Хоть плачь); б) частица КАК + глагол СВ в буд. вр. (Как крикнет); в) предлог У + существительное (с признаком ‘лицо’) или личное местоимение в Род.п. + существительное в Им.п. (У нас гости; У Пети грипп); и т.п. Получив выборку примеров, можно выяснить, какие семантические классы глаголов, существительных и т.д. встречаются (а какие – не встречаются) в заданных конструкциях (например, можно установить, встречаются ли ментальные глаголы в конструкции «КАК + глагол СВ в буд. вр.»); 2) выяснить, совместимы ли признак ‘время’ прилагательного и признак ‘лицо’ существительного (на соответствующий запрос будут получены примеры вида: бывший муж; вчерашний гость; давний друг; нынешний начальник; поздний ребенок и т.п.). Работа с представительными выборками примеров, полученными с использованием семантической разметки, является базой для совершенствования самого Корпуса, для решения «внутренних» задач. Одной из таких задач является уточнение семантической классификации и рубрикации: основываясь на семантическом анализе примеров, можно пополнять список семантических помет и уточнять формулировки признаков. Другой важной задачей, стоящей перед разработчиками Корпуса, является создание фильтров для автоматического разрешения многозначности. Разные значения слова часто (хотя и не всегда) относятся к разным семантическим классам и имеют, соответственно, разные семантические пометы (например, ныть: ‘звук’ (Ноет саксофон) / ‘речь’ (Не ной, никто тебя не пожалеет) / ‘физиологическое ощущение’ (Ноет рука)). В машинном словаре, обслуживающем Корпус, слову приписаны сразу все пометы, имеющиеся у его отдельных значений, и затем программа транслирует все эти пометы на любое вхождение слова. Это создает шум при семантическом поиске. Однако, поскольку разные значения слова распределены по разным контекстам и конструкциям, можно для заданного контекста или конструкции с помощью специальной программы (фильтра) автоматически снять все «лишние» пометы, приписанные данному многозначному слову в словаре, оставив единственную нужную. Очевидно, что решение таких внутренних, технических задач, как уточнение семантической рубрикации или разработка фильтров, имеет значительные научные перспективы: оно не только расширяет информационно-поисковые возможности пользователей и повышает качество результатов поиска, но и дает огромный материал для теоретических выводов и обобщений.
|
|
|
|