Ru | Eng
26 апреля 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | Г.И. Кустова, О.Н. Ляшевская, Е.В. Падучева, Е.В. Рахилина 


Г.И. Кустова, О.Н. Ляшевская, Е.В. Падучева, Е.В. Рахилина
Всероссийский Институт научной и технической информации РАН
(Москва, Россия)

Семантическая разметка в Национальном корпусе русского языка:
результаты, проблемы, перспективы

Тексты Национального корпуса русского языка, относящиеся к периоду с 1960-х годов до настоящего времени, снабжены двумя видами лингвистической разметки: морфологической и семантической. Семантическая разметка является продолжением и расширением морфологической и включает как словообразовательные и лексико-семантические пометы (такие, как ‘отглагольное существительное’, ‘качественное/относительное прилагательное’, ‘диминутив’ и т.п.), так и собственно семантические признаки, по которым слова группируются в соответствующие семантические (тематические, таксономические) классы. Например, глаголам приписываются признаки: ‘движение’, ‘местонахождение’, ‘обладание’, ‘восприятие’, ‘эмоции’, ‘речь’ и др.; прилагательным – признаки: ‘размер’, ‘форма’, ‘цвет’, ‘вкус’, ‘запах’, ‘температура’, ‘место’, ‘время’ и др.; предметным существительным приписываются признаки: ‘лицо’, ‘животное’, ‘растение’, ‘вещество’, ‘инструмент’ и др.; отглагольные существительные наследуют признаки производящих глаголов, отадъективные – производящих прилагательных, кроме того, непредметные существительные могут получать «энциклопедические» признаки: ‘наука’, ‘искусство’, ‘игра’, ‘спорт’, ‘медицина’, ‘право’, ‘политика’ и т.п.
Наличие семантической разметки, даже в ее нынешнем, неполном варианте, дает возможность пользователям получать из корпуса примеры языковых употреблений по заданному семантическому признаку (или набору признаков), а также позволяет проверять различные гипотезы и решать разнообразные лингвистические задачи. При этом можно комбинировать морфологические и семантические признаки, т.е. искать вхождения не только слов или словоформ, но и целых конструкций.
Вот некоторые примеры запросов:
1) задан поиск конструкций:
а) частица ХОТЬ + глагол в форме инфинитива (Хоть плачь);
б) частица КАК + глагол СВ в буд. вр. (Как крикнет);
в) предлог У + существительное (с признаком ‘лицо’) или личное местоимение в Род.п. + существительное в Им.п. (У нас гости; У Пети грипп); и т.п.
Получив выборку примеров, можно выяснить, какие семантические классы глаголов, существительных и т.д. встречаются (а какие – не встречаются) в заданных конструкциях (например, можно установить, встречаются ли ментальные глаголы в конструкции «КАК + глагол СВ в буд. вр.»);
2) выяснить, совместимы ли признак ‘время’ прилагательного и признак ‘лицо’ существительного (на соответствующий запрос будут получены примеры вида: бывший муж; вчерашний гость; давний друг; нынешний начальник; поздний ребенок и т.п.).
Работа с представительными выборками примеров, полученными с использованием семантической разметки, является базой для совершенствования самого Корпуса, для решения «внутренних» задач. Одной из таких задач является уточнение семантической классификации и рубрикации: основываясь на семантическом анализе примеров, можно пополнять список семантических помет и уточнять формулировки признаков.
Другой важной задачей, стоящей перед разработчиками Корпуса, является создание фильтров для автоматического разрешения многозначности.
Разные значения слова часто (хотя и не всегда) относятся к разным семантическим классам и имеют, соответственно, разные семантические пометы (например, ныть: ‘звук’ (Ноет саксофон) / ‘речь’ (Не ной, никто тебя не пожалеет) / ‘физиологическое ощущение’ (Ноет рука)). В машинном словаре, обслуживающем Корпус, слову приписаны сразу все пометы, имеющиеся у его отдельных значений, и затем программа транслирует все эти пометы на любое вхождение слова. Это создает шум при семантическом поиске. Однако, поскольку разные значения слова распределены по разным контекстам и конструкциям, можно для заданного контекста или конструкции с помощью специальной программы (фильтра) автоматически снять все «лишние» пометы, приписанные данному многозначному слову в словаре, оставив единственную нужную.
Очевидно, что решение таких внутренних, технических задач, как уточнение семантической рубрикации или разработка фильтров, имеет значительные научные перспективы: оно не только расширяет информационно-поисковые возможности пользователей и повышает качество результатов поиска, но и дает огромный материал для теоретических выводов и обобщений.
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru