|
|
Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | В.А. Плунгян, Д.В. Сичинава
В. А. Плунгян, Д. В. Сичинава (Москва)
ОБ ИДЕОЛОГИИ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА
Одним из важнейших типов разметки, применяемых в Национальном корпусе рус-ского языка, является грамматическая (или морфологическая) разметка, приписывающая словоформе информацию о части речи и о значении всех ее словоизменительных и слово-классифицирующих морфологических грамматических категорий. (Информация о значении грамматических категорий, имеющих аналитическое выражение, в корпусе также, в прин-ципе, может быть отражена, но ниже этот вопрос не будет обсуждаться). Для большей части корпуса морфологическая разметка делается автоматически, т.е. с помощью программ мор-фологического анализа. В меньшей части корпуса (так называемый «эталонный» корпус, или «корпус со снятой омонимией», объемом около 4 млн. словоупотреблений) результаты автоматического морфологического анализа дополнены ручной коррекцией, включающей исправление случайных ошибок и снятие морфологической омонимии. Практически это оз-начает, что в «эталонном» корпусе можно производить точный поиск по граммеме или со-четанию граммем: в отличие от основной части корпуса, на такой запрос пользователь практически не будет получать «шума», т.е. нерелевантных с точки зрения запроса приме-ров. Грамматическая информация, приписываемая словоформам в корпусе, основана на определенных теоретических представлениях об устройстве русской морфологии в фор-мальном и содержательном аспекте. Наиболее полно и эксплицитно эти представления изложены в классических работах А. А. Зализняка, прежде всего в очерке «Русское имен-ное словоизменение» (1967 г.) и составленном на его основе «Грамматическом словаре русского языка» (1977 г.; последнее, исправленное и существенно дополненное издание вышло в 2003 г.). Средства морфологического анализа, используемые в корпусе, собст-венно, в своей основе являются программной реализацией морфологической модели А. А. Зализняка. С точки зрения теории грамматики наиболее интересным аспектом создания кор-пуса является то, какие коррективы в теоретическую модель русской морфологии может внести обращение к данным корпуса по сравнению с традиционным арсеналом – таким, как словарь и грамматическое описание. В триаде словарь – грамматика – корпус именно корпус является новым (но абсолютно необходимым) элементом, именно этот элемент вносит определенные коррективы в модель языка. Основные изменения сводятся к тому, что корпус фактически упраздняет дихотомию «правильного» / «неправильного» (или «допустимого» / «недопустимого»), но, парадоксальным образом, в то же время фактиче-ски упраздняет и дихотомию «реального» / «потенциального». Взамен возникают более надежные и эмпирически более мотивированные понятия «частотного», «маргинального» и «отсутствующего в корпусе». Ясно, однако, что за «отсутствием в корпусе» определен-ной языковой единицы стоят совсем другие грамматические и семантические причины, чем за «запретом» этой формы в нормативной грамматике или словаре. Фактически, кор-пус ставит знак равенства между «неправильным» и «ненужным» (что, впрочем, не озна-чает признания полного тождества этих понятий в теории). Соответственно, морфологическая модель в корпусе должна учитывать два типа поправок к «не-корпусным» моделям языка. С одной стороны, в корпусе шире представ-лены морфологические явления, находящиеся, с точки зрения грамматик, за пределами современного русского литературного языка (но тем не менее достаточно последователь-но фиксируемые даже в письменных текстах): формы «нового звательного» падежа (типа Серёж, ребят), беспадежные формы некоторых склоняемых разрядов слов (например, у первого компонента сочетаний типа (мост через) Москва-реку, Жюль Верна и нек. др.), стяженные формы личных и вопросительных местоимений (типа те, тя, чё, ничё). С дру-гой стороны, многие «потенциальные», но реально не встречающиеся в языке формы должны быть исключены из морфологических правил. Более важным, однако, является даже не это, а то, что корпус позволяет ранжиро-вать существующие грамматические явления по степени употребительности: различать более частотные и менее частотные грамматические формы и конструкции, а также лек-семы, более частотные в определенных грамматических формах и конструкциях. Такое различие в определенной степени устраняет другое традиционное противопоставление – между (асистемным) словарем и (системной) грамматикой, внося в словарь долю грамма-тической регулярности, а в грамматику – долю лексической индивидуализации.
|
|
|
|