Ru | Eng
20 09 2020
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  |А.Б. Летучий 


А.Б. Летучий (РГГУ, Москва)

Проблемы разметки диалектных текстов

В ходе разметки диалектных текстов возникает ряд специфических проблем, нехарактерных для разметки литературных. В частности, они связаны с тем, что в диалектах появляются некоторые особые типы морфологической омонимии.
Известно, например, что для северных диалектов характерна экспансия формы ей – формы творительного и дательного падежей местоимения она – в другие косвенные падежи, в частности, употребление в роли формы аккузатива и генитива.
Казалось бы, мы должны считать, что в контексте типа ей проведывать ‘проведывать её’ выступает форма дательного падежа в функции винительного. Однако сразу же оказывается, что существует и другой вариант анализа, при котором считается, в диалекте мы видим не отличную от литературной парадигму местоимения, а другое управления глагола.
Ясно, что глагольное управление не всегда прямо обусловлено семантикой глагола и в диалектах может не совпадать с литературным. Оказывается, например, что глагол проведывать не является переходным, ср.: Не ходи́ ко мне́ прове́довать, Я́ тебе бу́ду прове́довать, где местоимение также управляет дательным падежом. Впрочем, местоимение тебе также может изменить свои формы в диалектах.
Во многом эти сложности связаны с низкой частотностью многих форм в текстах. Поскольку диалектный текст исходно являлся устным рассказом, многие глаголы в них управляют местоимениями. Именно местоимения часто имеют морфологические особенности, отличающие их от существительных – а значит, часто мы оказываемся перед выбором, считать ту или иную конструкцию результатом изменения синтаксических свойств глагола или морфологических свойств его актанта.
В частности, отсюда же следует, что многие лексемы встречаются в диалектных текстах только в некоторых формах, часть из которых – диалектные, а часть – литературные, а следовательно, возникают сложности с лемматизацией форм. Ср. следующий отрывок: Па́па оста́л, у́мёр, нас че́тверо оста́лось, с де́душкой дожива́ла, а пото́м ба́бушкой. Де́душка у на́с бы́л жало́сливой-жало́сливой, серде́чной. Мне но́нь-то счита́ется, што я с де́душком пережила́, кака́я жи́знь была́ весё́лая, кака́я интере́сная. Первая форма – дедушкой – литературная форма инструменталя от слова дедушка, которое в следующем предложении встречается уже в словарной форме. Однако в следующем предложении информант образует форму дедушком – форму творительного падежа, которая не может образоваться от того же слова. Ясно, что имеется два варианта – считать вариативной форму творительного падежа или постулировать наличие двух лексем – литературной дедушка и диалектной дедушко – находящихся в свободном распределении (дело усложняется тем, что у другого информанта встречается и форма именительного падежа дедушко, не встречающаяся у данного). Как правило, при разметке отмечались оба варианта лемматизации: в частности, потому, что выяснить соотношение употребительности парадигм, тем более – отдельных словоформ, достаточно сложно.
Проблемы в разметке глагольных словоформ связаны, прежде всего, с приписыванием им вида: в русском литературном языке такая проблема встаёт, прежде всего, для так называемых двувидовых глаголов. В диалектных текстах дополнительные сложности возникают за счёт того, что глаголы с основами, встречающиеся в литературном русском, выступают с префиксами, с которыми не сочетаются в литературном языке, или относятся к другому типу спряжения, ср., например: Как из ружья вверх стрелили; парень-от ишь запопивал; а осенью, и картошку выкопат всё, только сносят. Проблема усложняется ещё и тем, что формы совершенного вида, в частности, будущего времени, в диалектных текстах используются гораздо шире, чем в литературном языке, в частности, в значении хабитуального прошедшего. В некоторых случаях определить видовую принадлежность формы можно по контексту, в частности, по окружающим глагольным формам – но никак не по семантическим свойствам ситуации, которые могут сочетаться с обеими интерпретациями.
Другая сложность связана с синтаксическими свойствами диалектов и устной речи в целом: для устной речи характерен эллипсис актантов. В связи с этим отрывки типа Звё́зды е́сь на нё́бе. Примеча́ют, звё́зды пока́зывают, забы́л, како́й приме́т допускают и интерпретацию звёзды (номинатив) показывают (наше будущее), и (люди) показывают звёзды (аккузатив). Более того, даже предложения, интерпретация которых сомнений не вызывает, часто представляют трудности с точки зрения синтаксического разбора – ср., например, ох уж раньше двадцать-то лет, со значением ‘двадцать лет мне было давно, а теперь уже гораздо больше’. Данное предложение находится в тексте после предложения как в двадцать лет, а значит, не вполне ясно, в каком падеже стоит слово двадцать. Как правило, в подобных случаях из возможных прочтений выбирается такое, которое наиболее близко к словарной форме слова или совпадает с ней.
Проблемы, возникающие при разметке диалектных текстов, связаны с тремя их особенностями: (1) небольшим объёмом, (2) вариативностью и (3) сильными отличиями от русского литературного языка, в частности, от недиалектальной устной речи. При этом в разборе диалектного текста можно руководствоваться одной из двух стратегий:
1) «Литературный словарь»: например, формы типа дедушком считаются формами слова дедушка, поскольку нежелательно постулировать диалектную лексему, вводя новую единицу словаря.
2) «Литературная грамматика»: например, формы типа дедушком считаются формами слова дедушко (но не формами слова дедушка), поскольку нежелательно вводить новое правило построение формы родительного падежа.
В целом при разметке целесообразно учитывать и ту, и другую стратегию, однако в случаях, когда нельзя доказать ни наличие в диалекте особой лексемы, ни наличие особого правила, выбирается первая стратегия.



 
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru