Ru | Eng
05 декабря 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | Н.Л. Дич 


Н.Л. Дич
Институт лингвистических исследований РАН
(Санкт-Петербург)

Особенности подготовки текстов XIX века для Национального корпуса русского языка

В докладе будут рассмотрены некоторые особенности текстов XIX века в Национальном корпусе русского языка и проблемы, связанные с их подготовкой.
Особенности подбора текстов. Корпус текстов XIX века отличается от корпуса современных текстов пропорциями, которые составляют в нем тексты различных сфер функционирования и жанров. Это обуславливается, во-первых, спецификой эпохи (напр., отсутствуют записи устной речи), а во-вторых, – доступными нам источниками текстов (коллекция Машинного фонда ИРЯ РАН и электронные библиотеки). Основной объем корпуса XIX века (около 80 %) составляют художественные тексты различных жанров и типов. Публицистика представлена мемуарами, очерками и критическими статьями Основные направления научной литературы в корпусе XIX века – философия, история, литературоведение и лингвистика. Кроме того, в корпус вошли религиозные и бытовые тексты (личная переписка, дневники и записные книжки). Пока никак не представлены официально-деловая, юридическая, а также производственно-техническая литература.
Особенности метаразметки. Поскольку многие жанры и типы текстов в XIX веке еще только формируются, применение современной жанровой классификации зачастую оказывается затруднительным. В пограничных случаях используются двойные пометы (напр., повесть/роман). Если тип текста указан автором в самом названии произведения или его подзаголовке, то, как правило, тот же тип приписывается произведению при метаразметке, даже в тех случаях, когда в современной науке соответствующие термины подразумевают нечто иное (ср., напр., современное понимание романа и "Роман в письмах" А.С. Пушкина).
В литературе XIX века зачастую сложно провести границу не только между типами текста (рассказ/повесть, рассказ/очерк), но и между разными сферами функционирования: художественной литературой и публицистикой, публицистикой и наукой и т.п. В этих случаях при метаразметке также используются двойные пометы.
Проблема устаревших форм слов. Во многих из использованных нами текстов сохранены особенности правописания (а также произношения) XIX века, напр.: цаловать, зайчий и т.п. Кроме того, тексты содержат множество ныне устаревших форм слов, которые по больше части отсутствуют в словаре автоматического анализатора. Это означает, что при поиске лексемы в корпусе с неснятой омонимией, контексты, содержащие эти устаревшие формы, не будут выдаваться пользователю. Вопрос о том, какие из этих форм следует добавить в словарь, требует отдельного обсуждения.
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru