|
|
Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | Н.Л. Дич
Н.Л. Дич Институт лингвистических исследований РАН (Санкт-Петербург)
Особенности подготовки текстов XIX века для Национального корпуса русского языка
В докладе будут рассмотрены некоторые особенности текстов XIX века в Национальном корпусе русского языка и проблемы, связанные с их подготовкой. Особенности подбора текстов. Корпус текстов XIX века отличается от корпуса современных текстов пропорциями, которые составляют в нем тексты различных сфер функционирования и жанров. Это обуславливается, во-первых, спецификой эпохи (напр., отсутствуют записи устной речи), а во-вторых, – доступными нам источниками текстов (коллекция Машинного фонда ИРЯ РАН и электронные библиотеки). Основной объем корпуса XIX века (около 80 %) составляют художественные тексты различных жанров и типов. Публицистика представлена мемуарами, очерками и критическими статьями Основные направления научной литературы в корпусе XIX века – философия, история, литературоведение и лингвистика. Кроме того, в корпус вошли религиозные и бытовые тексты (личная переписка, дневники и записные книжки). Пока никак не представлены официально-деловая, юридическая, а также производственно-техническая литература. Особенности метаразметки. Поскольку многие жанры и типы текстов в XIX веке еще только формируются, применение современной жанровой классификации зачастую оказывается затруднительным. В пограничных случаях используются двойные пометы (напр., повесть/роман). Если тип текста указан автором в самом названии произведения или его подзаголовке, то, как правило, тот же тип приписывается произведению при метаразметке, даже в тех случаях, когда в современной науке соответствующие термины подразумевают нечто иное (ср., напр., современное понимание романа и "Роман в письмах" А.С. Пушкина). В литературе XIX века зачастую сложно провести границу не только между типами текста (рассказ/повесть, рассказ/очерк), но и между разными сферами функционирования: художественной литературой и публицистикой, публицистикой и наукой и т.п. В этих случаях при метаразметке также используются двойные пометы. Проблема устаревших форм слов. Во многих из использованных нами текстов сохранены особенности правописания (а также произношения) XIX века, напр.: цаловать, зайчий и т.п. Кроме того, тексты содержат множество ныне устаревших форм слов, которые по больше части отсутствуют в словаре автоматического анализатора. Это означает, что при поиске лексемы в корпусе с неснятой омонимией, контексты, содержащие эти устаревшие формы, не будут выдаваться пользователю. Вопрос о том, какие из этих форм следует добавить в словарь, требует отдельного обсуждения.
|
|
|
|