Ru | Eng
05 декабря 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | С.О. Савчук 


С.О. Савчук (Институт русского языка РАН, Москва)

Принципы метаразметки текстов в Национальном корпусе русского языка

Создание размеченного корпуса предполагает снабжение целых текстов и отдельных словоформ метатекстовой информацией – лингвистической (морфо¬логической, синтаксической, семантической, стилистической), социоло¬ги¬ческой, библиографической и др. Описание целых текстов по определенным пара¬метрам называется в Национальном корпусе русского языка (НКРЯ) метаразметкой.
Метаразметка имеет несколько функций: служит для создания архитектуры корпуса, позволяет контролировать процесс информационного наполнения корпуса, обеспечивает возможность поиска и отбора текстов пользователем для составления подкорпусов по заданным параметрам. Отсюда чем больше набор параметров, по которым характеризуется каждый текст, тем шире возможности поиска текстов для решения различных лингвистических задач.
При разработке базы данных Национального корпуса учитывался как зарубежный опыт создания корпусов, так и принципы описания, разработанные в отечественной типологии текстов и лингвостилистике.
Первоначально в основу описания текстов корпуса была положена классификация, предложенная в рекомендациях EAGLES [1], как наиболее прибли¬женная к решению практических задач и опробованная при разметке ряда корпусов. Принципы этой классификации, в том числе и в применении к русскому языку, подробно рассматривались в работах [2; 3; 4].
Окончательный вариант метаразметки вырабатывался с учетом опыта отечественной стилистики и типологии текстов, а также возможных запросов будущих пользователей корпуса, в результате чего список обязательных параметров описания текстов был расширен за счет традиционных стилистических категорий.
При метаразметке каждый текст описывается по 24 параметрам. Из них 9 относятся к характеристике самого текста: приводится название текста, дата его создания, размер текста в словах, определяется сфера функционирования текста, тема, или предметная область, к которой можно отнести содержание текста (для нехудожественных текстов), хронотоп, или место и время описываемых событий (для художественных текстов и мемуаров), тип текста, жанр художественной литературы, стиль текста. 3 параметра характеризуют автора: указываются его имя, пол, дату рождения (возраст); 3 - возможную аудиторию (возраст, уровень образования, размер аудитории). 4 параметра содержат библиографические данные о тексте и последние 5 параметров представляют служебную информацию, необходимую для учета и организации текстовых файлов в составе корпуса. Значения ряда параметров образуют закрытые списки (например, тип авторства имеет значения «единичный», «коллективный», «обобщенный» и «неизвестный» автор; пол автора может быть либо мужским, либо женским; количество сфер функционирования текстов ограничивается восемью). Другие параметры предполагают открытые списки значений (имя автора, название произведения, тип текста, предметная область, хронотоп), которые пополняются по мере описания новых текстов.
В процессе метаразметки лингвист-эксперт анализирует текст, оценивает его по всем параметрам и заносит информацию о нем в базу данных, либо выбирая значения параметра из заданного списка, либо пользуясь справочными источниками для выяснения био- и библиографических данных. В случае если допускается множественная интерпретация текста по какому-либо параметру, тексту приписывается более одного значения этого признака (в особенности часто эта проблема возникает при характеристике сферы функционирования, жанра, типа текста, его тематики).
Описанная система метаразметки позволяет пользователю отбирать тексты по любому из признаков или их комбинациям и формировать свой подкорпус текстов для решения конкретных лингвистических задач.

Литература

1. Sinclair, J. Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P, 1996. http://www.ilc.cnr.it/EAGLES96/texttyp/texttyp.html
2. Шаров С.А. Представительный корпус русского языка в контексте мирового опыта // НТИ, Серия 2, №6, 8-18. 2003.
3. Sharoff, S. Towards basic categories for describing properties of texts in a corpus. In Proc. of Language Resources and Evaluation Conference (LREC04). May, 2004, Lisbon, Portugal, http://www.comp.leeds.ac.uk/ssharoff/texts/lrec-04.pdf
4. Шаров С.А., Савчук С.О. Типология текстов для представительного корпуса // Материалы Международной конференции Corpora-2004. СПб, 2004
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru