Ru | Eng
25 апреля 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | А.В. Рафаева 


А.В. Рафаева (Москва)

Система СКАЗКА как инструмент исследования волшебных сказок

1. Система СКАЗКА представляет собой действующий макет системы реляционных баз данных, совмещающей исследовательские и справочные возможности. Система базируется на фрагменте указателя Аарне-Томпсона (далее АТ). В настоящее время пригодны для автоматической обработки около 500 описаний сказочных типов (АТ 300 – 748*, т.е. все разделы, посвященные описанию волшебных сказок). В качестве среды для реализации системы выбрана система управления базами данных (СУБД) STARLING , первоначально разработанная С.А. Старостиным для решения прежде всего лингвистических задач.
2. Постановка задачи. Система СКАЗКА разрабатывалась как исследовательская система, позволяющая ставить компьютерные эксперименты над текстом указателя АТ. Требовались возможности обработки указателя АТ как текстовой и структурированной информации (обработка описания типа целиком и отдельно по полям БД), возможность в дальнейшем изменять и дополнять систему по мере необходимости (открытая архитектура системы), поиск записей, удовлетворяющих некоторым условиям, выделение таких записей для дальнейшего изучения и сбор статистической информации по вводимому условию. Кроме того, хотелось иметь возможность подключать новые процедуры обработки данных по мере необходимости. Все эти возможности в системе реализованы (частично они предоставляются средой STARLING, частично реализованы в виде отдельных программных модулей, написанных автором), что дало в результате мощное и гибкое средство для анализа текста указателя и извлечения информации, содержащейся в ней в неявном виде.
3. Ядром системы является текст указателя АТ, представленный полностью в виде БД с текстовыми полями. Все компьютерные эксперименты ставятся над этим ядром, к которому подключаются постоянные и временные вспомогательные БД, в которых содержатся:
• Список фольклорных мотивов по указателю С. Томпсона с указанием сказочных типов, в которых встречаются данные мотивы (составляется с помощью программы, разработанной автором по материалам АТ);
• Временная БД, в которые вносятся конкордансы любого слова, заданного пользователем (составляется с помощью программы, разработанной автором);
• Ряд БД, включающих дополнительные сведения о сказочных типах, внесенные исследователем. Каждая такая БД разрабатывается отдельно для конкретных исследовательских задач и связывается с основной БД (ядром).
По мере необходимости система СКАЗКА может изменяться для постановки конкретных компьютерных экспериментов и проверки гипотез.
4. С помощью системы СКАЗКА был поставлен ряд экспериментов, в том числе:
• Эксперимент по полуавтоматическому поиску ряда мотивов в связном повествовательном тексте с помощью ключевых слов ;
• Эксперимент по определению системы родственных отношений в волшебной сказке
• Ряд статистических экспериментов на материале указателя АТ. Результаты последних, к сожалению, едва ли можно признать достоверными.
По мере необходимости система СКАЗКА может быть использована и для других компьютерных экспериментов.
5. В процессе работы с системой СКАЗКА были получены не только результаты конкретных исследований, но и выработан ряд принципов компьютерной обработки фольклорных указателей, а также требований к текстам таких указателей. К примеру, эти принципы использовались для нахождения мотива чрезмерной тоски по умершему в текстах ряда русскоязычных указателей сказок и несказочной прозы, доступных в электронной форме на сайте "Фольклор и постфольклор" http://ruthenia.ru/folklore/ В частности, как выяснилось, для компьютерной обработки более важным фактором является полнота представленной в указателе информации о фольклорных текстах, чем более или менее удачное структурирование таковой.
6. Таким образом, система СКАЗКА представляет собой не только справочную систему для работы с указателем АТ и удачный инструмент для проверки ряда гипотез исследователя, но и полигоном для отработки принципов автоматического анализа не только с фольклорных указателей, но, возможно, и записей фольклорных текстов.
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru