Ru | Eng
04 декабря 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | Б.В. Орехов, С.Г. Коган 


Орехов Б.В., Коган С.Г. (Уфа)

Опыт применения технологии хранилищ данных и OLAP
в авторской лексикографии
(на примере словаря языка Ф.И. Тютчева)

Технология хранилищ данных и многомерного OLAP анализа (OLAP - от англ. OnLine Analytical Processing) была разработана чуть более десяти лет назад и успешно применяется аналитиками-экономистами. В основе концепции OLAP лежит принцип многомерного представления данных. Многомерное концептуальное представление выглядит как множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению.
Такая технология может оказаться крайне полезной при обработке столь обширного и разнообразного по своим характеристикам материала, как словарный, где слово также может быть описано с каких угодно позиций (семантика, грамматика, прагматика), повторяющихся для единиц словаря. В перспективе OLAP может стать программной базой для создания удобных в использовании электронных словарей универсального типа, собирающих всю возможную и необходимую исследователю информацию о слове. При этом для аналитика не будет составлять трудности получать доступ именно к тем данным, которые ему требуются в данный момент.
Однако примеры применения OLAP в лексикографии и вообще в исследованиях филологического цикла нам неизвестны. Тем не менее, использование программных продуктов, позволяющих создавать многомерные хранилища данных, тем более рекомендуемо, что выпускающей их корпорацией Microsoft предусмотрены академические лицензии, дающие возможность научным учреждениям приобретать программное обеспечение по низким ценам, доступным даже для малофинансируемых институтов.
Так как технология OLAP первоначально разрабатывалась все же для бизнес-аналитиков, имеющих дело со специфическим материалом, существуют определенные трудности в построении хранилища данных из словарной информации (например, технология, разработанная Microsoft, не позволяет использовать текстовые меры). В докладе они будут подробно рассмотрены, а также будут предложены пути их решения.
Применение технологии OLAP на лексикографическом материале получит в докладе освещение на примере Электронного словаря языка французских стихотворений Ф.И. Тютчева. В качестве измерений здесь выступает совершенно разнообразная информация (значение слова, грамматическая характеристика, семантическая отнесенность, контекст и т.д.), анализ которой позволит решить целый ряд интереснейших проблем, связанных с творчеством Ф.И. Тютчева.
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru