|
|
Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | А.Е. Поляков
А.E. Поляков (Москва)
Технология подготовки информации в Национальном корпусе русского языка
1. Введение. Национальный корпус русского языка (http://ruscorpora.ru) представляет собой коллекцию электронных текстов, снабженных обширной лингвистической и метатекстовой информацией. Корпус представляет все разнообразие стилей, жанров и вариантов русского языка XIX-XX вв., а по объему и представительности стоит вровень с такими национальными корпусами, как британский (BNC) и чешский. Корпус содержит разметку следующих типов информации: A. Метатекстовая разметка — признаки, характеризующие текст в целом. Сюда входят: автор (имя, пол, возраст), заглавие, дата создания, объем, тематика, тип текста, жанр, сфера функционирования и т.д. B. Лексическая разметка — признаки, характеризующие отдельное слово. Сюда входят: 1) Грамматические признаки: лемма (словарная форма), часть речи, род, число, падеж, вид, наклонение, время, лицо и т.д. 2) Семантические признаки: таксономический класс, мереология (отношения часть/целое), оценка, каузация, словообразовательные связи и т.д. В корпусе также используются элементы синтаксической разметки и специальные признаки для некоторых видов текстов (разговорные, драматические, диалектные). В части корпуса сделана более точная разметка, а именно: снята грамматическая омонимия, размечены семантические признаки, расставлены акценты. 2. Принципы представления информации в корпусе. Формат представления информации в корпусе был разработан с учетом существующих стандартов для кодирования корпусов (TEI, XCES, EAGLES), но в значительной степени ориентирован на стандарты Интернет (HTML, XML). При детальном рассмотрении универсальные стандарты типа TEI оказались слишком сложными и избыточными для массового применения. Поэтому формат корпуса представляет собой подмножество HTML, к которому добавлено несколько специфических тегов для грамматической и структурной информации. Этот формат обеспечивает компактность представления, удобство для восприятия человеком, совместимость с используемым ПО, включая парсер и поисковый движок, возможность автоматизации разметки и легкость конвертирования в другие форматы. Формат предъявляет минимальные требования к объему и содержанию разметки. Спецификация определяет правила разметки, достаточные для представления существенной информации о тексте, включая: 1) метатекстовые атрибуты; 2) структурные элементы текста (части, главы, абзацы, стихи, сноски); 3) синтаксическую структуру текста (предложения, клаузы, группы); 4) лексическую информацию (грамматические, семантические признаки); 5) элементы оформления текста, специальные символы и т.д. В основном тексте размечаются только границы абзацев, а также наиболее важные структурные элементы текста (заголовки разделов, стихи, сноски). Метатекстовые атрибуты представляются при помощи стандартных тегов meta. Для синтаксической и лексической информации используются специальные теги, частично заимствованные из TEI (st — предложение, w — слово, cl — клауза, gr — группа), которые не входят в стандарт HTML. Лексическая информация помещается не в отдельные теги, как в TEI, а в атрибуты тега w, поэтому разметка слова имеет вид: слово. Спецификация определяет формат представления текста на различных этапах обработки, которые различаются объемом и содержанием разметки: 1) текст с минимальной структурной разметкой (без лингвистической); 2) текст с грамматической разметкой с неснятой омонимией; 3) текст со снятой омонимией; 4) выходной формат для Яндекс-сервера. 3. Технология подготовки информации для корпуса. Технология подготовки текстов для корпуса включает следующие этапы: 1) перевод текста в HTML-формат с минимальной структурной разметкой; 2) грамматическая разметка и снятие омонимии (в части корпуса); 3) метаразметка текстов; 4) преобразование в выходной формат для Яндекс-сервера. Для поддержки технологического процесса разработан комплекс программ и методик, позволяющих автоматизировать наиболее трудоемкие операции. На 1-м этапе используются конверторы и макросы для преобразования текстов в формат корпуса. Исходные тексты для корпуса бывают представлены в различных форматах, из которых отметим наиболее распространенные: 1) Простой текст без оформления или с простейшим оформлением (plain text). В этом формате абзацы обычно обозначаются при помощи начальных пробелов, часто сохраняются переносы слов, шрифтовые выделения обозначаются символами _ * и т.д. При переводе в HTML лишние пробелы и переносы убираются, абзацы заменяются на теги
, размечаются структурные элементы (заголовки разделов, стихи), добавляются шрифтовые команды. Для обработки таких текстов разработан набор конверторов и макросов (глобальных замен), позволяющих быстро получить результат в правильном формате. 2) Текст с “богатой” HTML-разметкой, обычно полученный из Интернет. Основная проблема таких текстов — огромный объем избыточной разметки (от 50 до 90%), не относящейся к содержанию текста, а служащей для дизайна. Для таких текстов приходится разрабатывать специальные фильтры, которые удаляют избыточную разметку, но даже после этого часто приходится вручную удалять дизайнерский мусор. 3) Формат RTF (Winword) и форматы других программ подготовки текстов, которые можно преобразовать в RTF (PageMaker, QuarkExpress). Для таких текстов разработан набор макросов и замен, позволяющих получить требуемый код HTML с минимальной разметкой 4) Формат PDF обрабатывается по технологии RTF или как простой текст, в зависимости от сложности и возможностей существующих конверторов. На 2-м этапе подготовки используются следующие программы: 1) Грамматический парсер (Dialing, Mystem) приписывает каждому слову все возможные грамматические разборы с учетом синтаксического контекста. 2) Грамматический фильтр (Gram.bat) исправляет результат работы парсера: удаляет лишние варианты разбора, помечает маловероятные варианты, добавляет и переставляет граммемы, и т.д. 3) Редактор вариантов для ручного снятия омонимии (Gramedit) позволяет выбирать и редактировать варианты разбора в среде Winword. Результатом работы является текст со снятой омонимией. На 3-м этапе (метаразметка) используются следующие программы: 1) Таблицы Excel используются для хранения метатекстовых атрибутов и технологической информации, а также для их редактирования и проверки при помощи встроенных средств Excel (фильтры, списки значений). 2) Программы переноса мета-атрибутов между мета-таблицами и текстами. Программа Metas собирает атрибуты из текстов и создает заготовку мета-таблицы, которая далее правится вручную. После окончания правки программа Meta2txt переносит атрибуты из мета-таблиц в реальные тексты. Таким образом, метаразметка имеет итеративный характер. 3) Программа проверки мета-таблиц (MetaTest) сравнивает атрибуты в мета-таблице с нормативной таблицей и помечает неверные значения, которые должны быть исправлены вручную. Поскольку метатекстовые атрибуты обрабатываются отдельно от самих текстов, то этапы 2 и 3 могут выполняться параллельно и независимо друг от друга. При этом возникает проблема синхронизации между мета-таблицами и текстами, которая решается при помощи указанных выше программ. На 4-м этапе подготовленные тексты с метаразметкой и иногда со снятой омонимией загружаются на Яндекс-сервер. При этом используются: 1) Конвертор, который преобразует рабочий формат разметки в формат для Яндекса, проверяет некоторые ошибки разметки, переводит имена граммем на латиницу, добавляет видовые пары глаголов для улучшения поиска, и т.д. 2) Программа семантической разметки (Semmarkup) приписывает словам основные семантические признаки по семантическому словарю. Это позволяет осуществить семантический поиск в части корпуса со снятой омонимией. 3) Статистические программы (Gramstat, Metastat) генерируют статистику распределения для грамматических и метатекстовых признаков. Это позволяет обнаружить и исправить ошибки разметки до окончательной загрузки.
|
|
|
|