Институт мировой литературы им. А.М. Горького ::

Ru | Eng

03 января 2026

Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | А.Е. Поляков

А.E. Поляков (Москва)

Технология подготовки информации в Национальном корпусе русского языка

1. Введение.
Национальный корпус русского языка (http://ruscorpora.ru) представляет собой коллекцию электронных текстов, снабженных обширной лингвистической и метатекстовой информацией. Корпус представляет все разнообразие стилей, жанров и вариантов русского языка XIX-XX вв., а по объему и представительности стоит вровень с такими национальными корпусами, как британский (BNC) и чешский.
Корпус содержит разметку следующих типов информации:
A. Метатекстовая разметка — признаки, характеризующие текст в целом. Сюда входят: автор (имя, пол, возраст), заглавие, дата создания, объем, тематика, тип текста, жанр, сфера функционирования и т.д.
B. Лексическая разметка — признаки, характеризующие отдельное слово. Сюда входят:
1) Грамматические признаки: лемма (словарная форма), часть речи, род, число, падеж, вид, наклонение, время, лицо и т.д.
2) Семантические признаки: таксономический класс, мереология (отношения часть/целое), оценка, каузация, словообразовательные связи и т.д.
В корпусе также используются элементы синтаксической разметки и специальные признаки для некоторых видов текстов (разговорные, драматические, диалектные). В части корпуса сделана более точная разметка, а именно: снята грамматическая омонимия, размечены семантические признаки, расставлены акценты.
2. Принципы представления информации в корпусе.
Формат представления информации в корпусе был разработан с учетом существующих стандартов для кодирования корпусов (TEI, XCES, EAGLES), но в значительной степени ориентирован на стандарты Интернет (HTML, XML). При детальном рассмотрении универсальные стандарты типа TEI оказались слишком сложными и избыточными для массового применения. Поэтому формат корпуса представляет собой подмножество HTML, к которому добавлено несколько специфических тегов для грамматической и структурной информации. Этот формат обеспечивает компактность представления, удобство для восприятия человеком, совместимость с используемым ПО, включая парсер и поисковый движок, возможность автоматизации разметки и легкость конвертирования в другие форматы.
Формат предъявляет минимальные требования к объему и содержанию разметки. Спецификация определяет правила разметки, достаточные для представления существенной информации о тексте, включая:
1) метатекстовые атрибуты;
2) структурные элементы текста (части, главы, абзацы, стихи, сноски);
3) синтаксическую структуру текста (предложения, клаузы, группы);
4) лексическую информацию (грамматические, семантические признаки);
5) элементы оформления текста, специальные символы и т.д.
В основном тексте размечаются только границы абзацев, а также наиболее важные структурные элементы текста (заголовки разделов, стихи, сноски). Метатекстовые атрибуты представляются при помощи стандартных тегов meta. Для синтаксической и лексической информации используются специальные теги, частично заимствованные из TEI (st — предложение, w — слово, cl — клауза, gr — группа), которые не входят в стандарт HTML. Лексическая информация помещается не в отдельные теги, как в TEI, а в атрибуты тега w, поэтому разметка слова имеет вид: слово.
Спецификация определяет формат представления текста на различных этапах обработки, которые различаются объемом и содержанием разметки:
1) текст с минимальной структурной разметкой (без лингвистической);
2) текст с грамматической разметкой с неснятой омонимией;
3) текст со снятой омонимией;
4) выходной формат для Яндекс-сервера.
3. Технология подготовки информации для корпуса.
Технология подготовки текстов для корпуса включает следующие этапы:
1) перевод текста в HTML-формат с минимальной структурной разметкой;
2) грамматическая разметка и снятие омонимии (в части корпуса);
3) метаразметка текстов;
4) преобразование в выходной формат для Яндекс-сервера.
Для поддержки технологического процесса разработан комплекс программ и методик, позволяющих автоматизировать наиболее трудоемкие операции.
На 1-м этапе используются конверторы и макросы для преобразования текстов в формат корпуса. Исходные тексты для корпуса бывают представлены в различных форматах, из которых отметим наиболее распространенные:
1) Простой текст без оформления или с простейшим оформлением (plain text). В этом формате абзацы обычно обозначаются при помощи начальных пробелов, часто сохраняются переносы слов, шрифтовые выделения обозначаются символами _ * и т.д. При переводе в HTML лишние пробелы и переносы убираются, абзацы заменяются на теги

, размечаются структурные элементы (заголовки разделов, стихи), добавляются шрифтовые команды. Для обработки таких текстов разработан набор конверторов и макросов (глобальных замен), позволяющих быстро получить результат в правильном формате.
2) Текст с “богатой” HTML-разметкой, обычно полученный из Интернет. Основная проблема таких текстов — огромный объем избыточной разметки (от 50 до 90%), не относящейся к содержанию текста, а служащей для дизайна. Для таких текстов приходится разрабатывать специальные фильтры, которые удаляют избыточную разметку, но даже после этого часто приходится вручную удалять дизайнерский мусор.
3) Формат RTF (Winword) и форматы других программ подготовки текстов, которые можно преобразовать в RTF (PageMaker, QuarkExpress). Для таких текстов разработан набор макросов и замен, позволяющих получить требуемый код HTML с минимальной разметкой
4) Формат PDF обрабатывается по технологии RTF или как простой текст, в зависимости от сложности и возможностей существующих конверторов.
На 2-м этапе подготовки используются следующие программы:
1) Грамматический парсер (Dialing, Mystem) приписывает каждому слову все возможные грамматические разборы с учетом синтаксического контекста.
2) Грамматический фильтр (Gram.bat) исправляет результат работы парсера: удаляет лишние варианты разбора, помечает маловероятные варианты, добавляет и переставляет граммемы, и т.д.
3) Редактор вариантов для ручного снятия омонимии (Gramedit) позволяет выбирать и редактировать варианты разбора в среде Winword. Результатом работы является текст со снятой омонимией.
На 3-м этапе (метаразметка) используются следующие программы:
1) Таблицы Excel используются для хранения метатекстовых атрибутов и технологической информации, а также для их редактирования и проверки при помощи встроенных средств Excel (фильтры, списки значений).
2) Программы переноса мета-атрибутов между мета-таблицами и текстами. Программа Metas собирает атрибуты из текстов и создает заготовку мета-таблицы, которая далее правится вручную. После окончания правки программа Meta2txt переносит атрибуты из мета-таблиц в реальные тексты. Таким образом, метаразметка имеет итеративный характер.
3) Программа проверки мета-таблиц (MetaTest) сравнивает атрибуты в мета-таблице с нормативной таблицей и помечает неверные значения, которые должны быть исправлены вручную.
Поскольку метатекстовые атрибуты обрабатываются отдельно от самих текстов, то этапы 2 и 3 могут выполняться параллельно и независимо друг от друга. При этом возникает проблема синхронизации между мета-таблицами и текстами, которая решается при помощи указанных выше программ.
На 4-м этапе подготовленные тексты с метаразметкой и иногда со снятой омонимией загружаются на Яндекс-сервер. При этом используются:
1) Конвертор, который преобразует рабочий формат разметки в формат для Яндекса, проверяет некоторые ошибки разметки, переводит имена граммем на латиницу, добавляет видовые пары глаголов для улучшения поиска, и т.д.
2) Программа семантической разметки (Semmarkup) приписывает словам основные семантические признаки по семантическому словарю. Это позволяет осуществить семантический поиск в части корпуса со снятой омонимией.
3) Статистические программы (Gramstat, Metastat) генерируют статистику распределения для грамматических и метатекстовых признаков. Это позволяет обнаружить и исправить ошибки разметки до окончательной загрузки.


	В этом разделе:

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru