Институт мировой литературы им. А.М. Горького ::

Ru | Eng

26 декабря 2025

Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | Т.И. Резникова

Т.И. Резникова (ВИНИТИ, Москва)

НКРЯ в сопоставлении с другими общедоступными корпусами
современного русского языка в Интернете

На фоне бурного развития корпусной лингвистики последних десятилетий русский язык долгое время оставался одним из немногих крупнейших языков, не имеющих собственного корпуса текстов, доступного для исследователей всего мира. Нехватка ресурса такого рода способствовала тому, что почти одновременно в рамках различных проектов, часто для решения конкретных исследовательских задач, было создано несколько корпусов русского языка. Однако разные цели, преследуемые авторами, и разные стратегии разработки привели к возникновению довольно различных ресурсов.
В докладе Национальный корпус русского языка (НКРЯ) сравнивается с тремя другими доступными в Интернете корпусами - Хельсинским аннотированным корпусом (ХАНКО), Тюбингенским корпусом русского языка (ТКРЯ) и корпусом текстов русских газет конца 20-го века Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ (корпус ЛОКЛЛ). Обсуждаются состав и объем корпусов (НКРЯ как самая большая, представительная текстовая коллекция; ХАНКО как небольшой, однородный по составу корпус, нацеленный прежде всего на максимальный охват грамматической информации, а не на объем и разнообразие материала; корпус ЛОКЛЛ, представляющий репрезентативную выборку газетных жанров; ТКРЯ, в основу которого лег Упсальский корпус, дополненный рядом других художественных и публицистических текстов). Подробно анализируется лингвистическая и экстралингвистическая разметка корпусов (рассматривается прежде всего морфологическая аннотация четырех корпусов, сопоставляются способы ее реализации, ее детальность и аккуратность; элементы синтаксической и семантической разметки в корпусе ЛОКЛЛ сравниваются с синтаксической и семантической информацией в НКРЯ; обсуждается метаразметка НКРЯ и корпуса ЛОКЛЛ). Сопоставляются поисковые возможности корпусов: параметры, по которым может вестись поиск (возможность поиска по лексеме, группе словоформ/лексем, по грамматическим, семантическим признакам), удобство формирования поискового запроса (возможность выбора значений категорий из заданного списка), возможность поиска в заданном пользователем подкорпусе, характеристики выдачи (размер выдаваемого контекста, наличие ограничений на количество контекстов), соотношение запроса и результатов поиска.
В целом эффективность и удобство того или иного корпуса для пользователя определяется типом исследования, которое проводится на его основе, а также характером и частотностью изучаемого на его материале явления. Надежным ресурсом, дающим точные результаты поиска, является ХАНКО, однако он не подходит для анализа относительно редких языковых феноменов. Корпус ЛОКЛЛ включает необычные типы разметки (например, словообразовательную по морфемной модели слова), его основное неудобство связано с невозможностью поиска более чем по одной словоформе/лексеме или ее свойствам, а также с ограниченностью числа выдаваемых контекстов. ТКРЯ характеризуется существенно большим объемом, чем ХАНКО и ЛОКЛЛ, однако разметка при помощи статистического морфологического анализатора порождает значительное число случаев неправильного разбора; кроме того, отсутствие лемматизации делает невозможным поиск по лексеме всех ее словоформ. Наконец, НКРЯ, как и предполагает статус национального корпуса, является наиболее универсальным ресурсом, позволяющим осуществлять поиск в самых разных типах текстов и в любой их выборке, формулировать запрос по словоформе, лексеме, группе словоформ/лексем, а также по произвольной комбинации грамматических, словообразовательных и семантических признаков словоформ/лексем. В случае поиска по грамматическим характеристикам пользователь имеет возможность получать результаты, точно соответствующие запросу, найденные на ограниченном объеме текстов, или примеры, найденные на всем объеме корпуса, но с включением форм, омонимичных искомым.


	В этом разделе:

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru