|
|
Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | С.Св. Волков, В.П. Захаров
Волков С.Св., Захаров В.П. (Санкт–Петербург, ИЛИ РАН)
КОРПУС ТЕКСТОВ XVIII ВЕКА (М.В. ЛОМОНОСОВ)
1. Проект направлен на создание электронного корпуса русских текстов XVIII века. Создание такого корпуса давно представляется актуальным и научно значимым т.к., во–первых, позволит решить проблему сохранения уникальной книжной коллекции – редких печатных изданий XVIII в., создания де-факто сохранного фонда, и, во–вторых, обеспечить широкий и свободный доступ к совокупности текстов XVIII века для многоаспектного и удобного пользования ими. Такой корпус текстов охватит основную массу созданных в XVIII в. печатных текстов на русском языке и составит свод текстов самых разнообразных жанров (в первую очередь – государственные документы, художественные тексты, публицистика, переводы, научная литература, памятники деловой письменности). Хронологические рамки привлекаемых текстов устанавливаются с 1710 года (введение гражданской азбуки в России) по 1801 год. Следует отметить, что, несмотря на большое количество текстов XVIII в. и их жанровое разнообразие, задача создания такого корпуса представляется реально осуществимой. Массив текстов XVIII века уже достаточно хорошо описан, изучен и библиографирован. Представляется целесообразным проводить работы по созданию корпуса текстов XVIII века в Петербурге. 2. Первым составным элементом проектируемого корпуса текстов XVIII века, начальной фазой его формирования станет корпус текстов М.В. Ломоносова, работы над которым идут в настоящее время в Институте лингвистических исследований РАН (Санкт–Петербург). Корпус М.В. Ломоносова включит а) электронную научную библиотеку (ЭНБ) текстов М.В. Ломоносова; б) информационно–поисковую систему; в) корпус текстов с метатекстовой и автоматической морфологической разметкой; г) электронный полипараметрический словарь «М.В. Ломоносов». 3. Электронная научная библиотека (текстотека) М.В. Ломоносова – электронная коллекция, которая включит а) все тексты, принадлежащие М.В. Ломоносову, в т.ч. и на латинском и немецком языках, а также б) иноязычные источники переводов М.В. Ломоносова, в) воспоминания современников о Ломоносове, г) исследовательскую и справочную литературу, в т.ч. энциклопедический словарь «М.В. Ломоносов»; д) художественные тексты и публицистику; г) библиографическую базу данных. Электронная научная библиотека будет разрабатываться в традициях петербургской лингвистической школы Б.М. Эйхенбаума, Б.В. Томашевского и Д.С. Лихачева: тексты воспроизводятся с максимальной полнотой и точностью, все тексты снабжены точными метаописаниями (паспортами текстов). Реалии XVIII века, устаревшие слова, специальная лексика, топонимика и антропонимика получают подробные культурно–исторические комментарии. В настоящее время участники проекта готовят к размещению в сети Интернет тексты естественнонаучных произведений М.В. Ломоносова (1733—1746 гг.) на русском языке, в 2006 году планируется выставить тексты естественнонаучных произведений М.В. Ломоносова на латинском языке. Источником текстов выступает Академическое полное собрание сочинений М.В. Ломоносова в 10 тт. (1950 – 1957) под редакцией С.И. Вавилова; в электронную библиотеку также будут обязательно включены тексты, изданные при жизни М.В. Ломоносова. Свое место в корпусе займет и абсолютно новый, ранее не изученный и не описанный языковой материал – маргиналии М.В. Ломоносова. 4. Корпус текстов М.В. Ломоносова будет представлять собой массив аннотированных (размеченных) языковых данных. Решения, принятые при разметке в корпусе, основываются на грамматической модели русского языка XVIII века, созданной Ю.С. Сорокиным и Л.Л. Кутиной для «Словаря русского языка XVIII века». Наибольшую трудность при разметке создается тем, что тексты созданы в период отсутствия общелитературной нормы. Особое значение имеет информация о «нестандартности», маркированности, определенных особенностях словоформ, характерных только для идиолекта М.В. Ломоносова На данном этапе осуществлена экспериментальная морфологическая и метаязыковая разметка разметка ранних произведений М.В. Ломоносова «О вольном движении воздуха, в рудниках примеченном» и «Наивящего примечания достойные электрические опыты В докладе будет сообщено о результатах экспериментальной разметки и приведены ее примеры. 5. Электронный словарь М.В. Ломоносова будет представлять собой полный универсальный многопараметровый историко-культурный словарь тезаурусного типа, объединяющий в себе исторический толковый, исторический терминологический, историко-культурный словари, словарь языка писателя и поэта, словарь сочетаемости слов, а на последующих этапах осуществления проекта - частотный и идеографический словари. Задача словаря — систематизированное представление всего лексико-фразеологического богат¬ства произведений М.В. Ломоносова как отражающего сложившееся мировоззрение и личность ученого и, одновременно, характеризующего эпо¬ху 40-60-х гг. XVIII в. Основными конституирующими признаками этого лексикографического труда будут следующие: 1) полиязычность словаря: он включит всю лексику всех произведений М.В. Ломоносова, в том числе написанных на немецком и латинском языках; это позволит показать пользователю Словаря интеллектуальный, нравственный, эмоциональный потенциал М.В. Ломоносова как истинно русского мыслителя и, одновременно, как ученого, глубоко интериоризировавшего культуры античности и Западной Европы нового времени; 2) совмещение лексикографических характеристик словаря ученого (не представлен в русской лексикографической традиции), словаря писателя и словаря поэта; 3) построение такого семантического описания слова (словарной дефиниции), которое непротиворечиво системно отразит общеязыковое, терминологическое, эстетическое и индивидуально-личностное содержание; 4) максимально полноценная, эксплицитная демонстрация сочетаемости слова; 5) особая значимость иллюстраций, цитат, показа образцов словоупотребления в текстах; 6) система разнообразных репрезентативных указаний, отсылок и сопоставлений словоупотребления для параллельных текстов, написанных на русском, латинском или немецком языках. Осуществление такого глобального проекта в XXI веке потребует применения новых, современных информационных технологий с размещением созданных материалов в сети Интернет. При работе со словарем пользователь будет возможность производить поиск по лемме и по словоформе в рамках следующих алгоритмов: а) словоформа – полный реестр контекстов данной словоформы в текстах Ломоносова; б) словоформа – лемма – словарная статья – совокупность форм леммы; в) словоформа – энциклопедическая информация о лемме. Словарь будет выходить отдельными выпусками.
|
|
|
|