|
|
Научная жизнь | Конференции и семинары | 2005 | Современные информационные технологии и филология | А.А. Кретов, Д.О. Добровольский
А.А. Кретов (Воронеж), Д.О. Добровольский (Москва-Вена)
ПОДКОРПУС ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА: ПРОБЛЕМЫ, РЕШЕНИЯ, ИСПОЛЬЗОВАНИЕ.
Корпус параллельных текстов (КоПарТ) состоит из множества художественных произведений с их переводами. Корпус включает в себя, с одной стороны, оригинальные русские тексты с их переводом на английский язык, а с другой - английские тексты с их переводом на русский. Он может быть использован при поиске эквивалентов самых различных языковых структур, а также для решения определенных литературоведческих и переводоведческих задач. В настоящее время ведётся активная работа по программному обеспечению корпуса: разрабатываются программные средства выравнивания параллельных текстов, состоящего в обеспечении симметричной и согласованной фрагментации текстов в масштабах предложения; кроме того, создается система управления корпусом, призванная удовлетворить запросы пользователей. На сегодняшний день КоПарТ обеспечен программой ПарТекс (идея А.А.Кретова, руководство И.Е.Ворониной, программирование Д.Спесивцева), имеющей на входе два параллельных текста (оригинал и перевод). Программа позволяет обнаружить асимметрию в параллельных текстах, выдавая на выходе синтезированный текст, в котором последовательно за предложением оригинала следует предложение перевода. В таком синтезированном тексте поиск интересующих пользователя слов может осуществляться штатными средствами обычных текстовых редакторов, например, таких как "Майкрософт Ворд". В Программе же ПарТекс для поиска может быть «подстрока в строке» и на выход подается текстовый файл, содержащий все пары предложений оригинала и перевода, содержащие заданную последовательность символов. Возможен поиск как английских, так и русских слов или словосочетаний. На сегодняшний день КоПарТ представлен следующими текстами.
Название произведения |
Перевод |
Объем (KB) |
Кол-во слов |
Н.В. Гоголь “Тарас Бульба” |
Isabel F. Hapgood |
510 |
89217 |
М.Ю. Лермонтов “Герой нашего времени” |
J. H. WISDOM & MARR MURRAY |
560 |
101070 |
А.П. Чехов “Рассказы” |
CONSTANCE GARNETT: Скучная история, Мужики, Попрыгунья, Дама с собачкой, Человек в футляре, Крыжовник, О любви, Счастье, Мечты, Свирель, Красавицы, Пари, Сапожник и нечистая сила, В сарае, Тоска, На святках, Егерь, Злоумышленник |
357 |
169582 |
Н.В. Гоголь “Мертвые души” |
D. J. Hogarth |
1012 |
174416 |
Р.Л. Стивенсон “Странная история доктора Джекилла…” |
И.Гурова |
280 |
49529 |
Честертон “Неведение отца Брауна” |
Сапфировый крест; Честь Израэля Гау; Око Аполлона. Перевод Н.Трауберг Тайна сада. Перевод Р.Цапенко Странные шаги. Перевод И. Кашкина Летучие звезды. Перевод И.Бернштейн Невидимка. Перевод Е.Алексеевой Неверный контур. Перевод Т. Казавчинской Грехи графа Сарадина. Перевод Н. Демуровой Молот Господень. Перевод В.Муравьева Сломанная шпага. Перевод А. Ибрагимова Три орудия смерти. Перевод В.Хинкиса |
351 |
59600 |
М. Твен Приключения Тома Сойера” (гл. 1-10) |
Н.Дарузес |
787 |
108368 |
Т.Драйзер Сестра Керри |
М.Волосова |
1347 |
227885 |
Джером К.Джером “Трое в лодке…” |
М.Донской, Э.Линецкая |
787 |
130531 |
Р.Л. Стивенсон “Остров сокровищ” |
Н.Чуковский |
737 |
130057 |
Дж. Лондон “Мартин Иден” |
Р.Е.Облонская |
588 |
104031 |
В. Скотт “Айвенго” |
Е.Бекетова; Стихотворные переводы В.Иванова. |
2024 |
339910 |
Ч.Диккенс “Записки Пиквикского клуба”(гл. 1-15 и 30-43) |
А.В.Кривцова, Е.Ланн |
1492 |
300024 |
А.С.Пушкин "Капитанская дочка" |
Marie H. de Zielinska |
375 |
60841 |
Ч.Диккенс Повесть о двух городах |
С. Я. Бобров и М. П. Богословская. Редактор Р. Гальперин |
980 |
167945 |
ВСЕГО: |
|
|
|
|
|