Ru | Eng
05 декабря 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | А.В. Евдокимов 


А.В. Евдокимов (Москва)

Новейшие IT-технологии в литературоведческой работе

Современное программное обеспечение способно самым радикальным образом изменить работу ученого-филолога, да и не только филолога. Сейчас появилась возможность значительно сократить ручную обработку материалов, прежде всего, при сравнении текстовых документов, переводе их на русский язык и создании базы данных. Последнюю можно образовать с помощью обыкновенных локальных поисковиков.
Например, бесплатной утилиты AVSearch (www.avtlab.ru). Чтобы обнаружить в ней нужную информацию, необходимо лишь указать зону поиска в разделе «Выбор папок» и ввести текст запроса.
В обнаруженных документах AVSearch выделяет искомое слово или словосочетание. Точно также действует другая поисковая утилита «Ищейка» (www.isleuthhound.com/ru). Она, в отличие от AVSearch, поддерживает поиск во всех морфологических формах. Если ей задать запрос «человечество», она выдаст результаты, включающие слова «человеческий», «человеческое», «человеческие» и т.д. Нужные материалы она находит практически мгновенно. Скорость «Ищейки» объясняется технологией ее работы – из файлов формата TXT, DOC и HTML в заданной пользователем директории она создает при первом запуске «зону поиска».
Нередко в распоряжении исследователя оказывается несколько редакций одного и того же произведения. Сопоставление их представляет собой достаточно трудоемкий процесс. Если в наличии имеются оцифрованные версии печатных материалов, то сравнение их может провести и машина. При содействии некоммерческой утилиты CSDiff (www.componentsoftware.com).
Она умеет сравнивать содержимое двух TXT-файлов, а также DOC, если в системе установлен MS Word. К старому (по крайней мере, предположительно) варианту необходимо прописать путь в поле Base revision, а новому – в секторе Compared revision. Удаленные слова и конструкции утилита CSDiff подсвечивает красным цветом и перечеркивает, а добавленные выделяет синим. Использование подобной автоматизированной обработки позволяет быстро проследить и, самое главное, не пропустить изменения, произведенные автором в тексте, что чрезвычайно важно при подготовке академических собраний сочинений.
Единственное, что не делает CSDiff – не проводит самостоятельно анализ полученных сравнений. Пока не будет создан искусственный интеллект, осмысливать тексты художественных и не только художественных произведений сможет только человек. Хотя попытки провести такой анализ программными средствами предпринимаются. Так, например, утилита TextAnalyst (www.analyst.ru) способна создавать из текстового файла или даже группы текстовых файлов семантическую цепь, где понятия размещены по степени частотности их употребления. Она генерирует из предложенных пользователем материалов гипертекст, то есть систему пересечений, позволяющих судить о логических взаимосвязях отдельных слов и словосочетаний. Возможности TextAnalyst могут быть весьма полезны при подготовке электронных научных изданий.
Грамматический анализ текстов компьютер тоже способен проводить. Отличным подспорьем для филологов может стать комплекс программ «Рабочее место лингвиста» (www.aot.ru). На сайте его разработчиков можно скачать ознакомительную его версию, которая проработает до декабря 2005 года. В нее входят утилиты для машинного морфологического разбора слова (Morphology), синтаксического (VisualSynan) и семантического (RossDev). Еще одна программа - Checker т фактически представляет собой русско-английский переводчик. Документы она переводит по предложениям. К сожалению, обратного направления перевода, насколько можно понять, Checker не поддерживает.
Определенный прогресс в работе компьютерных переводчиков обусловлен применением в них новых оригинальных технологий. Скажем, в популярной системе МП Promt (www.promt.ru) одноименной санкт-петербургской компании широко используется метод Translation Memory («память перевода»). В этой программе он реализован в виде баз так называемой ассоциированной памяти. Пользователь может сохранить в них удачные и/или отредактированные образцы перевода, которые машина в дальнейшем сама автоматически подставит.
Другая система МП – Retrans Vista (www.retrans.ru) – реализует технологию Translation Memory несколько иначе. Она не использует базы заготовок, потому что ее основной словарь сам такой базой и является. В отличие от переводчика Promt, он состоит в основном из словосочетаний, включающих от двух до семнадцати слов. Дело в том, что Retrans Vista использует метод «семантико-синтаксического, преимущественно фразеологического» перевода, предложенный еще в 1975 году академиком Г.Г. Белоноговым.
Профессиональные лингвисты-переводчики наверняка оценят и функцию интерактивного перевода Retrans Vista. При ее использовании программа переводит текст по предложениям, предлагая для каждого слова и словосочетания несколько вариантов на другом языке. Пользователь может остановиться на одном из них или предложить свой собственный. 
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru