Ru | Eng
27 июля 2024
Почта


 
Архив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отделФундаментальная электронная библиотекаФундаментальная электронная библиотекаАрхив А.М. ГорькогоВиртуальный музей-квартира А.М. ГорькогоРукописный отдел



 

Научная жизнь  | Конференции и семинары  | 2005  | Современные информационные технологии и филология  | Е.А. Гришина 


Е.А. Гришина
Институт русского языка РАН (Москва)

Подкорпус устной речи в Национальном корпусе русского языка

1. В ходе работы над созданием Национального корпуса русского языка возникла не-обходимость и возможность включить в корпус в качестве одной из составляющих подкорпус устной речи. Аналогичная задача ставилась и в разных объемах была ре-шена такими национальными корпусами, как Британский и Чешский. Создатели корпуса приняли решение довести устную составляющую до 10% общего объема корпуса, т.е. примерно до 10 млн словоупотреблений (такой объем сопоставим с объемом устного подкорпуса в BNC). В данный момент объем устного подкорпуса составляет 3,5 млн словоупотреблений и работа по накоплению продолжается.
2. Устная речь включена в Национальный корпус русского языка в виде транскриптов, сделанных в традиционной русской орфографии, со снятыми знаками препинания внутри предложения (остаются только знаки препинания, эквивалентные точке, ос-тальные заменены на слэш). Включение в корпус собственно звуковых файлов, а также текстов, записанных в той или иной фонетической транскрипции, не преду-смотрено. Таким образом, устный подкорпус обслуживает интересы лингвистов на всех «уровнях» языка, кроме фонетического.
3. Разметка устных текстов в Национальном корпусе, с одной стороны, включает в себя традиционные параметры, т.е. метаразметку (характеристику текста в целом) и мор-фологическую разметку (лингвистическую характеристику каждой отдельной сло-воформы), а с другой стороны, имеет свои особенности. Прежде всего это касается т.н. «социологической» разметки текста: автор каждой реплики при записи устного текста маркируется по трем параметрам (пол, возраст, профессия), что в будущем, вероятно, даст возможность отбирать группы высказываний по одному из этих па-раметров или по их сочетаниям (например, можно будет отобрать реплики всех во-енных, женщин старше 55 лет и под.).
4. Устная речь в Национальном корпусе делится на две группы – устная публичная речь и устная непубличная речь. Публичная речь либо предполагает запись на те или иные носители информации и трансляцию их перед аудиторией, либо не проти-воречит такой записи или трансляции. Непубличная речь носит в той или иной сте-пени частный, иногда интимный характер, и не предполагает записи и трансляции.
5. Публичная и непубличная устная речь различаются совокупностью характерных для них речевых жанров. Устная публичная речь имеет развитую систему жанровых самоназваний, например, дискуссия, беседа, творческая встреча, пресс-конференция, конференция, круглый стол, парламентские слушания, семинар и мн. др. Задача составителей корпуса в этой зоне разметки заключалась в том, чтобы пре-одолеть предлагаемое языком (и жизнью) богатство самоназваний и максимально укрупнить классификацию, огрубив жанровую систему. Так, например, в отличие от BNC, мы в данный момент отказались отдельно выделять такой жанр, как ток-шоу, поскольку этот тип публичной речи без остатка распределяется между такими базо-выми публичными жанрами, как беседа или дискуссия.
6. Совокупность жанров в устной непубличной речи устроена существенно иным спо-собом: непубличная речь чаще всего не содержит жанровых самоназваний, пред-ставляя собой нерасчлененную стихию разговора. Здесь задача составителя корпуса состоит в том, чтобы неким единообразным и понятным для пользователя способом назвать разные «участки» этого разговора, помещаемые в корпус как отдельные еди-ницы описания. На данном этапе при классификации устной непублично речи ис-пользуются следующие параметры: 1) ситуативно обусловленный / ситуативно не-обусловленный разговор, 2) развернутый разговор / микродиалог, 3) да-разговор (разговор, ориентированный на согласие) / нет-разговор, 4) ориентация на настоящее (будущее) / ориентация на прошлое. Разные комбинации этих параметров дают раз-ные жанры. Так, например, ситуативно обусловленный микродиалог – это, в частно-сти, стандартный разговор на кухне, в магазине, при встрече с соседями в лифте. Та-кие микродиалоги описываются с помощью обозначения локуса, в котором они про-исходят (например, микродиалог в транспорте). Ситуативно необусловленный раз-вернутый разговор получил название праздный разговор, его локус не указывается; ситуативно необусловленный развернутый разговор, ориентированный на прошлое, – это разговор-воспоминание. Развернутый нет-разговор – это спор, непубличный аналог дискуссии.
7. Общим для классификации публичной и непубличной речи является такой параметр, как степень участия в разговоре собеседников. По этому параметру различаются по-ли-, диалоги / монологи. Заметим, что чистые монологи встречаются только в пуб-личной устной речи (рассказ, лекция, доклад и под.), что касается непубличной речи, то здесь чисто монологические жанры редки (в частности, разговор с самим собой), обычно текст любой степени автономности в той или иной степени перебивается со-беседниками . Однако если степень автономности, по сравнению с другими жанра-ми, достаточно высока, это позволяет выделить такие разговорные жанры, как рас-сказ (ср. рассказ-пластинка у Розановой и Китайгородской), пересказ (сна, фильма, книги и др.).
8. Отдельно следует отметить тот факт, что система жанров устной речи не является закрытой и исчислимой, здесь практически невозможно без насилия над материалом построить стройное непротиворечивое описание, и задача авторов корпуса состоит в том, чтобы предлагаемый пользователям список жанров был относительно неболь-шим и не противоречил языковой интуиции носителя русского языка.
9. В заключение отметим, что все вышесказанное касалось стандартно понимаемой устной речи, основными характеристиками которой, как известно, является та или иная степень спонтанности и невоспроизводимости. Однако очевидно, что совре-менный носитель русского языка существует, среди прочего, в потоке устной речи, которая заведомо не является спонтанной и, кроме того, принципиально рассчитана на неоднократную воспроизводимость. Имеется в виду мультимедийная составляю-щая русской речевой стихии, которая включает в себя, прежде всего, язык кинемато-графа, а также теле- и радиорекламы. В связи с этим разработчиками корпуса в на-стоящий момент выстраивается программа создания мультимедийного подкорпуса в Национальном корпусе, который включит в себя и эту разновидность устной речи. 
 



В этом разделе:
   
 

                                         121069, г. Москва,
                                         ул.Поварская 25а.
                                         info@imli.ru





© ИМЛИ им. А.М.Горького РАН

Интернет-портал ИМЛИ РАН создан при поддержке Программ фундаментальных исследований Президиума РАН «Филология и информатика: создание систем электронных ресурсов для изучения русского языка, литературы и фольклора» (2003-2005) и «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» (2006)

Дизайн и программная поддержка - Компания BINN.
http://www.binn.ru