Плунгян В. А. Зачем мы делаем Национальный корпус русского языка? (фрагменты) // Отечественные записки. 2005, № 2(23).


Действительно, в науке о языке подобные фундаментальные проблемы с недавнего времени обсуждаются в основном с помощью такого инструмента, как корпус языка. Это очень эффективный и полезный инструмент (которым могут пользоваться далеко не только узкие специалисты), особенно в том случае, когда корпус является большим по объему и полным по охвату материала, т. е. представляет собой так называемый Национальный корпус языка.

Теперь, наверное, необходимо пояснить, что такое корпус вообще и Национальный корпус в частности. Корпус некоторого языка - это, в первом приближении, собрание текстов на данном языке, представленное в электронной форме и снабженное научным аппаратом. Аппарат, «встроенный» в корпус, обычно называется «разметкой», или «аннотацией», корпуса; корпус тем лучше, чем полнее и совершеннее его аннотация. Собственно, наука о корпусах (а таковая давно уже существует и называется «корпусная лингвистика») - это прежде всего наука о том, как сделать хорошую разметку корпуса.

Хорошая разметка, в частности, позволяет быстро и эффективно найти в корпусе те слова, формы и конструкции, которые нужны исследователю. Ведь в обычном тексте нет никаких сведений, например, о грамматической характеристике входящих в него слов. Если нам нужно найти просто слово (например, слово диван во всех его формах), то с этой задачей неплохо справится и обычный текстовый редактор: достаточно написать в окне поиска цепочку букв ДИВАН, и результат окажется вполне приемлемым. Несколько хуже, правда, дело будет обстоять в том случае, если мы захотим искать, например, все формы русского слова рожь. У этого слова есть беглая гласная, поэтому в некоторых формах его основа выглядит как РОЖ-, а в некоторых - как РЖ-. Но если мы напишем в окне поиска только эти две буквы (РЖ), результат окажется неприемлемым: слишком много других русских слов тоже начинаются на РЖ- (ржавый, ржаветь, ржать, Ржев и т. п.). Стало быть, программа поиска должна понимать как минимум то, какие формы в тексте относятся к одному и тому же слову (например, ржи и рожью, но не ржал и Ржев), т. е. хотя бы частично «понимать» грамматическую структуру данного языка.

Тем более это понимание необходимо, если мы хотим искать не слова, а формы.

Понятно, что Национальный корпус должен быть прежде всего большим: его объем измеряется сотнями миллионов словоупотреблений (для сравнения можно сказать, что, например, полное собрание сочинений Ф. М. Достоевского насчитывает «всего» около двух миллионов слов). Но, кроме того, он - и это даже важнее - должен быть представительным. Иначе говоря, он должен содержать все типы текстов, представленные в данном языке в данный исторический период, и при этом содержать их в правильной пропорции.

Именно поэтому Национальный корпус русского языка [1] не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные и журнальные статьи разной тематики (от общественно-политических до, например, спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку и дневники. Словом, в Корпус попадают образцы практически любого существующего в русском языке письменного дискурса - от статьи современного музыкального критика до инструкции по уходу за кактусами, от рассказов Пелевина до справочника по физике. Более того, составители Корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке (или, если угодно, с современным русским языком) необходимо еще в большей степени расширить рамки Корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа делается.

Почему образцы устной речи так важно иметь в Корпусе? Люди пишут не так, как говорят; в особенности это различие ощутимо для языков с давней письменной традицией, за время существования которой нормы письменной и устной речи успевают разойтись достаточно сильно. Письменная речь всегда более консервативна; к тому же, например, в русском языке письменная традиция формировалась под сильным иноязычным влиянием (первоначально старославянским, впоследствии немецким и французским), которое гораздо меньше затронуло устную речь. В этом отношении русский язык не исключение: сходным образом дело обстоит во многих европейских письменных языках, от чешского до французского, а также во многих письменных языках Азии с древней литературной традицией.

Здесь нельзя не сказать еще об одном типе текстов, активно используемых в Корпусе уже на данном этапе работы. Это тексты так называемой «электронной коммуникации»: переписка по электронной почте, а также всевозможные чаты, форумы, общедоступные электронные дневники (так называемые «блоги» [3]) и т. п. В такого рода текстах мы имеем дело фактически со спонтанным письменным самовыражением, дающим очень своеобразный гибрид устной и письменной речи.

Если посмотреть на пропорции разных типов текстов в Корпусе, то окажется, что доля собственно художественных текстов (проза и драматургия [4]) не так уж велика: она составляет около 40 процентов, т. е. меньше половины. При этом в число художественных текстов включается и мемуарная проза, которая очень интересна и показательна с точки зрения языка, но многими исследователями справедливо квалифицируется как жанр промежуточный между художественной литературой и чистым “non-fiction”. Это во многом противоречит установкам традиционной отечественной филологии (вообще явно или неявно ставившей знак равенства между изучением русского языка и изучением русского литературного языка, т. е. языка художественной литературы). Сам термин «литературный» язык (обозначающий на самом деле скорее не литературный в прямом смысле, а просто общенациональный нормативный, т. е. стандартный язык) отчасти предполагает, что наиболее престижная и «правильная» часть текстов, создаваемых на данном языке, - это тексты художественной прозы

Кому и зачем может быть нужен такой корпус?

Отчасти на этот вопрос ответ был уже дан. Прежде всего, корпус нужен - даже не просто нужен, а необходим - профессиональным лингвистам, тем, кто так или иначе имеет дело с фактами языка, а значит, должен эти факты собирать и систематизировать. Для лингвистов корпус - как минимум неоценимый инструмент, сокращающий затраты времени на техническую работу. На самом деле, конечно, корпус - нечто большее, чем просто техническое подспорье, - это фактически справочно-информационная система по современному русскому языку, позволяющая получать ответы на самые неожиданные вопросы, - более того, позволяющая ставить новые проблемы, которых лингвистика прошлого почти не касалась.

Иное дело иностранец. Его языковое сознание - не русское. И он в высшей степени нуждается в инструменте, открывающем ему максимально широкий (и максимально комфортный) доступ в мир русского языка. Ничего лучше Корпуса современная наука в этом случае предложить не может. Именно в Корпусе преподаватель и студент могут найти ответы на многие интересующие их вопросы - причем такие ответы, которые и носитель не сразу догадается предложить. Поэтому не случайна высокая популярность корпусов в иноязычной среде. И именно от зарубежных русистов (в особенности преподавателей русского языка) мы получали самые заинтересованные и самые эмоциональные отклики.

Поскольку тексты, входящие в корпус, датированы, то нетрудно проследить за хронологией постепенных языковых изменений - за появлением или постепенным угасанием определенных слов, конструкций или грамматических форм (типа «второго родительного» падежа).

Это вызывает к жизни фактически новое направление - своего рода «микроисторическую» лингвистику, в центре внимания которой находятся не глобальные изменения в истории языка, а изменения менее масштабные, занимающие десятилетия (для истории языка это чрезвычайно маленький срок). Нельзя сказать, что такие исследования раньше не проводились вовсе (напротив, их очень любил, например, один из классиков отечественной филологии академик В. В. Виноградов), но с появлением корпусов их объем и эффективность, по моему личному мнению, должны стремительно возрасти.

Что же говорит нам Корпус о современном состоянии русского языка? Опуская специальные подробности, можно заметить следующее.

С точки зрения истории русского языка, нынешний период является чрезвычайно важным и интересным. Это - период языкового сдвига, может быть - языкового слома. Вообще в истории языка периоды относительной стабильности всегда чередуются с периодами относительно быстрых и глубоких изменений. Можно полагать, что русский язык вплотную приблизился к такому состоянию, и вероятность больших изменений в его структуре в ближайшем будущем весьма велика.

Об этом косвенно свидетельствует то, что предыдущие столетия в целом можно охарактеризовать как относительно стабильные. Последний «неспокойный» период для русского языка - это XVII–XVIII века, когда после Петровских реформ в язык хлынул поток европейских заимствований, старославянский язык был значительно потеснен в письменном узусе и завершился переход от среднерусской системы к ранней современной русской.

Нынешнюю историческую эпоху часто сравнивают именно с этим временем. Резкий слом привычных социальных условий. Изменение самого статуса литературного языка. Стилистический, жанровый (и даже орфографический, совсем как в те времена!) разнобой. Поток заимствований (в нынешней ситуации - в основном английских). Какими же могут быть результаты? Не следует ли говорить, что в начале XXI века складывается новая языковая система, по отношению к которой нынешняя будет называться как-нибудь вроде «поздний среднерусский» или «поздний классический период»?

Рано или поздно это должно сказаться на слабых зонах русской грамматической системы. Грамматика пока держится. Я думаю, наиболее уязвимо в русском языке склонение. Тексты Корпуса показывают заметный рост - особенно в устной речи - именительного падежа во всех позициях. Так, числительные уже практически перестали склоняться (совсем не трудно услышать что-нибудь вроде остался без триста двадцать пять тысяч рублей). На наших глазах лишаются форм склонения и географические названия типа Бородино: в повседневной речи фактически единственным вариантом становится рядом с Бородино, живу в Бородино и т. п. Не желают склоняться, что характерно, и новые заимствования, а заимствования никогда не подчиняются тем законам, которые в самом принимающем языке действуют слабо. Ждет ли русский язык судьба болгарского - потерявшего все падежи, функции которых взяли на себя предлоги, - конечно, ни один серьезный специалист предсказывать не берется. Но «что-то может произойти».

Теперь у нас есть Корпус. Так что получить ответ, может быть, будет проще.

 

СОССЮР ФЕРДИНАНД ДЕ. КУРС ОБЩЕЙ ЛИНГВИСТИКИ // Звегинцев В. А. История языкознания XIX–XX веков в очерках и извлечениях. Часть I. – М., 1960. – С. 68–86.

 

Глава I. Природа языкового знака

§ 1. Знак, означаемое, означающее

 

Языковой знак связывает не вещь и ее название, а понятие и акустический образ. Этот последний не есть материальный звук, вещь чисто физическая, но психический отпечаток звука.

Психический характер наших акустических образов хорошо обнаруживается при наблюдении над нашей собственной речевой практикой. Не двигая ни губами, ни языком, мы можем говорить сами с собой или мысленно повторять стихотворный отрывок. Языковой знак есть, таким образом, двусторонняя психическая сущность.

Оба эти элемента теснейшим образом связаны между собою и друг друга притягивают.

Мы называем знаком соединение понятия и акустического образа.

Мы предлагаем сохранить слово знак для обозначения целого и заменить термины понятие и акустический образ соответственно терминами означаемое и означающее.

§ 2. Первый принцип: произвольность знака

Связь, соединяющая означающее с означаемым, произвольна; поскольку под знаком мы понимаем целое, возникающее в результате ассоциации некоторого означающего с некоторым означаемым, то эту же мысль мы можем выразить проще: языковой знак произволен. Т.е. означающее немотивировано, то есть произвольно по отношению к данному означаемому, с которым у него нет в действительности никакой естественной связи.

Глава II. Неизменчивость и изменчивость знака

§ 1. Неизменчивость знака

 

1.Произвольность знака — в действительности сама произвольность знака защищает язык от всякой попытки, направленной к его изменению.

2. Множественность знаков, необходимых для образования любого языка.

3. Слишком сложный характер системы. Язык образует систему. Хотя, как мы увидим ниже, с этой именно стороны он не целиком произволен и в нем господствует относительная разумность, но вместе с тем именно здесь и обнаруживается неспособность массы его преобразовать. Система представляет собой сложный механизм; овладеть ею можно лишь путем размышления. Можно было бы представить себе возможность преобразования языка лишь путем вмешательства специалистов, грамматистов, логиков и т. д.

4. Сопротивление коллективной косности всякому лингвистическому новшеству. В каждый данный момент язык есть дело всех и каждого; будучи распространен в массе и служа ей, язык есть нечто такое, чем индивиды пользуются ежечасно, ежеминутно. Этого одного основного достаточно, чтобы показать невозможность в нем революции. Язык устойчив; это не только потому, что он привязан к косной массе коллектива, но и вследствие того, что он расположен во времени. Эти два факта неразъединимы. Солидарность с прошлым ежеминутно давит на свободу выбора.

 

§ 2. Изменчивость знака

Время, обеспечивающее непрерывность языка, оказывает на него и другое действие, кажущееся противоречивым по отношению к первому, а именно: оно с большей или меньшей быстротой подвергает изменению языковые знаки, так что возможно говорить в некотором смысле и о неизменчивости и об изменчивости языкового знака.

Язык по природе своей бессилен обороняться против факторов, постоянно передвигающих взаимоотношения означаемого и означающего. В этом одно из следствий произвольности знака. Во времени изменяется все; нет оснований, чтобы язык избег этого общего закона.

Если бы мы взяли язык во времени, но без говорящей массы (предположим, что живет человек в течение нескольких веков совершенно один), в нем не оказалось бы, может быть, никакого изменения; время не проявило бы своего действия. И обратно, если рассматривать говорящую массу вне времени, не увидишь действия на язык социальных сил.

 

ЩЕРБА Л. В. О ТРОЯКОМ АСПЕКТЕ ЯЗЫКОВЫХ ЯВЛЕНИЙ И ОБ ЭКСПЕРИМЕНТЕ В ЯЗЫКОЗНАНИИ // Л.В Щерба. Языковая система и речевая деятельность. – Л., 1974. – С. 24–39 / Зегинцев В.А История языкознания XIX–XX веков в очерках и извлечениях. Ч. II. – М, 1965. – С. 361–367.

При процессах говорения мы часто просто повторяем нами ранее говорившееся (или слышанное) в аналогичных условиях, однако нельзя этого утверждать про все нами говоримое. Несомненно, что при говорении мы часто употребляем формы, которых никогда не слышали от данных слов, производим слова, не предусмотренные никакими словарями, и, что главное и в чем, я думаю, никто не сомневается, сочетаем слова, хотя и по определенным законам их сочетания, но зачастую самым неожиданным образом, во всяком случае не только употребляем слышанные сочетания, но постоянно делаем новые.

Процессы говорения и понимания — речевая деятельность (первый аспект языковых явлений); процессы понимания, интерпретации знаков языка являются не менее активными и не менее важными в совокупности того явления, которое мы называем языком, и что они обуславливаются тем же, чем обуславливается возможность и процессов говорения.

Вообще все формы слов и все сочетания слов нормально создаются нами в процессе речи, в результате весьма сложной игры сложного речевого механизма человека в условиях конкретной обстановки данного момента. Из этого с полной очевидностью следует, что этот механизм, эта речевая организация человека никак не может просто равняться сумме речевого опыта (и говорение, и понимание) данного индивида, а должна быть какой-то своеобразной переработкой этого опыта. Эта речевая организация человека может быть только физиологической или, лучше сказать, психофизиологической. Эта психофизиологическая речевая организация индивида вместе с обусловленной ею речевой деятельностью является социальным продуктом.

Словарь и грамматика, т. е. языковая система данного языка, обыкновенно отождествлялись с психофизиологической организацией человека, которая рассматривалась как система потенциальных языковых представлений. В силу этого язык считался психофизиологическим явлением, подлежащим ведению психологии и физиологии.

Человечество в области языкознания искони и занималось подобными умозаключениями, делаемыми, однако, не на основании актов говорения и понимания какого-либо одного индивида, а на основании всех (в теории) актов говорения и понимания, имевших место в определенную эпоху жизни той или иной общественной группы. В результате подобных умозаключений создавались словари и грамматики языков, которые могли бы называться просто языками, но которые мы будем называть языковыми системами (второй аспект языковых явлений), оставляя за словом «язык» его общее значение. Правильно составленные словарь и грамматика должны исчерпывать знание данного языка. Словарь и грамматика, т. е. языковая система данного языка, обыкновенно отождествлялись с психофизиологической организацией человека, которая рассматривалась как система потенциальных языковых представлений. В силу этого язык считался психофизиологическим явлением, подлежащим ведению психологии и физиологии.

Все языковые величины, с которыми мы оперируем в словаре и грамматике, будучи концептами, в непосредственном опыте (ни в психологическом, ни в физиологическом) нам вовсе не даны, а могут выводиться нами лишь из процессов говорения и понимания, которые я называю в такой их функции языковым материалом (третий аспект языковых явлений). Под этим последним я понимаю, следовательно, не деятельность отдельных индивидов, а совокупность всего говоримого и понимаемого в определенной конкретной обстановке в ту или другую эпоху жизни данной общественной группы.

Система языковых представлений, хотя бы и общих, с которой обыкновенно отождествляют языковую систему, уже по самому определению своему является чем-то индивидуальным, тогда как в языковой системе мы, очевидно, имеем что-то иное, некую социальную ценность, нечто единое и общеобязательное для всех членов данной общественной группы, объективно данное в условиях жизни этой группы.

Что же такое сама языковая система? Это есть то, что объективно заложено в данном языковом материале и что проявляется в «индивидуальных речевых системах», возникающих под влиянием этого языкового материала. Следовательно, в языковом материале и надо искать источник единства языка внутри данной общественной группы.

 


[1] Норма – это то, что поощряется, поддерживается, одобряется. Устанавливается учреждениями, предписывается обществу. (Различать с узусом!)

[2] Узус - это то, что наиболее распространено. Складывается в процессе развития языка и никем не предписывается.

[3] Предложено Соссюром, развил А.Смирницкий в «Синтаксисе английского языка».









Последнее изменение этой страницы: 2016-04-08; Нарушение авторского права страницы

infopedia.su не принадлежат авторские права, размещенных материалов. Все права принадлежать их авторам. Обратная связь