Оптимізація епістемної функції мови 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Оптимізація епістемної функції мови



1. Лексикографія.

2. Типи словників. Структура словників.

3. Комп’ютерна лексикографія.

Лексикографія є розділом мовознавства, що займається укладанням словників, їхнім вивченням і розробкою теорії словникового впорядкування. А. Баранов зазначає, що лексикографія може бути визначена як прикладна дисципліна, у центрі уваги якої перебувають методи створення (укладання) словників [2003, 55]. Підґрунтям для формування лексикографії стали всі накопичені людством протягом багатьох століть спроби створення словників спочатку синкретичного, а згодом диференційованого типу. Попередниками словників уважаються глоси - пояснення значень окремих слів на берегах давніх текстів і книг (у Шумері XXV ст. до н. е., у Китаї XX ст. до н. е., у Західній Європі VII ст. н. е. («Епінальський кодекс» як довідник для розуміння латинських текстів), у Росії XI ст. н. е.). Збірки глос (глосарії) стали першими словниками-довідниками. З виникненням друкарства почалося видання відомих рукописних словників і створення в лінгвістичних школах світу нових глобальних лексикографічних видань (у Великобританії «Оксфордський англійський словник» 1884-1928 р. р.; у Франції «Словник французької мови» Е. Літре 1863-1872 р. р.; у США «Американський словник англійської мови» Н. Вебстера 1828 р.; у Німеччині «Німецький словник» Я. Гримма і В. Гримма 1854-1960 р. р.; у Росії «Лексис» Л. Зизанія 1596 р. і «Лексикон славеноросский и имен толкование» П. Беринди 1653 р.).

Головними проблемами лексикографії є

порядок відбору слів для словника;

організація його макро- й мікроструктури, тобто словника в цілому та словникової статті;

принципи нормування,

розробка систем поміток й індексації,

типологія словників, їхні функції тощо.

У теорії лексикографії існують кілька класифікацій наявних словників, що залежать переважно від складу й кількості представлених у словнику одиниць, характеру їх додаткових пояснень.

За кількістю представлених мов словники поділяються на одномовні, двомовні й багатомовні, перші представляють лексикон однієї мови, інші є перекладними й подають еквіваленти мовних одиниць.

За функцією словники поділяються на дескриптивні й нормативні: перші спрямовані на повний опис проблемної галузі в розмаїтті всіх випадків слововживань (наприклад, діалектні словники, словники жаргонів, сленгу); другі орієнтовані на норму мови, з них вилучено все, що не відповідає літературній нормі.

Одномовні словники за типом характеристики слова диференціюються на тлумачні, які пояснюють значення слів дефініціями й можуть мати додаткові помітки орфоепічної норми, граматичних ознак, стилістичних особливостей, супроводжуються ілюстративними прикладами вживання слів у певних контекстах; орфографічні, орфоепічні, що подають відповідно правописну норму і правильну вимову; морфемні, що фіксують морфемну структуру слів; словотворчі, що демонструють механізм похідності слова; фразеологічні, які тлумачать значення зібраних фразеологізмів з ілюстративними прикладами вживання; граматичні, що подають морфологічну парадигму слів і категорійні ознаки; синтаксичні, орієнтовані на особливості синтаксичних зв'язків і перелік синтаксичних позицій слів (синтаксем) у реченні; етимологічні, спрямовані на реконструкцію етимонів слів, їхнього походження (супроводжуються прикладами етимологічної спорідненості зі словами інших мов); словники синонімів, омонімів, паронімів, антонімів, які подають відповідні парадигматичні ряди слів; частотні словники, що демонструють ступінь уживаності слів у мовленні, словники нових слів (неологізмів).

А. Баранов демонструє сфери лексикографічного опису мови в таблиці [2003, 75]:

Мова тлумачні словники, граматичні словники, зворотні словники, асоціативні словники, етимологічні словники, історичні словники,ономастикони
Мовлення словники метафор й епітетів, словники сполучуваності, словники труднощів, авторські словники
Синхронія тлумачні словники, граматичні словники, зворотні словники, словники метафор та епітетів, словники сполучуваності, словники труднощів
Діахронія історичні словники, діахронічні словники, авторські словники, словники власних імен (з етимологіями)
Парадигматика тлумачні словники, граматичні словники, зворотні словники, етимологічні словники, історичні словники
Синтагматика словники метафор й епітетів, словники сполучуваності, словники труднощів,
Семантика тлумачні словники, історичні словники
Прагматика лінгвокраїнознавчі словники, асоціативні словники

 

Серед спеціальних словників виокремлюються словники крилатих слів, прислів'їв і приказок, скорочень; власних імен, географічних назв (ономастикони), назв мешканців міст, термінів різних галузей науки, асоціативні словники тощо. Останнім часом особливої ваги набувають комбіновані словники, які містять необхідну різнорівневу інформацію про слово. Одним зі способів укладання подібних словників є лексикографічне портретування, розроблене в межах Московської семантичної школи Ю. Апресяном.

За способом розташування слів словники поділяються на алфавітні та алфавітно-гніздові (абетковий порядок розташування словникових статей установлюється з XVI ст.): перші розподіляють словникові статті за абеткою від першої або останньої (зворотні словники) літери слів, другі - за абеткою непохідних слів, які служать базою для розгортання дериваційних ланцюгів похідності.

Залежно від соціальної та територіальної диференціації мови розрізнюються словники діалектні, арго, жаргонів, лайливих слів, професіона-лізмів, сленгу тощо.

За походженням лексики окремо виділяються словники іншомовних слів (тлумачні, орфоепічні, орфографічні, комбіновані). Існують також словники мов письменників, у тому числі конкорданси, які фіксують приклади вживання слів у певному творі чи творчості письменника в цілому; словники літературного слововживання, орієнтовані на фіксацію лексикону певного майстра слова або літературних текстів певною мовою; словники труднощів, що відображають різноманітні складні випадки вимови й написання, вживання одиниць; словники епітетів, метафор, символів певної мови тощо.

Український дослідник В. Широков визначає два принципи лексико-графування - пасивний та активний: «поділ на дві граматики - активну та пасивну - зумовив аналогічні ідеї і в лексикографії [...]. З 50-х років минулого століття ідеї активного словника з опорою на синонімічні засоби мови незалежно від словників П. Роже та А. Ройма, стала активно розвиватися в американській, англійській, німецькій, російській, французькій та ін. лексикографіях (словники Вебстерівської, Роберівської лінії тощо). Проте лише в окремих словниках була здійснена спроба реалізувати принцип активності у двох названих вище аспектах: у «Толково-комбинаторном словаре современного русского языка» I.A. Мельчука та А.К. Жолковського, де вперше у світовій практиці сполучуваність слів була описана на достатньо серйозній лінгвістичній основі, та в «Англо-русском синонимическом словаре» Ю.Д. Апресяна, B.B. Ботяковой, A.I. Розенмана й ін.» [2005, 14-15].

Окрему галузь лексикографії представляє теорія та практика укладання тезаурусних словників, названа ідеографією. Тезаурус (від гр. thesauros-скарбниця) є словником із понятійною диференціацією лексикону за певними тематичними групами різного ступеня узагальнення й кількості. Російські лексикографи Ю. Морковкін і Ю. Караулов надають поняттю тезауруса реляційного спрямування: «Тезаурус - це всілякий словник, який у явному вигляді фіксує семантичні відношення між своїми складниками» [Караулов 1981, 4]. В. Морковкін вважає тезаурус лексичним інструментом інформаційно-пошукових систем [1970]. І. Арнольд зазначає: «Тезаурус є наближеною інтерпретацією лексичної системи, її усередненою моделлю. Він дає змогу представити системні відношення, спостерігати рівневу організацію лексики, тобто є способом представлення семантичного простору» [1991, 29].

Перші паростки ідеографічного опису мов світу з'явилися ще в період античності (грецька граматика директора Александрійської бібліотеки Аристофана Візантійського «Attikai Lexeis» 180 р. до н. е., десятитомний «Ономастикой» Юлія Поллукса II ст. н. е.). У Давній Індії прикладом ідеографічного упорядкування словника санскриту став відомий європейським ученим лише з XVIII ст. «Амаракоша» (II—III ст. н. е.) поета й лінгвіста Амара Сина. Словник містить 10000 слів із тлумаченнями у віршованій формі. В епоху Середньовіччя близька до тезаурусного принципу систематизація понять запропонована іспанським філософом Р. Луллем у книзі «Велике мистецтво» (ХП—ХШ ст.). На ідеографічній класифікації ґрунтувалися коди понять у філософській мові Дж. Дальгарно (1661 р.).

Синонімами тезаурусів є ідеографічні (аналогійні, тематичні) словники. Термін «тезаурус» уведений П. Роже у 1852 р. у словнику англійських слів і висловів, де лексикон було поділено на шість головних тематичних груп: абстрактних відношень, речовини, простору, інтелекту, волі, властивостей - із подальшою семантичною диференціацією (1000 понятійних груп). Приблизно за 30 років до появи тезауруса П. Роже російський лінгвіст І. Гул'янов висловив думку про необхідність ідеографічного опису рідної мови. Схема словника П. Роже була використана в багатьох країнах світу: Франції (Т. Робертсон, 1859 р.; П. Буасс'єр), Німеччині (Д. Зандерс, 1877 р.; А. Шлессінг, 1889 р.; Ф. Дорнзайф, 1933 р.), Іспанії (X. Касарес, 1941 р.) й ін. Кількість тематичних груп у кожному зі словників є різною. Наприклад, найбільш авторитетні словники П. Буасс'єра («Аналогічний словник французької мови») і Ф. Дорнзайфа містили 2000 і 20 тематичних груп відповідно. Це залежало здебільшого від рівня деталізації понятійних рубрик. До того ж означені тезауруси будувалися за різними принципами систематизації: ієрархічним й абетково-предметним. У 1990 р. вийшов перший випуск ідеографічного словника російської мови А. Баранова, хоч перші спроби ідеографічного опису російської мови були здійснені Ю. Карауловим і В. Морковкіним. У російській лексикографії укладено спеціальні тезауруси окремих наукових дисциплін, що відображають синтагматичні, асоціативні, текстуальні й ситуаційні зв'язки одиниць (наприклад, тезаурус теоретичної та прикладної лінгвістики С. Нікітіної, тезаурус термінів математики С. Шелова, термінів іхтіології О. Герда).

У сучасній комп'ютерній лінгвістиці термін «тезаурус» набуває атрибута «інформаційно-пошуковий», який трактується як нормативний словник-довідник, що містить лексикон певної предметної галузі, встановлює парадигматичні відношення між одиницями (логіко-семантичні зв'язки між поняттями: родо-видові, причини й наслідку, партонімії, схожості й суміжності тощо) і використовується для підвищення ефективності пошуку інформації та контролю лексики при індексуванні документів. Функціями інформаційно-пошукових тезаурусів є систематизація знань різних сфер науки, моделювання термінополів, фільтрація лексикону в машинному перекладі, систематизація знань у лінгвістичних процесорах автоматичної обробки мови тощо.

Структурні компоненти словника

Словник – всі одиниці, які формують область опису словника і є входами словникових статей;

морфеми (для словників морфем),

лексеми (тлумачні словники),

словоформи (грамат. сл.),

словосполучення (фраз. сл.).

Словникова стаття – кожний окремо взятий об’єкт опису словника і співставлені йому словникові характеристики.

Вказівки/індекси – див…

Список джерел

Вступна стаття

Список умовних скорочень

Алфавіт.

Структурні компоненти словникової статті

Зони опису: лексичний вхід/вокабула/лемма – напівжирний шрифт – «чорне слово»;

зона граматичної інформації ( частина мови, характерні грам. форми);

зона стилістичних поміток (літер. мова – діалект, термін, стилі);

зона значення: № значення,

                     додаткові грам. чи стил. помітки,

                     зона тлумачення,

                     зона прикладу/ілюстр.,

                     зона відтінків значення,

зона фразеологізмів    - «заронбова зона»,

зона етимології.

Комп'ютерна лексикографія - маргінальна галузь комп'ютерної лінгвістики й лексикографії, спрямована на розробку комп'ютерних технологій укладання й використання словників різних типів. Комп'ютерна лексикографія розв'язує чималу кількість прикладних завдань, що полягають у формуванні комп'ютерних лексикографічних баз, машинних фондів національних мов, лексиконів як додаткової інформації для лінгвістичних процесорів комп'ютерної обробки мови, інформаційно-пошукових систем тощо. Лексикографічні програми являють собою програми підтримки лексико-графування й автоматичні словники, що містять бази даних. Перші призначені для введення електронних словникових картотек (наприклад, D-Base, ACCESS, PARADOX, FOX-Base). Вибірка прикладів для ілюстрації одиниць здійснюється в автоматичному режимі з корпусу текстів у машинному форматі. Автоматично згідно з програмою обробки корпусу текстів і форматом словника формуються й редагуються словникові статті, укладається текст словника та його оригінал-макет. Сучасні бази даних типу D-Base, ACCESS, FOX-Base, PARADOX – підходять для введення електронних словникових картотек. Пошук прикладів на слово та формування картотеки прикладів.

ЗАПИС 28982

ID {ідіома}

EXAMPLE {приклад}

SOURSE {джерело}

AUTH {автор}

 

Б.Ю. Городецький: бази даних:

1 – бази/банки емпіричних даних (банк створених раніше словників і граматик, фонд текстів, за якими ведеться спостереження;

2 – банк експериментальних даних (БЕД повинен опиратися на спеціально розроблену систему експериментів з метою отримання вичерпної інформації для визначення сегментів словникової статті);

3 – банки робочих лексикографічних результатів (БРЛР дозволяє записувати узагальнюючу інформацію, яка організована у відповідності з типами словників та їх частин).

Машинні словники виконують функції збереження інформації, маніпуляції з нею та трансляторну. На відміну від звичайних словників, машинні мають можливість безперервного поповнення, швидкого алгоритмічного пошуку слів. Як зауважує В. Волошин, машинні словники формуються шляхом добору лексики з урахуванням: 1) логіко-індуктивного методу неформального аналізу слів; 2) статистичного підходу до добору; 3) психолінгвістичного підходу до тлумачення значень слів і зв'язків цих значень; 4) компонентного аналізу [2004, 337]. За способом організації машинні словники поділяються на частотні, алфавітні (прямі та зворотні), тезауруси, конкорданси, що містять приклади вживання слова в контексті фіксованої довжини, і спеціальні (для перекладу багатозначних слів). За співвідношенням словника, алгоритму та граматичного пошуку дослідники виокремлюють двочленний тип машинного словника, що складається зі словника й алгоритму, і тричленний, що має словник, алгоритм і таблицю граматичних правил.

Автоматичні словники - словник в спеціальному машинному форматі, призначений для використання на ЕВМ користувачем чи комп’ютерною програмою обробки тексту.

1) автоматичні словники кінцевого користувача – людини;

2) автоматичні словники для програм обробки тексту.

Перші переважно є комп'ютерними версіями відомих звичайних словників [Баранов 2003, 82-87]. Так, Українським мовно-інформаційним фондом HAH під керівництвом В. Широкова створено лексикографічну систему «Словника української мови» в 11 т. і на її основі лексикографічну базу даних та комп'ютерну технологію укладання тлумачних словників. За словами В. Широкова, «урок цієї праці полягає в тому, що застосування теорії лексикографічних систем дозволило здійснити так званий парсинг (конверсію тексту словника в лексикографічну базу даних) в автоматичному режимі для дуже складного лексикографічного об'єкта, яким є СУМ, - нам невідомі реальні приклади парсингу словників такого великого обсягу та складності - і на цій базі побудувати високоефективну комп'ютерну технологію укладання тлумачних словників» [2005, 94]. Мовно-інформаційним фондом створено й інструментальний комплекс, що реалізує певну схему інтеграції електронних версій СУМ і «Словника синонімів української мови».

Однією з найбільш складних проблем комп'ютерної лексикографії є алгоритмічне розв'язання багатозначності. Існують кілька підходів до цієї проблеми. Підґрунтям розмежування значень полісемантів є контекст, але в різних системах застосовуються різні типи контекстів (синтаксичний і лексичний). Контексти є статистично обґрунтованими, орієнтованими на певну субмову і здатні поповнюватися й уточнювати вихідні фонди.

 

Прикладний аспект термінознавства.

Термінознавство є розділом лексикології, що вивчає терміносистеми мови, принципи їхньої організації, механізми творення термінів, вимоги до них, а також розв'язує прикладні завдання впорядкування й кодифікації терміносистем і їхніх відповідників у різних мовах. Терміносистема є системою слів і сполук, що позначають коло понять однієї спеціальної сфери спілкування в науці, виробництві, техніці, мистецтві тощо. Терміносистемі властиві певні ознаки: 1) прагнення до одно-однозначної відповідності, тобто моносемії, хоч така однозначність порушується практично у всіх терміносистемах, що спричинене різними аспектами дослідження того самого поняття або невпорядкованістю термінологічного апарату певної течії, галузі чи теорії через їхню новизну; 2) прагнення до усунення синонімії шляхом конкретизації строгої дескрипції синонімічних пар чи дублетів; 3) відкритість і динамізм системи, що виявляється у процесах термінологізації, ре- й детермі­нологізації, постійному поповненні системи новими термінами; 4) жорстка конвенційність, що дає змогу застосовувати терміни в певній обмеженій сфері спілкування; 5) стилістична нейтральність. Терміносистема не відповідна метамові певної галузі, оскільки до метамови входять формули, символіка, які не належать до природної мови.

Термін (від лат. terminus - межа, Terminus у давніх римлян був богом межі й межового каменя, який охороняв недоторканність земельної ділянки, установлював межу) кваліфікується як слово чи сполука, що позначає поняття спеціальної сфери спілкування в науці, виробництві, техніці, мистецтві, в конкретній галузі знань чи людської діяльності. Як зазначає українська дослідниця термінології Л. Симоненко, «термін, з одного боку, стає засобом закріплення результатів пізнання в певних галузях, а з другого - засобом фіксації нових знань» [Українська термінологія 2007, 21]. Вважається, що слово «термін» уперше з'явилося у 1876 р. у Німеччині. В українському мовознавстві «термін» фіксується з XVIII ст. у працях Г. Кониського. Термін є складником системи мовних знаків, яка обслуговує сферу спілкування у відповідній галузі разом із загальновживаним лексиконом. Уперше у східнославістичних студіях розгляд терміна як складника терміносистеми здійснений у фундаментальній праці радянського лінгвіста Д. Лотте, де вказано також на ознаки термінів і вимоги до термінології [1961]. Загалом ознаки термінів розглянуто у працях О. Реформатського, В. Виноградова, Р. Піотровського, О. Ахманової, К. Горалека, Ф. Данеша, Н. Родзевича, Е. Скороходька, В. Лейчика, О. Герда, Б. Головіна, О. Суперанської, Л. Симоненко, Т. Кияка й ін. Попри дискусійність дефініції терміна російський термінознавець В. Лейчик вважає, що це традиційне питання може бути розв'язане на підставі кваліфікації терміна як «лексичної одиниці мови для спеціальних потреб». Дослідник розглядає номінативну, сигніфікативну, дефінітивну, комунікативну, прагматичну, евристичну, когнітивну, класифікаційну функції терміна [2006, 63-97]. Сучасні термінознавчі студії спрямовані на динамічний розгляд терміна як функціонального, текстового явища [Алексеева 2003, 18-40], яке матеріалізується в мовленні, точніше - в дискурсі [Лейчик

2006, 233-234] і являє собою вербалізований концепт, що надає терміно­логічним дослідженням когнітивного спрямування.

Головними вимогами до термінів є системність, що стосується понятійного змісту, словесного вираження й відповідності між змістом і формою [Головин, Кобрин 1987, 16-17]; наявність класифікаційної дефініції (тлумачення, яке ґрунтується на ключовому гіперонімі й видовій специфіці або холонімі); стислість; відповідність позначуваному поняттю; однозначність і конкрети­зація в межах терміносистеми; прозорість внутрішньої форми; жорстка конвенційність; стилістична нейтральність; залученість до відповідної системи понять певної галузі; відповідність нормам мови, що запобігає появі професійних жаргонізмів; точність і короткість; дериваційна здатність; інваріантність як відсутність варіантів і синонімів; висока інформативність. Деякі з цих вимог існують лише в ідеалі. На нараді з лінгвістичних проблем науково-технічної термінології у 1967 році, проведеній Академією наук СРСР, було висловлено думку, що основні характеристики терміна є лише «провідною тенденцією в даному функціональному класі слів і ніколи не реалізуються повністю» [Кутина 1967, 94]. Дійсно, в реальній терміносистемі нерідко наявна багатозначність, яка «створює неточність системи» [Лотте 1961, 15]. Притаманні терміносистемам синонімія й варіантність, яка, на думку В. Даниленко, є характерною особливо для початкових етапів формування термінологічних систем, коли ще не відбувся природний або штучний відбір кращого терміна і співіснують багато варіантів [1977, 73]. Дискусійним питанням залишається співвідношення синонімії й варіантності: варіантність розглядають як вияв синонімії, синонімію вважають виявом варіантності, або вони кваліфі­куються як окремі явища мови. Найбільш реалістичною видається думка О. Ахманової, яка вбачає межу між синонімами й варіантами у спільності коренів, яка належить варіантам, а різнокореневі слова є синонімами [1957, 232]. Тим самим синоніми й варіанти є різними виявами мовного семіозису.

Будь-яка терміносистема включена до відповідної мовної системи, але не подібна до неї за загальними принципами побудови (у терміносистемі відсутні фонетична, морфологічна, синтаксична специфіка й особливі семантичні процеси; наявні лише слова, сполуки й переваги у певних способах творення). Творення термінів відбувається здебільшого шляхом семантичної деривації (метонімізації та найчастіше метафоризації як використання знака однієї предметної сфери на позначення іншої); запозичення; калькування з інших мов; морфологічних способів словотворення, часто із застосуванням інтернаціональних елементів, стандартних спеціалізованих морфем (терміно-елементів); абревіації й аналогії, а інколи і шляхом креації - створення абсолютно нового знака. Між загальною системою мови й залученими до неї терміносистемами відбувається певна взаємодія, яка кваліфікується дослід­никами як явище детермінологізації (переходу терміна до загальновживаної лексики) чи термінологізації (переходу загальновживаного слова чи сполуки до терміносистеми). Дискусійним питанням є визначення межі терміно­логізації. Я. Климовицький вважає, що «термін перетинає межу терміно­логізації, коли він займає певне місце в термінологічній матриці, певну вільну

клітинку» [1969, 85]. Між терміносистемами також спостерігається процес ретермінологізації - перенесення терміна з однієї терміносистеми до іншої при збереженні чи зміні понятійного змісту.

У межах терміносистем постійно відбувається планове вдосконалення як здійснення її систематизації (упорядкування згідно з відповідною організацією та категоризацією сфери науки й техніки), унормування, або кодифікації (приведення у відповідність до наявних у мові норм), уніфікації (приведення у відповідність змісту терміна до позначених понять, усунення варіантності) і стандартизації (приведення до стандартів терміносистем).

Спірною проблемою термінознавства є розмежування терміна й номена як номенклатурного знака, на що вперше звернули увагу Г. Винокур й О. Реформатський. Номенклатура відрізняється від термінології, на думку термінознавців, способом позначення (відносно довільним, подібним до ярлика), об'єктом позначення (номени іменують одиничні поняття або, точніше, предмети), функцією (дефінітивною для терміна й сигніфікативною для номена). Однак загалом дослідники здебільшого вказують на перевагу спільних рис номенів і термінів й доволі непослідовне розрізнення цих понять у науковій літературі [Дудик 1980, 84]. В. Лейчик розглядає номени на межі термінів і власних назв [1974].

Сучасне термінознавство поступово виходить за межі лексикології мови і знаходить точки дотику із соціолінгвістикою, комп'ютерною лінгвістикою, перекладознавством, отримуючи прикладне спрямування. Як зазначає А. Баранов, сьогодні у світі налічується понад 20 тисяч термінологічних стандартів, особливі стандарти з організації терміносистем розробляються не лише на державному й міжнародному рівнях, а й окремими компаніями та фірмами. У цих умовах стандартизація й уніфікація термінів і терміносистем постає не лише як наукова, а і як практична, промислова задача [2003, 90]. Напрямом мовної політики держави є стандартизація й упорядкування терміносистем, формування комп'ютерних версій термінологічних банків даних і систем їхнього машинного перекладу. Найбільш потужним у світі є термінологічний банк даних фірми «Сіменс», що містить близько двох із половиною мільйонів термінологічних записів на 8 мовах світу. Міжнародні дослідження в галузі термінології координують Віденський Міжнародний центр інформації з термінології (Інфотерм), Міжнародна організація з уніфікації термінологічних неологізмів у Варшаві і Міжнародна організація зі стандартизації. Протягом 1992-1996 р. р. в Україні видано понад 600 Державних стандартів термінів і визначень, що відображене у створеному Технічним комітетом стандартизації науково-технічної термінології банку даних української наукової термінології

[Рицар 2001,87-88].

 

6. Корпусна лінгвістика.

Корпусна лінгвістика є галуззю прикладного мовознавства, яка займається формуванням комп'ютерних корпусів текстів у різних мовах і спрямована на максимально об'єктивний аналіз мовних явищ в умовах реальної живої комунікації. Поява цієї галузі у 70-80-ті р. р. ХХ ст. пов'язана з розвитком комп'ютерної науки. У 60-ті р. р. уперше до засад корпусної лінгвістики звернувся британський професор Р. Квірк, який очолив колектив по формуванню Лондонсько-Лундського корпусу текстів. Обсяг цього корпусу дорівнював 1 млн. слововживань (у 100 писемних і 100 усних текстах). Цей корпус у машинному варіанті упорядковувався в Лундському університеті (Швеція) до 1979 року під керівництвом Я. Свартвіка. На його базі у 1985 році було укладено Повну граматику англійської мови.

У США корпусна лінгвістика зазнала критики з боку основоположника генеративізму Н. Хомського, який назвав корпусний спосіб накопичення мовних даних неадекватним і хибним для опису породжувальної здатності природної мови, оскільки лише інтуїція мовця може замінити корпус і стати джерелом мовного матеріалу [The Linguistic encyclopedia 2004, 85].

Найбільш відомим корпусом американського варіанта англійської мови є Браунівський, що створювався у Браунівському університеті з 1961 року під керівництвом У. Френсіса і X. Кучери. Цей корпус має такий самий обсяг слововживань, як і Лондонсько-Лундський. До нього ввійшли 500 текстів літературного варіанта англійської мови й тексти 15 жанрів американського варіанта (індексована версія з'явилася у 1980 році). Британським аналогом Браунівського корпусу є Ланкастерсько-Осло-Бергенський (індексована версія вийшла у 1985 році). У СРСР робота над створенням корпусів текстів була розпочата з першої половини 70-х років. Із 1987 року в Уппсальському університеті створюється «Уппсальський машинний фонд російської мови» (близько 1 млн. слововживань). Спільним російсько-французьким проектом упорядковано корпус за дискурсивними словами російської мови, одиницею зберігання якого були зв'язні тексти відповідного часу, автора й жанру (15 тис. сторінок) [Дискурсивные слова русского языка 1998].

Головним поняттям корпусної лінгвістики є корпус мовленнєвої реалізації мови, що кваліфікується як сформована за певними вимогами вибірка мовленнєвого матеріалу, який може використовуватися для опису й дослідження мови як системи. Базовий, вихідний масив текстів разом із програмним забезпеченням формує динамічний корпус текстів. Складниками корпусу є одиниця зберігання, або базова одиниця, яка може відповідати слову, сполуці, синтагмі, висловленню, фрагменту тексту й цілому тексту залежно від мети створення корпусу. Одиниця зберігання може супроводжуватися параметризацією відповідних характеристик, у тому числі і джерела вилучення, а також маркерами деяких просодичних і паралінгвістичних особливостей природного мовлення. Одиниці усного мовлення обов'язково фіксуються на матеріальних носіях звукозапису, мають транскрибований вигляд, деякі корпуси містять відеозапис усного спілкування, тобто мають мультимедійний складник.

Корпуси можуть охоплювати всі мовні стилі й жанри або бути обмеженими певною дискурсивною сферою чи жанром (наприклад, Боннський корпус газетних текстів, німецький корпус текстів публічної політики за період з 1989-1990 p. p. «Wendekorpus»; російський корпус текстів словника Ф. Достоєвського тощо). Обмеження сфери вибірки певним жанром, типом дискурсивної практики, зразком текстів, автором визначає проблемну галузь корпусу одиниць зберігання. Співвідношення між корпусом текстів й обраною проблемною галуззю при пропорційному звуженні назване порогом відображення. Чим вищий поріг відображення, тим імовірніші випадки відсутності якихось явищ проблемної галузі в корпусі.

Залежно від мети створення корпусу вони поділяються на дослідницькі, що призначені для вивчення різних аспектів і проблем функціонування мови й мови як системи і передують дослідженню; ілюстративні, що підтверджують висновки дослідника та створюються після проведення аналізу. Останнім часом з'являються так звані моніторні корпуси, які, порівняно зі статичними, відтворюють зміни мовної системи протягом певного хронологічного періоду, наприклад, процеси архаїзації та неологізації тощо. Таким чином укладався Бірмінгемський корпус, ідеологом якого став Дж. Синклер. Цей корпус постійно поповнювався й відображав зміни в мові. До того ж користувачі отримали можливість створювати робочі корпуси з генерального корпусу, що містив 7,3 млн. слововживань. У Росії протягом 1996-1997 р. р. авторською групою у складі А. Баранова, М. Михайлова, Г. Сидорова у відділі експери­ментальної лексикографії Інституту російської мови РАН було створено динамічний корпус текстів сучасної публіцистики.

Головними проблемами корпусної лінгвістики є: 1) спосіб представлення та збереження мовленнєвих репрезентацій (виокремлюють структурований та неструктурований способи); 2) вимоги до корпусу текстів із боку укладачів і користувачів (дослідники наголошують на принципах репрезентативності відносно проблемної галузі; повноти з метою представлення релевантних явищ; економічності, яка повинна балансувати з репрезентативністю й повнотою; прозорості та зрозумілості одиниці збереження як її самодостатності, що усуває двозначність і неясність; обов'язкової комп'ютерної підтримки [Баранов 2003, 118-121]); 3) специфіка програмного забезпечення корпусів; 4) принципи відбору параметрів проблемної галузі; 5) способи структурації корпусу; 6) транскрипція текстів усного мовлення; 7) мультимедійна підтримка корпусів усного мовлення; 8) розробка пошукових систем у корпусі; 9) способи формування робочих корпусів зі складу генерального; 10) кодування дескрипцій одиниць збереження тощо. Оскільки корпуси текстів створені або продовжують створюватися в різних країнах світу, координація зусиль дослідників є дуже незначною, що зумовлює різні формати репрезентації корпусного матеріалу, а значить, неможливість суміщення програм.

На підставі обробки комп'ютерного корпусу текстів здійснюється корпусний аналіз - один з об'єктивних методів мовного аналізу, спрямований на вивчення певних закономірностей й особливостей мови та мовлення. Застосовується в лінгвістичній семантиці з метою встановлення спектра контекстуальних значень й особливостей уживання лексем. Найбільш істотними недоліками цього методу є спрощення обробки мовного матеріалу й експланаторна негнучкість, тому оптимальним є поєднання корпусного аналізу з іншими методиками мовознавства.

 



Поделиться:


Последнее изменение этой страницы: 2021-12-15; просмотров: 54; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.15.6.77 (0.067 с.)