Прикладні напрями комп’ютерної лінгвістики. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Прикладні напрями комп’ютерної лінгвістики.



Комп’ютерна лінгвістика є маргінальною галуззю мовознавства, спрямованою на розробку автоматизованих методів зберігання, обробки, переробки й використання лінгвістичних знань й інформації, репрезентованої знаками природної мови. Метою комп’ютерної лінгвістики є реконструкція знань про мову і в мові, яка б забезпечувала автоматизацію інтелектуальних функцій і когнітивної діяльності людини, автоматизоване породження мовлення та його комп’ютерну обробку й розпізнавання і т. ін. А. Баранов розглядає комп’ютерну лінгвістику як широку галузь використання комп’ютерних інструментів - програм, комп’ютерних технологій організації й обробки даних -

для моделювання функціонування мови в тих чи інших ситуаціях, проблемних

сферах, а також застосування комп’ютерних моделей мови не лише в лінгвістиці, а й у суміжних із нею дисциплінах. Лише в останньому розумінні мова йде про прикладну лінгвістику у строгому розумінні, оскільки комп’ютерне моделювання мови може розглядатися і як сфера теорії програмування в галузі лінгвістики [2003, 13]. Отже, комп’ютерна лінгвістика,

як і прикладна, є мовознавчою дисципліною, що інтегрує різні наукові сфери, а

її прикладний напрям визначає використання її доробку для розв’язання практичних завдань.

Сучасні лінгвістичні процесори передбачають послідовне або паралельне

оброблення рівнів вихідного тексту й доповнюються рівнем прагматичної компетенції, інформаційної репрезентації (фонових, енциклопедичних знань) й

афективно-тематичними блоками (емоційними компонентами інформації).

Створення текстів відбувається у процесі автоматичного синтезу на підставі семантичного, синтаксичного й лексемно-морфологічного представлення

вихідної інформації.

Дослідники виокремлюють такі типи гіпертекстових систем: бібліотечні

(динамічні з можливим додаванням нових блоків і наявним коментарем);

аналітичні - гіпертексти, спрямовані на проектування багаторівневих стадій і

шляхів розв’язання складних проблем; довідкові, орієнтовані на перегляд великих масивів інформації й пошук необхідних даних; експериментальні, спрямовані на креативні функції гіпертексту. Головними властивостями гіпертексту називають когезійну закритість як відносну тематичну закінченість;

відсутність зв’язків з іншими блоками гіпертексту; неієрархічність як відсутність у ньому головних і допоміжних інформаційних блоків; дисперсність структури (інформація закладена у блоки, до яких «увійти» можна з будь-якого боку); множинність віртуальних структур; іманентність як здатність засвоювати нові види інформації; відкритість як можливість додавання нових інформаційних блоків; мультилінійність як ступеневе розгортання (заголовок – заголовок з анотацією - частина тексту - повний текст); неоднорідність як наявність інформації різних типів у вузлах графа (текстів, фотографій, малюнків, схем, таблиць, відеороликів тощо); мультимедійність [Субботин 1994, 11-53; Хартунг, Брейдо 1996, 67; Баранов 2003, 33; Визель 2007; Эпштейн 2007].

За способом будови типами гіпертексту є ієрархічний, що обмежує

можливості переходу між його компонентами й має родо-видову структуру; і сітковий, який має сіткову побудову й застосовує не лише родо-видову ієрархію. Статичний і динамічний гіпертексти різняться можливістю змін у процесі експлуатації: перший має стабільний склад, другий його постійно оновлює, змінює.

У наведених вище прикладних напрямах комп’ютерної лінгвістики застосовуються поняття бази знань, інформаційно-пошукової системи і інформаційно-пошукової мови.

База знань - система логічних структур, що служать для зберігання позамовних знань про світ і предметну сферу застосування. У комп’ютерній науці виокремлюють п’ять основних типів таких систем: 1) навчальна, 2) експертна, 3) планувальна; 4) креативна (формування нових знань), 5) розуміння природної мови. Експертна система оперує нетривіальними знаннями в певній предметній галузі, які не є відомими широкому загалу і служать для прийняття адекватних нестандартних рішень у нестандартних ситуаціях. Таке знання вилучається із професійної компетенції експертів, переводиться в потрібну форму й переноситься до бази знань експертної системи [Штерн 1998, 41].

Інформаційно-пошукова система - комплекс пов’язаних між собою частин текстів, призначених для пошуку й вияву елементів інформації, які є відповіддю на інформаційний запит, пред’явлений системі. Інформаційний пошук являє собою сукупність процедур, результатом яких є встановлення за

заданими ознаками всіх документів, що містять необхідну інформацію запиту.

Розрізнюють інформаційно-пошукові системи документального й фактографічного типів. Документальні системи подають оригінали документів, їхні копії та адреси збереження. Серед документальних систем виокремлюють бібліографічні, що видають бібліографічні описи документів. Фактографічні системи призначені для пошуку конкретних даних, кількісних показників (наприклад, планово-економічної інформації).

Створення інформаційно-пошукових мов передбачає такі етапи: упорядкування списку ключових слів - найбільш істотних характеристик документа; усунення синонімії ключових слів, яка зведена в класи еквівалентності, названі дескрипторами (у класі обирається головне слово); визначення базисних відношень між дескрипторами (родових й асоціативних); розробка системи покажчиків ролі (символів функцій дескрипторів у тексті) і зв’язку - символів

смислового об’єднання дескрипторів у речення (своєрідної граматики мови).

Існують три типи інформаційно-пошукових завдань: 1) ретроспективний

пошук «запит - відповідь»; 2) термінове оповіщення окремих фахівців про

публікації, які їх цікавлять як вибірковий розподіл інформації за постійними

запитами (профілями); 3) пошук персоналій фахівців, що володіють відповідною інформацією.

Комп’ютерна лексикографія.

Лексикографія (від гр. lexikos - віднесений до слова і grapho - пишу) є розділом мовознавства, що займається укладанням словників, їхнім вивченням і розробкою теорії словникового впорядкування. А. Баранов зазначає, що лексикографія може бути визначена як прикладна дисципліна, у центрі уваги

якої перебувають методи створення (укладання) словників [2003, 55].

Підґрунтям для формування лексикографії стали всі накопичені людством

протягом багатьох століть спроби створення словників спочатку синкретичного, а згодом диференційованого типу. Комп’ютерна лексикографія розв’язує чималу кількість прикладних завдань, що полягають у формуванні комп’ютерних лексикографічних баз, машинних фондів національних мов, лексиконів як додаткової інформації для лінгвістичних процесорів комп’ютерної обробки мови, інформаційно-пошукових систем тощо.

Машинні словники виконують функції збереження інформації, маніпуляції

з нею та трансляторну. На відміну від звичайних словників, машинні мають

безперервного поповнення, швидкого алгоритмічного пошуку слів. Як зауважує В. Волошин, машинні словники формуються шляхом добору лексики з урахуванням: 1) логіко-індуктивного методу неформального аналізу слів; 2) статистичного підходу до добору; 3) психолінгвістичного підходу до тлумачення значень слів і зв’язків цих значень; 4) компонентного аналізу. За способом організації машинні словники поділяються на частотні, алфавітні (прямі та зворотні), тезауруси, конкорданси, що містять приклади вживання слова в контексті фіксованої довжини, і спеціальні (для перекладу багатозначних слів). За співвідношенням словника, алгоритму та граматичного пошуку дослідники виокремлюють двочленний тип машинного словника, що складається зі словника й алгоритму, і тричленний, що має словник, алгоритм і таблицю граматичних правил.

Однією з найбільш складних проблем комп’ютерної лексикографії є алгоритмічне розв’язання багатозначності. Існують кілька підходів до цієї проблеми. Підґрунтям розмежування значень полісемантів є контекст, але в різних системах застосовуються різні типи контекстів (синтаксичний і лексичний). Контексти є статистично обґрунтованими, орієнтованими на певну субмову і здатні поповнюватися й уточнювати вихідні фонди.



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 513; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.23.123 (0.007 с.)