Комп’ютерна лінгвістика: основні завдання і сфери застосування 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Комп’ютерна лінгвістика: основні завдання і сфери застосування



Розвиток інформаційних технологій та щораз ширше застосування комп’ютерів у власне лінгвістичних дослідженнях спричинилися до появи нового напрямку прикладної лінгвістики - комп'ютерного, до компетенції якого входить лінгвістичне забезпечення функціонування інформації в автоматизованих системах різних типів. У мовознавців з'явився новий адресат — комп'ютер, якого треба навчати мови не за "людськими", а за спеціальними словниками і граматиками. Ці словники і граматики мають бути максимально формалізованими і написаними у вигляді алгоритмів. Сьогодні комп'ютер навчений здійснювати чимало трудомісткої роботи — укладати словники різних типів - орфографічні, перекладні, синонімів, антонімів, омонімів, перекладати стандартизовані тексти, створювати реферати, здійснювати коректорську і частково редакторську роботу, підтримувати масштабні бази даних для найрізноманітніших дослідницьких проектів. У 70-х роках двадцятого століття стало зрозуміло, що вирішення багатьох прикладних проблем не може бути суто лінгвістичним. Так виникла міжгалузева дисципліна — моделювання знань, яка досліджує мислення, мовну та психічну поведінку людини. Ця дисципліна дотична до логіки, лінгвістики, психології, математики, кібернетики. Під терміном «комп’ютерна лінгвістика» розуміють науку, яка займається розробкою комп’ютерних програм для організації та обробки даних з метою моделювання функціонування мови і використанням цих моделей у лінгвістиці та суміжних дисциплінах. Сфера комп’ютерної лінгвістики охоплює практично усе, що стосується комп’ютерів у мовознавстві. Як особливий науковий напрям компютерна лінгвістика оформилася у 60-ті роки двадцятого століття. Комп’ютерну лінгвістику як прикладну дисципліну виокремлюють за її інструментарієм: використанням комп’ютерних засобів обробки мовних даних. Оскільки комп’ютерні програми, які моделюють ті чи інші аспекти функціонування мови, можуть використовувати різні засоби програмування, то говорити про спільну метамову не доводиться. Однак існують загальні принципи комп’ютерного моделювання мислення, які так чи інакше реалізуються у будь-якій комп’ютерній моделі. Ці принципи базуються на теорії знань, яка є важливим розділом когнітивної науки. Основний постулат теорії знань – мислення є процесом породження і обробки знань. Існує два типи знань – декларативні (знання що?) і процедурні (знання як?). Декларативні знання – сукупність тверджень про що-небудь. Приклад – тлумачення слів у тлумачних словниках. Їх можна верифікувати за схемою «істина» - неістина. Процедурні знання є послідовністю операцій, які слід виконати. Приклад – інструкції користування приладами. Комп’ютери бачать мову як звукову інформацію або як ланцюжок букв. Для комп’ютерного аналізу мови досліднику необхідно пройти кілька послідовних етапів мовного представлення від початкової репрезентації до значення. Цими етапами є:

  • розпізнавання мови (якщо текст у звуковому форматі, його треба перетворити у текстову форму)
  • токенізація – сегментація ланцюжків літер на слова, речення
  • морфологічний аналіз – аналіз особових форм і відмінків, для отримання граматичної інформації
  • синтаксичний аналіз – аналіз слів кожного реченя та її функції у реченні (підмет, додаток, артикль)
  • семантичний аналіз – визначення значень окремих речень чи чи їх частин
  • Аналіз діалогу та дискурсу – визначення відношень між сусідніми реченнями (в діалозі: питання-відповідь, в дискурсі – твердження і її обґрунтування.

Схему проведення комп’ютерного аналізу мови показано на рисунку 3.


Рис. 3. Схема проведення комп’ютерного аналізу мови.

Однак, здійснюючи комп’ютерний аналіз мови, дослідникові не обов’язково проходити усі ці етапи. Щораз ширше застосування комп’ютерних методів навчання виявило, що на кожному з рівнів аналізу існують статистичні закономірності. Ці закономірності можна використати для моделювання мовних феноменів. Приміром, моделі машинного перекладу використовують синтаксис в обмеженому обсязі та практично ігнорують семантику (полісемію), використовуючи шаблонні лексичні відповідники. Іншими словами, комп’ютерна лінгвістика при вирішенні кожної конкретної задачі повинна відповісти на питання: наскільки «глибоко» я повинен аналізувати і наскільки «мілким» цей аналіз може залишатися? Серед основних сфер комп’ютерної лінгвістики, які безпосередньо пов’язані з оптимізацією когнітивної функції мови і використовують знання про функціонування мовної системи, варто назвати:

§ моделювання спілкування,

§ моделювання структури сюжету

§ гіпертекстові технології представлення тексту.

До першої сфери належить забезпечення спілкування людини і комп’ютера природною мовою. Основними питаннями тут є: що забезпечує природність мовлення? які умови когерентності процесу спілкування? як виникають комунікативні невдачі і чи можна їх уникнути? Існуючі комп’ютерні програми моделювання сюжету ґрунтуються на 3 формалізмах представлення сюжету – морфологічному, синтаксичному, когнітивному. Морфологія сюжету базується на послідовності базових функцій персонажів. Синтаксичний підхід до сюжету тексту представлений «сюжетними граматиками», які були розроблені під впливом ґенеративної граматики Н. Хомського. Базовими компонентами є експозиція, подія та епізод. Сюжет можна моделювати за допомогою трансформацій. Наприклад, текст зізнання злочинця можна трансформувати у детективний сюжет за схемою: (злочинець → задум → знаряддя вбивства → місце вбивства → знайдення жертви → пошуки злочинця) - (знайдення трупа → знайдення знаряддя вбивства → пошуки злочинця). Використання сюжетних граматик в комп’ютерному моделюванні не було цілком вдалим. Синтаксичний компонент сюжету, який описують ці граматики, відображає лише зовнішні особливості тексту. Проблематичним є і визначення різних складових сюжету – де сюжет, а де подія? Тому виникла потреба описувати сюжет категоріями доцільної діяльності – «проблема», «мета», «план» і т.д. Необхідно брати до уваги когнітивний стан персонажів. У середині 80-х років двадцятого століття було розроблено формалізм афективних сюжетних одиниць. Суть його полягала в тому, що сюжет описували як послідовну зміну когнітивно-афективних станів персонажів. У центрі уваги дослідників перебували не зовнішні компоненти сюжету, а його зміст. Методика розкладання сюжету на афективні одиниці успішно застосовували у сфері комп’ютерного моделювання і в гуманітарній сфері, зокрема для виявлення сюжетних ліній у текстах Євангелій, які пояснюють, чому саме ці тексти мали такий вплив на мільйони людей та їх культуру. Вдалося виявити кілька сюжетних ліній, які повторювалися у національному фольклорі та міфах. Ці сюжетні лінії займають центральне місце у структурі Євангелій.

Феномен гіпертексту можна трактувати з різних точок зору. Це особливий спосіб організації тексту, а водночас і новий текст, який за багатьма властивостями відрізняється від звичайного тексту, а також інструмент для розуміння тексту. Гіпертекстові технології дозволяють поєднувати різні види інформації – звичайний тест, малюнок, графік, схему, звук, рухомі зображення. Неоднорідність гіпертексту є його першою технологічною властивістю. Технологічною тому, що ця неоднорідність зумовлена комп’ютерною технологією. Другою ознакою гіпертексту є його нелінійність. Гіпертекст не має звичної послідовності читання. Третьою ознакою гіпертексту, на відміну від традиційного тексту, є відсутність автора (у традиційному розумінні). Щодо типології гіпертекстів, то за структурою вони бувають ієрархічними чи мережевими, за можливістю програмного забезпечення - простими чи складними, а за способом існування – статистичними і динамічними. Ідею гіпертексту пов'язують з іменем В. Буша - радника президента Ф.Рузвельта з науки. В.Буш теоретично обґрунтував проект технічної системи «Мемекс», що дозволяла користувачеві зв'язувати тексти і їхні фрагменти різними типами зв'язків, переважно за асоціативними відношеннями. Відсутність комп'ютерної техніки зробило проект важким для реалізації, оскільки механічна система виявилася надмірно складною для практичного втілення. Ідея Буша в 1960-т роки одержала друге народження в системі «Ксанаду» Т.Нельсона, що вже припускала використання комп'ютерної техніки. «Ксанаду» дозволяв користувачеві прочитувати сукупність уведених у систему текстів різними способами, у різній послідовності, програмне забезпечення давало можливість як запам'ятовувати послідовність переглянутих текстів, так і вибирати з них практично кожен у довільний момент часу. Множина текстів з єднальними відношеннями (системою переходів) була названа Т.Нельсоном гіпертекстом. Багато дослідників розглядають створення гіпертексту як початок нової інформаційної епохи, протипоставленої ері друкарства. Лінійність письма, що зовні відображає лінійність мовлення, виявляється фундаментальною категорією, що обмежує мислення людини й розуміння тексту. Світ змісту нелінійний, тому стискання значеннєвої інформації в лінійному мовному відрізку вимагає використання спеціальних «комунікативних упакувань» - членування на тему й рему, поділ плану змісту висловлення на експліцитні (твердження, пропозиція, фокус) та імпліцитні (пресупозиція, наслідок) шари. Відмова від лінійності тексту й у процесі його представлення читачеві (тобто при читанні й розумінні) і в процесі синтезу, на думку теоретиків, сприяла б «звільненню» мислення й навіть виникненню його нових форм.

Зарубіжні вчені визначають комп’ютерну лінгвістику як наукову дисципліну, яка займає проміжне місце між лінгвістикою і комп’ютерними науками і пов’язана із когнітивною наукою та штучним інтелектом. Комп’ютерна лінгвістика є галуззю комп’ютерних наук, яка займається комп’ютерним моделями людського пізнання. Розрізняють теоретичну і прикладну комп’ютерну лінгвістику. Теоретична займається розробкою формальних теорій лінгвістичних знань, які потрібні людині для породження і розуміння мови. Комп’ютерна лінгвістика розробляє формальні моделі, які відтворюють феномен володіння природною мовою та застосовує ці моделі при розробці комп’ютерних програм. Ці програми є базою для оцінки існуючих теорій та розробки нових. Окрім лінгвістичних теорій, комп’ютерна лінгвістика використовує доробок когнітивної психології і психолінгвістики. Про важливість комп’ютерного моделювання для психолінгвістики свідчить поява нової дисципліни – комп’ютерної психолінгвістики. Прикладна комп’ютерна лінгвістика вивчає результати застосування моделей природної мови. Методи і програми цієї науки об’єднані загальним поняттям «обробка природної мови». («language engineering»/«human language technology»). Комп’ютерна лінгвістика є міждисциплінарною сферою, однак до її складу входять не лише комп’ютерні науки, інформатика, лінгвістика, а й психологія і філософія. В останні десятиліття з’явилися ще два міждисциплінарні напрями досліджень - «штучний інтелект» і «когнітивна наука».

Комп’ютерна лінгвістика як наука і як навчальна дисципліна представлена низкою інституцій: Association for Computational Linguitsics (www.aclweb.org), Asian Federation of Natural language Processing Associations. (www.afnlp.org) Gesellschaft für Sprachtechnologie und Computerlingustik (www.gscl.org).

Список літератури

1. Bolshakov I., Gelbukh А. Computational Linguistics: Models, Resources, Applications. Mexico, 2004 Instituto Politecnico Nacional, 2004. — 186 pp.

2. Davies A., ElderC (Ed.): The Handbook of Applied Linguistics. Blackwell Publishing, 2004. — 886 pp.

3. Knapp K. [Hrsg.]: Angewandte Linguistik; mit CD-ROM; Francke Verlag, Tübingen-Basel, 2004.

4. Mitkov R. (ed.):The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press, 2003. — 784 pp.

5. Richards J.,.Schmidt R. Longman Dictionary of Teaching Language and Applied Linguistics. — London: Longman, 2010. — 432 pp.

6. http://www.appliedlinguistics.org

7. http://linguistlist.org/

8. http://www.cal.org/

 

Розділ 8

СУЧАСНІ ТЕХНОЛОГІЇ ОБРОБКИ ІНФОРМАЦІЇ:



Поделиться:


Последнее изменение этой страницы: 2016-08-06; просмотров: 595; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.135.190.232 (0.01 с.)