Програмна реалізація смислового аналізу тексту 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Програмна реалізація смислового аналізу тексту



Семантичний (смисловий) аналіз тексту - одна з ключових проблем як теорії створення систем штучного інтелекту, що відноситься до обробки природної мови (Natural Language Processing, NLP), так і комп'ютерної лінгвістики. Результати семантичного аналізу можуть застосовуватися для вирішення завдань в таких областях як, наприклад, психіатрія (для діагностування хворих), політологія (пророкування результатів виборів), торгівля (аналіз " затребуваності " тих чи інших товарів на основі коментарів до даного товару), філологія (аналіз авторських текстів), пошукові системи, системи автоматичного перекладу і т.д.

 

Незважаючи на свою затребуваність практично у всіх сферах життя людини, семантичний аналіз є однією з найскладніших математичних задач. Вся складність полягає в тому, щоб "навчити" комп'ютер правильно трактувати образи, які автор тексту намагається передати своїм читачам / слухачам.

 

Здатність " розпізнавати " образи вважається основною властивістю людських істот, як, втім, і інших живих організмів. Образ являє собою опис об'єкта. У кожну мить нашого неспання ми здійснюємо акти розпізнавання. Ми впізнаємо навколишні нас об'єкти і відповідно з цим переміщаємося і здійснюємо певні дії. Ми можемо помітити в натовпі одного і зрозуміти, що він говорить, можемо дізнатися голос знайомого, прочитати рукопис і ідентифікувати відбитки пальців, можемо відрізнити посмішку від злісної гримаси. Людська істота являє собою дуже складну інформаційну систему - певною мірою це визначається надзвичайно розвиненими у людини здібностями розпізнавати образи.

Природна мова на відміну, наприклад, від комп'ютерних (алгоритмічних) мов формувався багато в чому стихійно, не формалізоване. Це обумовлює цілий ряд складнощів в розумінні тексту, викликаних, наприклад, неоднозначним тлумаченням одних і тих же слів залежно від контексту, який може бути і Невитягувані, в принципі, з самого тексту. Отже, цей контекст або знання про предметну область в систему повинні бути заздалегідь внесені. До того ж часто практичні завдання вимагають точного визначення часу, місця того, що описано в тексті, точної ідентифікації людей і т.д., в той час як подібна інформація знаходиться за межами даного тексту. У цьому випадку система може або не обробляти цю інформацію, або залишити її до з'ясування контексту і навіть спробувати проявити ініціативу у з'ясуванні контексту, наприклад, в діалозі з оператором, що задає введення тексту. Те, як поводиться система в подібній ситуації, визначається стилем і схемою роботи системи [ 3 ].

Промислові системи автоматичної обробки тексту, в основному, зараз використовують два етапи аналізу тексту: морфологічний і синтаксичний. Однак теоретичні розробки багатьох дослідників припускають існування наступного за синтаксичним етапу - семантичного. На відміну від попередніх кроків семантичний етап використовує формальне подання сенсу складових вхідний текст слів і конструкцій. Суть семантичного аналізу розуміється різними дослідниками по- різному [ 4 ]. Багато вчених сходяться на думці, що в сферу семантичного аналізу входить:

· Побудова семантичної інтерпретації слів і конструкцій;

· Встановлення " змістовних " семантичних відносин між елементами тексту, які вже принципово не обмежені розміром одного слова (можуть бути більше або менше одного слова).

еякі вчені пропонують розглядати не просто текст на основі його складових слів, речень, абзаців, але й спробувати виявити той смисловий образ, який автор хотів створити у свідомості своїх читачів, за допомогою цього тексту. На сучасному етапі розвитку штучного інтелекту це завдання є практично нерозв'язною.

 

 

Основні проблеми розуміння тексту в обробці природних мов такі:

1. Знання системою контексту і проблемної області та навчання цьому системи. Наприклад, з пропозиції «чоловік увійшов в будинок з червоним портфелем» можна витягти як уявлення про чоловіка з червоним портфелем, так і про будинок з червоним портфелем, якщо заздалегідь не мати на увазі, що стосовно до чоловіків вживання приналежності портфеля набагато ймовірніше, ніж стосовно до будинку.

2. Різна форма передачі синтаксису (тобто структури) пропозиції в різних мовах. Наприклад, якщо синтаксична роль слова (підмет, присудок, визначення і т.д.) в англійській мові багато в чому визначається положенням слова в реченні щодо інших слів, то в російській реченні існує вільний порядок слів і для виявлення синтаксичної ролі слова служать його морфологічні ознаки (наприклад, закінчення слів), службові слова і розділові знаки.

3. Проблема рівнозначності. Пропозиції «довговухий гризун кинувся від мене навтьоки» і «заєць кинувся від мене навтьоки» можуть означати одне і те ж, але можуть мати і різний зміст, наприклад, якщо в першому випадку мався на увазі довговухий тушканчик.

4. Наявність в тексті нових для комп'ютера слів, наприклад неологізмів. Самообучаемая система повинна вміти «інтуїтивно» визначити (можливо, і неправильно, але з можливість надалі виправити себе) лексичну роль, морфологічну форму цього слова, спробувати вписати його в існуючу структуру знань, наділити його якимись атрибутами або з'ясувати все це в діалозі з оператором. Система, не здатна до самонавчання просто втратить якусь кількість інформації.

5. Проблема сумісності нової інформації з уже накопиченими знаннями. Нова інформація може якимось чином суперечити вже накопиченої інформації. Необхідно реалізувати механізм, що визначає, в яких випадках потрібно відкинути стару інформацію, а в яких - нову.

 

6. Проблема тимчасових протиріч. Так у реченні «я думав, що зверну гори» дієслово в минулій формі «думав» поєднується з дієсловом майбутнього часу «зверну».

7. Проблема еліпсів, тобто пропозицій з пропущеними фактично, але існуючими неявно завдяки контексту словами. Наприклад, у реченні «я передам пакет тобі, а ти - Івану Петровичу» у другій частині опущений дієслово «передаси» і іменник «пакет».

Системи, спрямовані на вилучення знань з текстів на природних мовах (тобто на таких мовах, на яких спілкуються люди на відміну, наприклад, від алгоритмічних мов), а також на синтез тексту на основі знань називаються лінгвістичними трансляторами або лінгвістичними процесорами.

Подібні системи можуть інтегруватися з експертними системами, тобто системами, службовцями для того, щоб замінювати людини - експерта в якій-небудь області, наприклад медична діагностика, юридичне консультування, бізнес-планування, діагностика різних технічних несправностей і багатьох інших. У цьому випадку експертна система з одного боку має можливість високоефективно навчатися, накопичувати нові знання, а з іншого боку, здатна видавати інформацію користувачеві в максимально зручній формі.

Крім того, лінгвістичний процесор може бути інтегрований з системою розпізнавання і (або) синтезу мови, що може зробити процес спілкування з комп'ютером максимально зручним, а, отже, і продуктивним.

Однією з найбільш очевидних напрямків застосування лінгвістичних процесорів є машинний переклад з однієї природної мови (ЕЯ) на інший.

Також подібні системи можуть використовуватися і використовуються для автоматичного поповнення інформаційних баз і баз знань (т.зв. «data mining») в ​​тому числі шляхом сканування Інтернету.

 

 

В даний час існують різні підходи до створення систем для автоматизованого семантичного аналізу.

Провівши поверхневий аналіз вітчизняної та зарубіжної літератури з способів і засобів семантичного аналізу тексту, можна зробити наступні висновки:

Системи семантичного аналізу не можуть існувати без морфологічної складової. В якості морфологічної складової виступають різні види словників словоформ (тобто містять всі варіанти відмінювання, дієвідміни і т.д. того чи іншого слова). Найпопулярніший словник (щодо російської мови) серед дослідників - граматичний словник, запропонований Залізняком А.А. Даний словник містить близько 100 000 словоформ, в той час як, за попередніми підрахунками, в російській мові існує більше 200 000 слів. Тому виникає проблема «неповноти» того чи іншого словника. Існує ряд підходів для вирішення цієї проблеми.

Перший спосіб - це так зване навчання з учителем, в якості вчителя виступає людина. Наприклад, коли система стикається зі словом, відсутнім у словнику, вона припиняє свою роботу і чекає від вчителя, поки він покаже їй всі варіанти словоформ даного слова. Цей варіант є дуже трудомістким, тому що вимагає постійного «навчання» з боку людини до того ж, сильно збільшується час виконання аналізу.

Другий спосіб - навчання без учителя, на основі правил. У даному випадку дослідники для проведення морфологічного аналізу використовують зворотні словники або, власноруч створені, бази афіксів (тобто суфіксів, префіксів, закінчень і т.д.) із зазначенням морфологічних ознак, яким відповідає той чи інший афікс. Існує також підхід, згідно з яким немає необхідності створювати окрему базу афіксів, досить просто порівняти форму нового (відсутнього в словнику слова) з усіма словами вже існуючими в словнику і присвоєння новому слову ознак, відповідних словоформе слова зі словника з найбільшим «вагою». У даному випадку використовуються статистичні методи. У цього способу головним недоліком є його імовірнісна частина - залежно від статистичного методу, використовуваного тими чи іншими вченими, «правильність» визначення морфологічних ознак варіювалася від 50 до 97%. Тому дуже часто системи морфологічного аналізу використовують гібридний метод, що використовує обидва ці підходи.

Слід згадати, що на етапі морфологічного аналізу деякі системи використовують також словники акронімів (абревіатур) і словники особистих імен, що істотно прискорює сам процес семантичного аналізу.

Системи семантичного аналізу не можуть існувати без синтаксичної складової. Основним завданням синтаксичного аналізу є побудова синтаксичного дерева пропозиції. Також як і морфологічний аналіз, синтаксичний аналіз є попереднім етапом перед семантичним аналізом. На цьому етапі відсіюється велика частина омонімів (слова різного значення, але однаково звучать, напр., Підлогу, коса, ключ), виявлених на етапі морфологічного аналізу. Що, в свою чергу, суттєво прискорить семантичний аналіз.

Для представлення в пам'яті комп'ютера значення всіх змістовних одиниць аналізованого мови (лексичних, морфологічних, синтаксичних і словотворчих) та приведення їх до єдиного, формальному увазі, зрозумілому комп'ютеру, використовується, спеціально створений для цього штучна мова або, як його ще називають деякі вчені, метамова.

Реально в якості семантичного метамови в більшості сучасних робіт використовується не універсальний штучна мова, а якийсь спрощений і стандартизований под'язик описуваного мови зі своїм словником і граматикою [ 2 ].

В даний час під егідою Інституту передових досліджень токійського університету Організації Об'єднаних Націй розробляється універсальний мережевий мова (The Universal Networking Language, UNL). За задумом, UNL - це штучний семантико- синтаксичний мова, призначена для опису, зберігання і розповсюдження інформації в WWW в не що залежить від якого-небудь природної мови вигляді, а також незалежно від конкретної комп'ютерної платформи або операційної системи. На відміну від систем машинного перекладу, покликаних здійснювати переклад з однієї природної мови на іншу, передбачається, що система UNL повинна вміти автоматично (або напівавтоматично) перетворювати вихідний текст в його UNL -виставу, а потім синтезувати з цього подання текст потрібною мовою. Таким чином, про UNL можна говорити як про своєрідний мові- посереднику, зручному для зберігання інформації та її відновлення на будь-якому природній мові з числа підтримуваних системою [ 6 ].

Підводячи підсумки всього вищесказаного, можна зробити висновки, що семантичний аналіз в даний час рухається в сторону формальних граматик (Мельчук І., Хомський Н. та ін), але поки значних проривів в даній області не спостерігається.

Крім того, величезну популярність отримали так звані онтології (формальні явні опису термінів предметної області і відносин між ними), які можуть бути використані як основа для семантичного аналізу. У всесвітній павутині онтології стали звичайним явищем. Онтології варіюються від великих таксономій, категоризує веб- сайти (як на сайті Yahoo!), до категоризації продаваних товарів і їх характеристик (як на сайті Amazon.com). Консорціум WWW (W3C) розробляє RDF (Resource Description Framework), мова кодування знань на веб- сторінках, для того, щоб зробити їх зрозумілими для електронних агентів, які здійснюють пошук інформації. Управління перспективних досліджень і розробок міністерства оборони США (The Defense Advanced Research Projects Agency, DARPA) у співпраці з W3C розробляє Мова Розмітки для Агентів DARPA (DARPA Agent Markup Language, DAML), розширюючи RDF виразнішими конструкціями, призначеними для полегшення взаємодії агентів в мережі. У багатьох дисциплінах зараз розробляються стандартні онтології, які можуть використовуватися експертами по предметних областях для спільного використання та анотування інформації у своїй галузі. Наприклад, в галузі медицини створені великі стандартні, структуровані словники, такі як snomed і семантична мережа Системи Уніфікованого Медичного Мови (the Unified Medical Language System). Також з'являються великі общецелевие онтології. Наприклад, Програма ООН з розвитку (the United Nations Development Program) і компанія Dun & Bradstreet об'єднали зусилля для розробки онтології UNSPSC, яка надає термінологію товарів і послуг


 



Поделиться:


Последнее изменение этой страницы: 2016-08-06; просмотров: 454; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.137.183.14 (0.014 с.)