Моделі представлення змісту тексту 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Моделі представлення змісту тексту



Моделі представлення змісту тексту

Завдання пошуку документів за зразком предпологает вирішення двох основних завдань:

тематична класифікація текстової інформації;

обчислення ступеня тематичної приналежності тексту до заданому класу.

Ці завдання пов'язані, насамперед, з аналізом тексту, а саме, з аналізом смислового змісту тексту, його тематичної спрямованості.

Всю сукупність представлених на сьогоднішній день методів аналізу тексту, щодо завдання аналізу його змісту, можна розділити на дві великі групи:

лінгвістичний аналіз;

статистичний аналіз.

Перший орієнтований на витяганні сенсу тексту за його семантичній структурі. Другий - по частотному розподілу слів у тексті.

У даній роботі було прийнято рішення використовувати методи статистичного аналізу в силу їх відносної простоти, зручності використання та мовної незалежності. Методи лінгвістичного аналізу, хоча й дозволяють точніше аналізувати текст, виділяючи його структурні особливості, але є більш трудомісткими і складними у використанні. Пов'язано це, перш за все, з багатством семантики і морфології природних мов. Формальний опис правил природної мови та їх реалізація - дуже трудомісткий процес, що вимагає залучення фахівців з області лінгвістики. Крім того, лінгвістичний аналіз передбачає орієнтацію на конкретну мову з його конкретними семантичними особливостями, це обумовлює його погану міжмовну переносимість. Роботи в даному напрямку йдуть, і існує безліч практичних реалізацій, але на сьогоднішній день лінгвістичний аналіз по частині аналізу семантики досить проблематичний.

 

Все це зумовило доцільність застосування статистичних методів для вирішення завдань даної роботи. Однак частотний аналіз, використовуваний в даний час при визначенні тематики документів, не дозволяє повною мірою врахувати внутрішню структуру тексту, тому що при такому аналізі не враховується зв'язність і послідовність тексту. Хоча саме зв'язність тексту (мовного висловлювання) вважається одним з найважливіших умов, необхідних для розуміння його змила і змісту. Дане положення є ключовим як у психолінгвістиці, так і нейропсихології.

 

У ряді робіт в області інформаційного пошуку також наголошується ця особливість. Спираючись на результати цих досліджень, а також результати власних досліджень, автором була розроблена модель структурного представлення тексту, враховує його зв'язність.


 

Огляд семантичних пошукових систем

Суть семантичного пошуку не тільки в питаннях, що задаються нами. Унаслідок того, що веб - це набір неструктурованих HTML - сторінок, в основі семантичного пошуку лежить ще і базова інформація. Самою чіткою і зрозумілою з усіх ми знайшли Freebase - семантична база даних. Freebase працює не тільки через текстовий пошук, а що найбільш важливо, і через - MQL (Metaweb Query Language). MQL це майже той же JSON (текстовий формат обміну даними), але з більш широкими можливостями. З його допомогою ви можете скласти будь-який запит в Freebase і відповіддю буде той же запит, але вже зі вставленими результатами пошуку.

Powerset, по суті, це тематична база даних, яка працює з певною структурованою інформацією. З іншого боку є Google, який в першу чергу орієнтується на статистичну частоту запитів і майже не бере до уваги семантику. Викликає інтерес нова система SearchMonkey від Yahoo! Ця система нічого не додає до знайдених результатами, але використовує семантичні анотації для більш повного, інтерактивного і корисного для користувача інтерфейсу.

Компанії Hakia і Powerset явно працюють з максимальною віддачею. Вони намагаються створити подібні Freebase структури, а потім по топовим результатами провести пошук на природній мові. Відмінність в тому, що Hakia (як і інші) використовує технологію для пошуку по всій мережі, а Powerset замкнув свій пошук на Wikipedia.

У зв'язку з цим з'являється питання: «Які з цих технологій схожі, а які кардинально відрізняються?» Давайте почнемо з простого. SearchMonkey нічим не відрізняється від Google і будь-який інший пошукової системи, тому суть у них одна, а різниця присутня лише в зовнішньому вигляді. Сервіс SearchMonkey хороший тим, що дозволять видавцям представити результати пошуку в найкращому вигляді.

Що ж до Hakia, Powerset і Freebase, то тут ситуація інша. На перший погляд вони зовсім різні: Hakia в пошуку використовує весь веб, Powerset - лише Wikipedia і Freebase, а Freebase володіє двома пошуковими інтерфейсами: пошукова рядок і мова пошуку. Але існує одна проблема: природна мова не має нічого спільного з репрезентативністю базової інформації.

Справа в тому, що всі технології семантичного пошуку дозволяють користувачам забивати довільні складні питання, а потім інтерпретують їх і застосовують до наявних базах даних. Hakia, Powerset, Freebase такими базами є, і всі вони володіють системою автоматичної обробки природної мови, яка «переводить» питання на стандартний запит, зрозумілий для бази.

 

Щоб зрозуміти, як це все влаштовано, уявіть Freebase і його мова пошуку MQL. На відміну від природної мови, який дозволяє поставити запитання різними способами, MQL двозначності передбачає. Цей JSON - подібна мова дозволяє користувачам формулювати чіткі запити для пошуку в базі Freebase. Те, що Powerset дозволяє будувати питання на природній мові, ще не означає, що Powerset не є базою даних. Powerset - це база, т.к. в її основі лежить пошукова рядок Freebase. Відмінність Freebase від Powerset полягає в підходах до пошуку і способам надання його результатів.

Семантичний пошук - це технологія майбутнього, що поставила перед собою занадто високі цілі. Всі ми думали, що він допоможе повалити Google і надати найбільш якісні результати пошуку. Обидва ці твердження виявилися помилковими. Правда в тому, що семантичний пошук - явище багатофакторне, і він допоможе нам вирішувати ті завдання, які ми не можемо вирішити зараз: складні, логічно обгрунтовані запити, які часто-густо зустрічаються в мережі.


 

Глава 2. Побудова моделі смислового опису контенту.

Смислове опис контенту.

Поняття зміст тексту не має однозначного формального визначення.Ми будемо використовувати цей термін в трактуванні І.А.Мельчука: «сенс – це інваріант всіх синонімічних перетворень, тобто то загальне, що є в рівнозначних текстах» (І.А. Мельчук).

Побудова смислового опису тексту може вирішувати багато практичних завдання, у тому числі: семантичний пошук: виявлення фактів, в яких беруть участь конкретні ключові поняття; обробка тексту на природній мові в системах управління контентом; перевірка відповідей учнів в системах контролю знань при використанні відкритої форми тестування. Такого роду завдання характеризуються необхідністю порівняння двох текстів один з одним на смислове відповідність з урахуванням предикативних відносин у тексті.

Як відомо, тестові завдання для контролю знань зазвичай складаються на основі навчального матеріалу - тексту лекції, навчального посібника, методичних вказівок і т.п. Для перевірки необхідно проводити зіставлення смислів тексту відповіді і тексту лекції, на основі якої було сформульовано тестове завдання. У сучасних системах тестування автоматизована перевірка відкритої форми реалізується за умови введення відповіді на обмеженому природній мові. Для перевірки відповіді на необмеженій природній мові необхідно передбачати можливість використання синонімів і різних варіантів побудови фрази без обмежень на поділ тексту по пропозиціям, що дає можливість випробуваному висловити думку в довільній формі.

Традиційні підходи до опису природної мови розглядають текст на декількох рівнях. Стосовно до проблеми семантики поділу тексту на рівні наступне: фонетичний, фонологічний, лексико-морфологічний, синтаксичний, рівень змісту тексту (І.А. Мельчук).Предикативні відносини виявляються на синтаксичному рівні в рамках одної пропозиції. Що стосується смислового опису тексту в цілому, то під багатьох завданнях (наприклад, в інформаційному пошуку) воно реалізується з застосуванням частотного аналізу та ймовірносно-статистичних методів. при цьому смислова структура тексту не може дати уявлення про предикативних відносинах між ключовими поняттями. Отже, для вирішення перерахованих вище практичних завдань необхідно розробити методи і алгоритми, які використовують синтаксичний аналіз пропозицій в якості основи для побудови смислового опису всього тексту, а також сформувати кількісні критерії оцінки відповідності смислів текстів.


 

 

РОЗДІЛ 4 Охорона праці

Моделі представлення змісту тексту

Завдання пошуку документів за зразком предпологает вирішення двох основних завдань:

тематична класифікація текстової інформації;

обчислення ступеня тематичної приналежності тексту до заданому класу.

Ці завдання пов'язані, насамперед, з аналізом тексту, а саме, з аналізом смислового змісту тексту, його тематичної спрямованості.

Всю сукупність представлених на сьогоднішній день методів аналізу тексту, щодо завдання аналізу його змісту, можна розділити на дві великі групи:

лінгвістичний аналіз;

статистичний аналіз.

Перший орієнтований на витяганні сенсу тексту за його семантичній структурі. Другий - по частотному розподілу слів у тексті.

У даній роботі було прийнято рішення використовувати методи статистичного аналізу в силу їх відносної простоти, зручності використання та мовної незалежності. Методи лінгвістичного аналізу, хоча й дозволяють точніше аналізувати текст, виділяючи його структурні особливості, але є більш трудомісткими і складними у використанні. Пов'язано це, перш за все, з багатством семантики і морфології природних мов. Формальний опис правил природної мови та їх реалізація - дуже трудомісткий процес, що вимагає залучення фахівців з області лінгвістики. Крім того, лінгвістичний аналіз передбачає орієнтацію на конкретну мову з його конкретними семантичними особливостями, це обумовлює його погану міжмовну переносимість. Роботи в даному напрямку йдуть, і існує безліч практичних реалізацій, але на сьогоднішній день лінгвістичний аналіз по частині аналізу семантики досить проблематичний.

 

Все це зумовило доцільність застосування статистичних методів для вирішення завдань даної роботи. Однак частотний аналіз, використовуваний в даний час при визначенні тематики документів, не дозволяє повною мірою врахувати внутрішню структуру тексту, тому що при такому аналізі не враховується зв'язність і послідовність тексту. Хоча саме зв'язність тексту (мовного висловлювання) вважається одним з найважливіших умов, необхідних для розуміння його змила і змісту. Дане положення є ключовим як у психолінгвістиці, так і нейропсихології.

 

У ряді робіт в області інформаційного пошуку також наголошується ця особливість. Спираючись на результати цих досліджень, а також результати власних досліджень, автором була розроблена модель структурного представлення тексту, враховує його зв'язність.


 



Поделиться:


Последнее изменение этой страницы: 2016-08-06; просмотров: 238; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.116.118.244 (0.015 с.)