Извлечение простейших знаний. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Извлечение простейших знаний.



Поиск особых контекстных явлений. Существующие поисковые системы не слишком умны. Даже имея текстовую базу, содержащую всю нужную информацию, можно так и не найти ее. Вот простейший пример: как отыскать документы, содержащие дату 19.07.1998? Речь здесь идет не о поиске документов с такой датой создания, это-то как раз просто, а о содержащих упоминания данной даты. Для подавляющего большинства поисковых систем — это невыполнимая задача.

Во-первых, сама по себе данная дата, как правило, представляет для них три разных слова — 19, 07 и 1998. Во-вторых, поисковая система не сможет «вспомнить» и найти синонимы даты — 19 июля 1998 года, девятнадцатое июля 98 года и т. д.

А ведь для журналиста, сотрудника спецслужбы или бизнес-аналитика могут быть наиболее важны в тексте именно даты, суммы прописью и числами, номера телефонов и автомобилей в разных написаниях, коды ГНИ, адреса, полные имена (ФИО), имена фирм и продуктов, торговые марки — те осмысленные контекстные явления, имеющие разнообразные формы, которые не обнаруживаются и не отождествляются при индексации текстов и не находятся при обычных «логических» запросах.

Реализуются подобные поисковые возможности путем написания специальных «распознавателей» на каждый тип контекстных явлений и подключения их на этапе индексирования текстов.

К сожалению, пока в популярных поисковых машинах Internet нет подобных возможностей. Системы поиска, применяемые в корпоративных системах документооборота, тоже пока этого не умеют. Однако, видимо, поисковые средства такого рода появятся в скором времени, поскольку есть потребность: в частности одна из самых больших сетевых библиотек Dialog Corp., www.dialog.com, дает средства поиска по множеству таких явлений, в том числе по известным и неизвестным (!) именам компаний и торговых марок.

Фактографические запросы. Кроме прямого поиска по тексту, пусть даже особых «вкраплений», хотелось бы, чтобы система отвечала на так называемые фактографические вопросы, например «Где купить самый дешевый подержанный „Фольксваген“ не старше пяти лет?» Особенно это актуально для электронных энциклопедий, служб технической поддержки, систем помощи и сетевых библиотек.

Для того чтобы система могла отвечать на подобные вопросы, и поисковый запрос, и сами текстовые данные должны обрабатываться более тонким образом.

Действительно, в отличие от обычного поиска вхождений терминов запроса в документы, для того, чтобы электронная энциклопедия могла ответить на вопрос «Какая самая высокая гора в мире?» или «Кто были цари России в прошлом веке?», нужно не только правильно препарировать запрос (например, отождествить понятие «прошлый век» с интервалом цифровых значений дат), но и просмотреть множество статей, сравнить результаты поиска по ним и объединить их в разумный ответ.

Задача, как легко видеть, сложная, и в настоящее время практически не существует программ, позволяющих задавать фактографические запросы к текстовым базам данных.

Очевидно, работы в данном направлении ведутся, и, как всегда, маркетинг далеко опережает результаты, однако до появления доступных и дешевых технологий обработки фактографических запросов пока далеко. Хорошим примером неудачной реализации этой идеи может служить так называемый Answer Wizard, входящий в состав системы помощи во многих современных приложениях Windows.

Языковой доступ к базам данных. Доступ к базам данных на обычным естественном языке является давней мечтой человечества, и не раз уже объявлялось, что эта задача решена. Как правило, всякий раз это оказывалось рекламным трюком.

Действительно, имея тщательно собранную и стоившую значительных средств базу данных по покупателям определенных товаров, хотелось бы иметь возможность спросить ее, например: «Кто из наших заказчиков дважды покупал один и тот же товар в течение месяца?» или «Сколько покупателей потратили за один раз сумму больше 1000?» Более того, многие начинающие пользователи при знакомстве с базами данных очень удивляются, что этого сделать нельзя, ведь именно этого они ожидали от компьютерных технологий!

К сожалению, пока такие вопросы приходится задавать программисту, обслуживающему базу данных, а уж он переводит их на стандартный Структурированный язык запросов (SQL), поддерживаемый всеми популярными базами данных, и выдает результаты в специальных формах отчетов. Круг типичных вопросов обычно довольно быстро исчерпывается — до следующего пользователя.

Язык SQL создавался специально для таких запросов, и для англоговорящего пользователя его синтаксис напоминает синтаксис естественного языка. Однако сходство это скорее внешнее, и задание запросов на SQL — это достаточно квалифицированный труд.

Фактически, задача естественно-языкового интерфейса к базам данных состоит в переводе с обычного языка на формальный язык SQL и значительно проще машинного перевода на другой естественный язык.

С развитием средств обработки естественного языка, систем машинного перевода и средств поиска по запросу на естественном языке задача несколько упростилась, и можно надеяться, что в ближайший год-два проблема будет все же решена. В частности, уже упоминавшаяся компания Junglee (www.junglee. com) уже объявляет, что через ее виртуальную базу данных можно задавать запросы такого «естественного вида» ко многим базам данных, выставленным в Internet, например к банкам кадров.



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 118; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.4.181 (0.004 с.)