Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Организация информации и доступ к ней.

Поиск

Неверно думать, хотя к этому нас подталкивают творцы компьютерного мифа, что компьютеры — это мир совершенно новых идей и способов. По-настоящему новых идей всегда мало.

Нужно сказать, что и для организации доступа к текстовым данным человечество пока не придумало ничего существенно лучшего, чем оглавление с аннотациями глав (для поиска нужной информации «сверху») и предметный указатель — индекс по ключевым словам (для поиска нужного фрагмента непосредственно, «снизу»).

Второстепенным способом организации служат также ссылки, превратившиеся в компьютерную эпоху в гипертекст и World Wide Web, однако также придуманные довольно давно.

Хорошие университетские учебники служат именно эффективной передаче знаний и поэтому издавна включают все эти способы организации знаний. Наиболее близкий автору пример — классический трехтомный курс математического анализа Фихтенгольца, в котором поиск нужной леммы или теоремы занимает секунды.

Рассмотрим компьютерные способы организации знаний и доступа к ним подробнее.

Поиск.

Поиск — это простейший способ доступа к текстовым данным, скорее подбор информации, чем извлечение знаний. Подробно поиск и поисковые машины обсуждались в прошлых номерах «Электронного офиса», а здесь мы только кратко перечислим основные «умения» поисковых машин: индексирование текстов и поиск по ключевым словам (по индексу); морфологический поиск — разбор и отождествление различных грамматических форм слов; логический язык запросов, позволяющий задавать условия на совместное вхождение ключевых слов в искомый документ; ранжирование по степени соответствия документа запросу.

Как видно из перечисленного, «классическая» поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю, что, кстати, может сделать и читатель печатного учебника, сравнив по предметному указателю, на каких страницах одновременно встречаются нужные ему термины.

Этой простой возможности при росте объемов текстовых баз становится совершенно недостаточно, и в последнее время поисковые машины начинают оснащаться средствами извлечения знаний. В первую очередь новшества появляются в поисковых машинах Internet, а затем постепенно проникают в средства поиска, входящие в корпоративные системы документооборота. Рассмотрим некоторые из этих новшеств.

Итеративный поиск: функция «найти похожие». Данная возможность позволяет постепенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие «о том же». Выполняется такой поиск путем превращения документа в поисковый запрос (естественно, с определенной степенью «сжатия», так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских — «Яндексом» (www.yandex.ru) и «Рамблером» (www.rambler.ru). Нужно сказать, что пока компьютерная наука продвинулась в этом вопросе не слишком далеко, и, как правило, работает данная функция плохо — часто находит совсем не то.

Поиск по выборке. если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в исполнении (нужно только запомнить предыдущую выборку) и реализована в большинстве популярных машин Internet, включая российские «Яндекс» и «Рамблер».

Запрос на естественном языке. В отличие от формальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме, как если бы он задавался человеку: «Как выйти замуж за миллионера?», «Скажи, где купить привод CD-ROM?» и т. д. Реализуется данная функция путем отбрасывания шумовых слов и выражений (как, скажи, где, за), выделения грамматической структуры запроса, подстановки синонимов и т. п.

Опять-таки, большинство поисковых машин декларирует подобную возможность, и пользователь действительно может ввести в строке запроса «естественный» набор слов, не разделяя их логическими операторами, однако зачастую эта функция фактически не работает. Например, «Рамблер» даже не отбрасывает «шумовых» слов и честно показывает все вхождения слов «как», «за» и подобных им, что, конечно, не имеет смысла и не нужно пользователю.

Тезаурусы. Тезаурусы (словари) служат для так называемого расширения запроса и включают синонимы, антонимы, родственные слова, «вышестоящие» и «нижестоящие» категории и понятия (военный-офицер-капитан).

Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока большинство поисковых машин тезауруса не имеют, в том числе и упоминавшиеся российские машины. Трудно сказать, чем это вызвано, видимо, высокой стоимостью и сложностью лексикографической (словарной) работы.

Поиск типа «где». Как видно из сказанного выше, поисковые машины отыскивают все упоминания нужного понятия в документах. В последнее время стало ясно, что пользователя часто интересует не только поиск «чего-нибудь» где угодно и в любом количестве, но и наоборот — поиск одного конкретного места, где находится уже известная ему вещь: сервер Internet или домашняя страница. Чтобы удовлетворить эту потребность, начали появляться особые поисковые машины — службы имен, позволяющие по «обычному» имени ресурса Internet найти точное место, где он расположен. В настоящий момент таких известных служб две: калифорнийская служба имен RealNames (www.realnames.com) и российская Национальная Служба Имен (www.names.ru).

Обе эти службы позволяют вводить естественно-языковые имена в адресную строку программы просмотра (браузера) и сразу попадать на нужный сервер (например, набрав в адресной строке браузера «правительство», можно попасть на www.gov.ru), а также допускают использование различных синонимов для одного имени и задание неполных имен. Делается это путем поддержания базы имен и их соответствий обычным формальным адресам Internet, а также рассылки пользователям драйверов для распознавания естественных имен в браузере1. Впрочем, данные службы дают возможность не только адресоваться к глобальной сети, но и создавать локальные службы естественно-языковых имен для внутренних сетей.

Очевидно, данный вид поиска будет постепенно включен в традиционные поисковые машины, в частности служба имен RealNames уже куплена поисковой службой AltaVista, так что теперь, если посетитель подобной поисковой машины введет в качестве запроса имя некоторой компании или ее торговую марку, первой в результатах поиска будет выдана именно ссылка на сервер этой компании.



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 153; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.144.199 (0.01 с.)