Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Каталоги — лучше, чем поиск?

Поиск

Ничто не может заменить оглавления, и в мире информационных технологий оглавления используются очень широко. В первую очередь это каталоги — т. е. рубрикаторы или классификаторы, организующие множества документов в деревья или целые заросли рубрик. В Internet такие каталоги известны не менее, чем популярные поисковые машины, прежде всего это знаменитый каталог Yahoo (www.yahoo.com).

Делается это просто (по крайней мере внешне это так выглядит): создатели классификаторов придумывают достаточно логичное и прозрачное дерево категорий, а затем наполняют его ссылками на документы и прочие ресурсы и составляют к ссылкам краткие аннотации.

Несмотря на наступление компьютерной эры, эта работа делается вручную, в частности, потому, что отнесение документа к нужным рубрикам — процесс в высшей степени неформальный. Например, каталог Yahoo непрерывно наполняют содержанием (ссылками и аннотациями) несколько тысяч человек, являющихся специалистами в той или иной области (т. е. категории документов). Впрочем, сейчас появляются средства автоматической классификации и аннотирования документов, о чем подробнее сказано несколько ниже.

Точно так же строятся каталоги и классификаторы вне Internet, в частности в правовых справочных базах данных, в корпоративных информационных системах и проч.

Каталоги предоставляют более удобный вид доступа к данным, так как они больше, чем поисковые машины, похожи на знания за счет своей структурированности. Однако для эффективного использования каталога пользователю нужно еще угадать принцип структуризации, который был применен при его создании и который зачастую существует только в головах авторов каталога. Поэтому для компенсации неудобств каталогов (если уж пользователь не знает, на какой ветке дерева «по логике» данного каталога лежит нужная ссылка, то не найдет ее никогда), каталоги в последнее время стали включать и средства поиска. И наоборот — поисковые машины стали снабжаться каталогами; в частности обзавелся своим тематическим каталогом ресурсов ветеран русского Internet «Рамблер».

Видимо, в дальнейшем эти два вида доступа окончательно переплетутся; вопрос только в том, как автоматизировать составление каталогов.

Аннотирование.

Если помните, в старых книгах каждая глава начиналась с краткого изложения: «Робинзон видит человеческие следы, находит Пятницу, приучает его солить пищу, собирает первый урожай киви». Эти изложения (аннотации) выносились в оглавления, что лично мне представляется очень гуманным; жаль, что современные авторы так не делают.

Существующие каталоги также по возможности содержат аннотации для внесенных в них ссылок. Например, Yahoo содержит аннотированные ссылки на 500 000 Internet-страниц, разбитых на 25 000 категорий. Как говорилось выше, аннотации составляются вручную, скажем для сервера по экологическим проблемам — специалистом по экологии, а по медицинскому серверу — специалистом по медицине (а может быть, и по тому и по другому — одним и тем же специалистом по биологии, не знаю). Русский аналог Яху — Ау! — составляется точно так же, только специалистов в нем работает не тысячи, а в лучшем случае один-два десятка, аннотированных ресурсов — около 12 000.

Однако даже для каталогов по узким темам или географически ограниченным областям Internet ручная классификация и аннотирование начинают представлять собой проблему — количество информации в Internet растет «по экспоненте», сложность системы, количество связей, дублей и проч. также возрастает. Возникает потребность в автоматизации каталожной работы, в частности в автоматическом составлении аннотаций. Ниже в разделе «Автоматическое извлечение знаний» я расскажу о том, что сделано в этой области.

Гипертекст.

Давно применявшиеся в книжном деле ссылки с возникновением компьютерных методов хранения текстов преобразовались в гипертекст. Наиболее разросшимся примером гипертекста является Всемирная Паутина.

Первое время на подобный способ организации данных возлагали очень большие надежды, считалось, что гипертекстовые структуры вытеснят линейные, что руководства, научные статьи и даже художественные произведения станут гипертекстовыми и интерактивными и будут писаться только в Сети и т. д. Однако сейчас постепенно становится ясно, что способ организации информации через ссылки, кроме удобства доступа (увидел ссылку — щелкнул мышью), имеет несколько существенных недостатков, среди которых низкая наглядность, не очевидность структуры, плохая запоминаемость пользователем пройденного пути и т. д. Как правило, основной результат сколько-нибудь длительной работы со сложным гипертекстом — ощущение, что ты «потерялся», и желание вернуться к началу пути. Дело в том, что средний человек с трудом запоминает вложенные структуры с уровнем вложенности более трех, а этим количеством уровней никогда не удается обойтись при создании крупных структур данных.

Справедливость сказанного видна из факта появления функции поиска и оглавлений (sitemap) на всех крупных серверах Internet.

Тем не менее способ организации гипертекстовых связей сам по себе как дополнительное средство доступа достаточно удобен и также допускает автоматизацию при создании больших массивов знаний, о чем подробнее будет рассказано далее.



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 154; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.133.146.94 (0.006 с.)