Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: АрхеологияБиология Генетика География Информатика История Логика Маркетинг Математика Менеджмент Механика Педагогика Религия Социология Технологии Физика Философия Финансы Химия Экология ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Организация информации и доступ к ней.Содержание книги Поиск на нашем сайте
Неверно думать, хотя к этому нас подталкивают творцы компьютерного мифа, что компьютеры — это мир совершенно новых идей и способов. По-настоящему новых идей всегда мало. Нужно сказать, что и для организации доступа к текстовым данным человечество пока не придумало ничего существенно лучшего, чем оглавление с аннотациями глав (для поиска нужной информации «сверху») и предметный указатель — индекс по ключевым словам (для поиска нужного фрагмента непосредственно, «снизу»). Второстепенным способом организации служат также ссылки, превратившиеся в компьютерную эпоху в гипертекст и World Wide Web, однако также придуманные довольно давно. Хорошие университетские учебники служат именно эффективной передаче знаний и поэтому издавна включают все эти способы организации знаний. Наиболее близкий автору пример — классический трехтомный курс математического анализа Фихтенгольца, в котором поиск нужной леммы или теоремы занимает секунды. Рассмотрим компьютерные способы организации знаний и доступа к ним подробнее. Поиск. Поиск — это простейший способ доступа к текстовым данным, скорее подбор информации, чем извлечение знаний. Подробно поиск и поисковые машины обсуждались в прошлых номерах «Электронного офиса», а здесь мы только кратко перечислим основные «умения» поисковых машин: индексирование текстов и поиск по ключевым словам (по индексу); морфологический поиск — разбор и отождествление различных грамматических форм слов; логический язык запросов, позволяющий задавать условия на совместное вхождение ключевых слов в искомый документ; ранжирование по степени соответствия документа запросу. Как видно из перечисленного, «классическая» поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю, что, кстати, может сделать и читатель печатного учебника, сравнив по предметному указателю, на каких страницах одновременно встречаются нужные ему термины. Этой простой возможности при росте объемов текстовых баз становится совершенно недостаточно, и в последнее время поисковые машины начинают оснащаться средствами извлечения знаний. В первую очередь новшества появляются в поисковых машинах Internet, а затем постепенно проникают в средства поиска, входящие в корпоративные системы документооборота. Рассмотрим некоторые из этих новшеств. Итеративный поиск: функция «найти похожие». Данная возможность позволяет постепенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие «о том же». Выполняется такой поиск путем превращения документа в поисковый запрос (естественно, с определенной степенью «сжатия», так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских — «Яндексом» (www.yandex.ru) и «Рамблером» (www.rambler.ru). Нужно сказать, что пока компьютерная наука продвинулась в этом вопросе не слишком далеко, и, как правило, работает данная функция плохо — часто находит совсем не то. Поиск по выборке. если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в исполнении (нужно только запомнить предыдущую выборку) и реализована в большинстве популярных машин Internet, включая российские «Яндекс» и «Рамблер». Запрос на естественном языке. В отличие от формальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме, как если бы он задавался человеку: «Как выйти замуж за миллионера?», «Скажи, где купить привод CD-ROM?» и т. д. Реализуется данная функция путем отбрасывания шумовых слов и выражений (как, скажи, где, за), выделения грамматической структуры запроса, подстановки синонимов и т. п. Опять-таки, большинство поисковых машин декларирует подобную возможность, и пользователь действительно может ввести в строке запроса «естественный» набор слов, не разделяя их логическими операторами, однако зачастую эта функция фактически не работает. Например, «Рамблер» даже не отбрасывает «шумовых» слов и честно показывает все вхождения слов «как», «за» и подобных им, что, конечно, не имеет смысла и не нужно пользователю. Тезаурусы. Тезаурусы (словари) служат для так называемого расширения запроса и включают синонимы, антонимы, родственные слова, «вышестоящие» и «нижестоящие» категории и понятия (военный-офицер-капитан). Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока большинство поисковых машин тезауруса не имеют, в том числе и упоминавшиеся российские машины. Трудно сказать, чем это вызвано, видимо, высокой стоимостью и сложностью лексикографической (словарной) работы. Поиск типа «где». Как видно из сказанного выше, поисковые машины отыскивают все упоминания нужного понятия в документах. В последнее время стало ясно, что пользователя часто интересует не только поиск «чего-нибудь» где угодно и в любом количестве, но и наоборот — поиск одного конкретного места, где находится уже известная ему вещь: сервер Internet или домашняя страница. Чтобы удовлетворить эту потребность, начали появляться особые поисковые машины — службы имен, позволяющие по «обычному» имени ресурса Internet найти точное место, где он расположен. В настоящий момент таких известных служб две: калифорнийская служба имен RealNames (www.realnames.com) и российская Национальная Служба Имен (www.names.ru). Обе эти службы позволяют вводить естественно-языковые имена в адресную строку программы просмотра (браузера) и сразу попадать на нужный сервер (например, набрав в адресной строке браузера «правительство», можно попасть на www.gov.ru), а также допускают использование различных синонимов для одного имени и задание неполных имен. Делается это путем поддержания базы имен и их соответствий обычным формальным адресам Internet, а также рассылки пользователям драйверов для распознавания естественных имен в браузере1. Впрочем, данные службы дают возможность не только адресоваться к глобальной сети, но и создавать локальные службы естественно-языковых имен для внутренних сетей. Очевидно, данный вид поиска будет постепенно включен в традиционные поисковые машины, в частности служба имен RealNames уже куплена поисковой службой AltaVista, так что теперь, если посетитель подобной поисковой машины введет в качестве запроса имя некоторой компании или ее торговую марку, первой в результатах поиска будет выдана именно ссылка на сервер этой компании.
|
||||
Последнее изменение этой страницы: 2016-12-28; просмотров: 153; Нарушение авторского права страницы; Мы поможем в написании вашей работы! infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.118.144.199 (0.01 с.) |