Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Информация и знания: невидимая грань

Поиск

Информация и знания: невидимая грань

  • Архив it2b

Автор: Игорь Ашманов | Источник: newasp.omskreg.ru

Введение.

Стоимость знаний.

В разведывательном деле любой кусочек даже тривиальной информации может стоить очень дорого, а в обычной жизни, и особенно в Internet, знания стоят намного дороже, чем просто информация.

Информации в Internet масса, и почти вся она бесплатна, а вот знаний немного. Показательно, что существует довольно много служб в Internet, продающих структурированные данные — аналитические обзоры, собранную и препарированную прессу и т. п. Эти же данные в разбросанном виде, по частям, практически на 100% доступны в Internet кому угодно — бесплатно. Т. е. деньги берутся этими службами именно за работу по превращению данных в знания.

Естественно, если знания настолько важны и стоят так дорого, их добычу хотелось бы автоматизировать. И человечество уже продвинулось по этому пути.

Мы дадим здесь краткий очерк возможностей компьютера по извлечению знаний из текстов. Если в других статьях данного номера речь в основном идет об управлении готовыми корпоративными, «внутренними», знаниями, то мы поговорим о внешних, неструктурированных, данных, преимущественно текстовых, и превращении их в знания.

Организация информации и доступ к ней.

Неверно думать, хотя к этому нас подталкивают творцы компьютерного мифа, что компьютеры — это мир совершенно новых идей и способов. По-настоящему новых идей всегда мало.

Нужно сказать, что и для организации доступа к текстовым данным человечество пока не придумало ничего существенно лучшего, чем оглавление с аннотациями глав (для поиска нужной информации «сверху») и предметный указатель — индекс по ключевым словам (для поиска нужного фрагмента непосредственно, «снизу»).

Второстепенным способом организации служат также ссылки, превратившиеся в компьютерную эпоху в гипертекст и World Wide Web, однако также придуманные довольно давно.

Хорошие университетские учебники служат именно эффективной передаче знаний и поэтому издавна включают все эти способы организации знаний. Наиболее близкий автору пример — классический трехтомный курс математического анализа Фихтенгольца, в котором поиск нужной леммы или теоремы занимает секунды.

Рассмотрим компьютерные способы организации знаний и доступа к ним подробнее.

Поиск.

Поиск — это простейший способ доступа к текстовым данным, скорее подбор информации, чем извлечение знаний. Подробно поиск и поисковые машины обсуждались в прошлых номерах «Электронного офиса», а здесь мы только кратко перечислим основные «умения» поисковых машин: индексирование текстов и поиск по ключевым словам (по индексу); морфологический поиск — разбор и отождествление различных грамматических форм слов; логический язык запросов, позволяющий задавать условия на совместное вхождение ключевых слов в искомый документ; ранжирование по степени соответствия документа запросу.

Как видно из перечисленного, «классическая» поисковая машина умеет найти по запросу из нескольких слов все документы, в которые данные слова входят и предъявить их пользователю, что, кстати, может сделать и читатель печатного учебника, сравнив по предметному указателю, на каких страницах одновременно встречаются нужные ему термины.

Этой простой возможности при росте объемов текстовых баз становится совершенно недостаточно, и в последнее время поисковые машины начинают оснащаться средствами извлечения знаний. В первую очередь новшества появляются в поисковых машинах Internet, а затем постепенно проникают в средства поиска, входящие в корпоративные системы документооборота. Рассмотрим некоторые из этих новшеств.

Итеративный поиск: функция «найти похожие». Данная возможность позволяет постепенно уточнить запрос: указать на один или несколько найденных документов и попросить найти документы, повествующие «о том же». Выполняется такой поиск путем превращения документа в поисковый запрос (естественно, с определенной степенью «сжатия», так как запрос слишком большим быть не может). В Internet данная функция заявлена, например, поисковыми машинами AltaVista, HotBot, из российских — «Яндексом» (www.yandex.ru) и «Рамблером» (www.rambler.ru). Нужно сказать, что пока компьютерная наука продвинулась в этом вопросе не слишком далеко, и, как правило, работает данная функция плохо — часто находит совсем не то.

Поиск по выборке. если по первому запросу поисковая машина нашла слишком много документов, то второй запрос с заданием дополнительных терминов можно провести только по ним, и тем самым уточнить поиск. Эта функция очень проста в исполнении (нужно только запомнить предыдущую выборку) и реализована в большинстве популярных машин Internet, включая российские «Яндекс» и «Рамблер».

Запрос на естественном языке. В отличие от формальных языков запросов с логическими операторами, запрос на естественном языке позволяет пользователю просто задать поисковой машине вопрос в свободной форме, как если бы он задавался человеку: «Как выйти замуж за миллионера?», «Скажи, где купить привод CD-ROM?» и т. д. Реализуется данная функция путем отбрасывания шумовых слов и выражений (как, скажи, где, за), выделения грамматической структуры запроса, подстановки синонимов и т. п.

Опять-таки, большинство поисковых машин декларирует подобную возможность, и пользователь действительно может ввести в строке запроса «естественный» набор слов, не разделяя их логическими операторами, однако зачастую эта функция фактически не работает. Например, «Рамблер» даже не отбрасывает «шумовых» слов и честно показывает все вхождения слов «как», «за» и подобных им, что, конечно, не имеет смысла и не нужно пользователю.

Тезаурусы. Тезаурусы (словари) служат для так называемого расширения запроса и включают синонимы, антонимы, родственные слова, «вышестоящие» и «нижестоящие» категории и понятия (военный-офицер-капитан).

Хотя использование тезауруса позволяет сделать поиск по-настоящему смысловым, пока большинство поисковых машин тезауруса не имеют, в том числе и упоминавшиеся российские машины. Трудно сказать, чем это вызвано, видимо, высокой стоимостью и сложностью лексикографической (словарной) работы.

Поиск типа «где». Как видно из сказанного выше, поисковые машины отыскивают все упоминания нужного понятия в документах. В последнее время стало ясно, что пользователя часто интересует не только поиск «чего-нибудь» где угодно и в любом количестве, но и наоборот — поиск одного конкретного места, где находится уже известная ему вещь: сервер Internet или домашняя страница. Чтобы удовлетворить эту потребность, начали появляться особые поисковые машины — службы имен, позволяющие по «обычному» имени ресурса Internet найти точное место, где он расположен. В настоящий момент таких известных служб две: калифорнийская служба имен RealNames (www.realnames.com) и российская Национальная Служба Имен (www.names.ru).

Обе эти службы позволяют вводить естественно-языковые имена в адресную строку программы просмотра (браузера) и сразу попадать на нужный сервер (например, набрав в адресной строке браузера «правительство», можно попасть на www.gov.ru), а также допускают использование различных синонимов для одного имени и задание неполных имен. Делается это путем поддержания базы имен и их соответствий обычным формальным адресам Internet, а также рассылки пользователям драйверов для распознавания естественных имен в браузере1. Впрочем, данные службы дают возможность не только адресоваться к глобальной сети, но и создавать локальные службы естественно-языковых имен для внутренних сетей.

Очевидно, данный вид поиска будет постепенно включен в традиционные поисковые машины, в частности служба имен RealNames уже куплена поисковой службой AltaVista, так что теперь, если посетитель подобной поисковой машины введет в качестве запроса имя некоторой компании или ее торговую марку, первой в результатах поиска будет выдана именно ссылка на сервер этой компании.

Аннотирование.

Если помните, в старых книгах каждая глава начиналась с краткого изложения: «Робинзон видит человеческие следы, находит Пятницу, приучает его солить пищу, собирает первый урожай киви». Эти изложения (аннотации) выносились в оглавления, что лично мне представляется очень гуманным; жаль, что современные авторы так не делают.

Существующие каталоги также по возможности содержат аннотации для внесенных в них ссылок. Например, Yahoo содержит аннотированные ссылки на 500 000 Internet-страниц, разбитых на 25 000 категорий. Как говорилось выше, аннотации составляются вручную, скажем для сервера по экологическим проблемам — специалистом по экологии, а по медицинскому серверу — специалистом по медицине (а может быть, и по тому и по другому — одним и тем же специалистом по биологии, не знаю). Русский аналог Яху — Ау! — составляется точно так же, только специалистов в нем работает не тысячи, а в лучшем случае один-два десятка, аннотированных ресурсов — около 12 000.

Однако даже для каталогов по узким темам или географически ограниченным областям Internet ручная классификация и аннотирование начинают представлять собой проблему — количество информации в Internet растет «по экспоненте», сложность системы, количество связей, дублей и проч. также возрастает. Возникает потребность в автоматизации каталожной работы, в частности в автоматическом составлении аннотаций. Ниже в разделе «Автоматическое извлечение знаний» я расскажу о том, что сделано в этой области.

Гипертекст.

Давно применявшиеся в книжном деле ссылки с возникновением компьютерных методов хранения текстов преобразовались в гипертекст. Наиболее разросшимся примером гипертекста является Всемирная Паутина.

Первое время на подобный способ организации данных возлагали очень большие надежды, считалось, что гипертекстовые структуры вытеснят линейные, что руководства, научные статьи и даже художественные произведения станут гипертекстовыми и интерактивными и будут писаться только в Сети и т. д. Однако сейчас постепенно становится ясно, что способ организации информации через ссылки, кроме удобства доступа (увидел ссылку — щелкнул мышью), имеет несколько существенных недостатков, среди которых низкая наглядность, не очевидность структуры, плохая запоминаемость пользователем пройденного пути и т. д. Как правило, основной результат сколько-нибудь длительной работы со сложным гипертекстом — ощущение, что ты «потерялся», и желание вернуться к началу пути. Дело в том, что средний человек с трудом запоминает вложенные структуры с уровнем вложенности более трех, а этим количеством уровней никогда не удается обойтись при создании крупных структур данных.

Справедливость сказанного видна из факта появления функции поиска и оглавлений (sitemap) на всех крупных серверах Internet.

Тем не менее способ организации гипертекстовых связей сам по себе как дополнительное средство доступа достаточно удобен и также допускает автоматизацию при создании больших массивов знаний, о чем подробнее будет рассказано далее.

Машинное аннотирование.

Как уже говорилось выше, потребность в автоматическом составлении аннотаций для поисковых машин и каталогов довольно высока и со временем увеличивается. Держатели каналов вещания, списков рассылки новостей и корпоративных систем документооборота также начинают испытывать интерес к автоматизации этого процесса. Зачастую не только требование дать возможность быстрого просмотра содержания, но и желание не нарушать авторские права заставляет заменять полные тексты документов аннотациями.

Частному пользователю также может пригодиться возможность быстро просматривать большие объемы документов, используя их краткие аннотации.

Как составляется аннотация? Прежде всего нужно сказать, что фактически в во всех известных системах машинное аннотирование является экстрагированием — программа не «пересказывает» смысл текста, а просто извлекает из него те фрагменты, которые считает важными, и объединяет их в аннотацию. Важность конкретного предложения определяется по различным параметрам, в частности по так называемым маркерам важности (например, «в заключение нужно сказать, что...»), количеству содержательных слов в нем и т. д.

В наиболее развитых средствах аннотирования учитывается также зависимость предложений друг от друга с тем, чтобы не вносить в аннотацию обрывки, начинающиеся, например, со слов «К тому же...», «В-третьих...» и т. п. Чтобы аннотация получилась связной, программа подбирает группы взаимосвязанных (взаимозависимых) предложений, а затем «склеивает» их, для большей связности немного изменяя на стыках.

Однако развитый синтаксический разбор и применение тезаурусов (словарей синонимов), которые могли бы значительно улучшить качество аннотирования, пока что дело будущего.

Что имеется на рынке? Сейчас существует довольно много готовых систем, осуществляющих машинное аннотирование. В частности, в состав Microsoft Word 95 входит функция для автоматического аннотирования английских текстов. В русской версии Word средства аннотирования для русских документов нет.

Для аннотирования текстов на русском языке существует компонент системы ОРФО 5.0, выпускаемой компанией «Информатик» (www.informatic.ru), и программа «Либретто 1.0» компании «МедиаЛингва» (www.medialingua.ru), выполняющая аннотирование и для русских и для английских документов. Обе эти программы встраиваются в Microsoft Word. Пробную версию «Либретто» можно получить по адресу: www.medialingua.ru.

В сети Internet автоматически построенные аннотации на русском языке можно увидеть и оценить, запустив поиск по известному новостийному серверу «ИнфоАрт» (www.infoart.ru) с помощью установленной на нем поисковой машины «Следопыт», включающей средство аннотирования документов.

Кроме того, доступные по бесплатной подписке новости того же сетевого издательства «ИнфоАрт» рассылаются в виде заголовков с краткими аннотациями, автоматически созданными с помощью средства GoldenKey компании Textar.

Качество этих систем читатель может оценить сам; нужно сказать, что и так само по себе различное для разных программ качество аннотации обычно еще и «плавает» от документа к документу — так как гладкость и содержательность аннотации сильно зависит от самого документа.

Перспективы.

Сейчас уже можно предположить, какие принципиально новые системы извлечения знаний появятся в ближайшем будущем. Ниже я коротко коснусь трех интересных возможностей.

Доклад на заданную тему.

Средства поиска и сжатия информации подошли к тому рубежу, когда немного осталось до создания системы, составляющей по заданию пользователя доклад на конкретную тему по определенной области (базе данных или Internet). Более или менее ясно, как это сделать технически, имея «умную» поисковую машину и уже существующие средства смыслового сжатия текстов и обнаружения смысловых дублей. Степень доверия пользователя к таким докладам будет определяться практикой (статистикой использования) или степенью доверия начальника к своим референтам.

Извлечение фактов.

Как известно, американская разведка в годы Второй мировой войны шпионила за Германией и ее союзниками не только с помощью засылки секретных агентов, но также с помощью изучения открытой немецкой прессы.

Был разработан метод так называемого «окна фактов», с помощью которого из каждой публикации извлекались только несомненные факты, часто совершенно тривиальные и неинтересные. Например, из предложения «Новый директор Apple Стив Джобс заявил, что компания стала возрождаться и в 1999 год перейдет с прибылью 100 млн долларов» можно извлечь только тот несомненный факт, что в 1998 году Джобс был директором Apple.

Оказалось, что сопоставление подобных «атомарных» фактов может дать неожиданные новые знания. Например, по газетным публикациям о Джобсе можно автоматически составить описание его жизненного пути (в терминах атомарных фактов), а заодно провести анализ прибыльности возглавляемых им компаний в зависимости от его прихода и ухода.

Насколько мне известно, впоследствии этот же метод был применен для слежки за развитием самой Америки, в результате чего на свет появилась очень интересная книга Дж. Нэсбитта (Naisbitt, J. Megatrends: Ten New Directions Transforming our Lives), описывающая десять главных тенденций в развитии США в 70-80 годах, которые были не видны простым глазом, но стали совершенно очевидны при заполнении и сравнении «окон фактов».

Можно предположить, что современные поисковые системы от простой индексации слов в документах Internet перейдут именно к сбору фактов. Технически это не очень сложно, а тривиальных фактов в Internet чрезвычайно много.

Поскольку факты, собираемые подобным образом, имеют простую структуру, их легко превратить в знания и производить по ним автоматический логический вывод, например «X — продукт компании Y 1997 г.», «Имярек — технический директор компании Y c 1996 по 1998 годы», следовательно, можно создать новый факт «Имярек руководил выпуском продукта X в компании Y». Или при наличии факта «Имярек-2 — сотрудник компании Y с 1995 года» можно автоматически создать факт «Имярек и Имярек-2 знакомы», имеющий определенную степень достоверности, и попробовать продлить цепочку знакомств дальше.

Виртуальный собеседник.

Следующим шагом по развитию средств доступа к знаниям должны стать виртуальные собеседники. В очень многих областях человечеством накоплено достаточно знаний, чтобы можно было организовать диалог с виртуальным собеседником, например поговорить с виртуальным «сотрудником» службы технической поддержки (если накоплено достаточно наиболее частых вопросов и ответов) или с электронным воплощением Сократа, диалоги которого у Платона и Ксенофонта также дают обширный материал для организации виртуального общения.

Собственно организация диалога с машиной не представляет собой сверхъестественной сложности, что было доказано знаменитой программой «Элиза» — виртуальным психотерапевтом, созданным в 80-х годах Джорджем Вейценбаумом. Весь вопрос — в правильной подготовке данных и их объеме.

Я думаю, первые виртуальные собеседники появятся в ближайшие тричетыре года и вызовут новый шум в прессе и всплеск мифов вокруг возможностей и границ применимости искусственного интеллекта.

Но это уже вопрос не технический, а нравственный, как справедливо пишет Дж. Вейценбаум в своей книге «Возможности вычислительных машин и человеческий разум», поэтому здесь я позволю себе закончить.


1 Чтобы воспользоваться одной из этих служб имен, пользователь должен скачать из сети или получить другим способом небольшую программу-драйвер, которая позволит его прогрмме просмотра отличать естественно-языковые имена.

2 Различительная сила термина — верятность того, что при обнаружении данного термина в документе этот документ относится к данной рубрике. Самый простой способ для вычисления различительной силы термина таков: нужно частоту появления термина в данной рубрике разделить на число его появлений во всем множестве документов. Если термин почти не встречается вне рубрики, данное число будет близко к единице, а в противоположной ситуации — к нулю.

 

Информация и знания: невидимая грань

  • Архив it2b

Автор: Игорь Ашманов | Источник: newasp.omskreg.ru

Введение.



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 194; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.135.189.237 (0.009 с.)