Автоматическая классификация документов. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Автоматическая классификация документов.



Автоматическая классификация документов — еще одно направление искусственного интеллекта, заявленное двадцать лет назад. Сейчас впервые стали появляться средства, выполняющие эту задачу.

Для чего нужны средства автоматической классификации? Средства классификации требуются везде, где имеется набор рубрик и большой входной поток документов. К таким случаям относятся каталоги Internet, каналы вещания (push-channels), прежде всего новостийные службы, службы электронной почты и внутренние каталоги государственных организаций и корпораций, имеющих большой входной поток документов и желающих разложить их по полочкам или создать индивидуальные профили доставки информации для групп пользователей.

Во всех этих случаях нужно быстро «разбросать» новые документы по имеющимся рубрикам. Как это делается?

Списки ключевых слов. Самый простой способ сортировать входной поток документов по нужным категориям (рубрикам) — задать для каждой рубрики набор ключевых слов, которые позволяют отнести документ к данной рубрике. Именно так и построены наиболее простые системы классификации, в частности системы фильтрации электронной почты наподобие средств фильтрации Microsoft Outlook.

Список ключевых слов служит в этом случае простым семантическим образом рубрики.

Как и многие другие простые способы, с реальными документами этот способ работает далеко не во всех случаях. «Зашитые» в программу или вносимые пользователем ключевые слова могут иметь в реальности синонимы, различные формы, могут быть действительно важными или не значить ничего именно в данном контексте. Кроме того, для языков с высокой изменчивостью слов — русского, немецкого и проч. — этот способ работает совсем плохо.

Поисковые запросы как основа классификации. Более «умный» способ — превратить списки ключевых слов для каждой рубрики в поисковый запрос, передать поисковой машине и применить его ко множеству новых документов. Таким образом можно получить более аккуратно ранжированный список документов, «близких» данной рубрике. Кроме того, можно подключить к классификации морфологические модули и словари синонимов — все то, что уже разработано для поисковых машин.

Недостатки данного способа коренятся в том факте, что в описанном виде он также применим только для фиксированного набора рубрик и для созданного вручную множества ключевых слов. Подобные системы существуют, однако неудобны и дороги.

Довольно типичный случай «тяжелой» системы классификации данного типа, когда сама система стоит 15-20 тыс. долларов и еще примерно столько же заказчику нужно потратить на ручное составление специалистами исполнителя заказного дерева рубрик, а также семантических образов для каждой рубрики.

В последнее время появляются системы классификации нового поколения, которые все это делают сами, быстро и не намного хуже человека.

«Истинная» автоматическая классификация. Уже существуют программы-классификаторы, которые избавляют пользователя от рутинной и сложной работы и составление семантических рубрик берут на себя. Делается это так: администратор каталога, канала вещания или системы документооборота указывает программе рубрики и отнесенные к ним " обучающие" выборки документов. Программа выделяет в обучающих текстах значимые термины (слова и словосочетания), приводит их к словарным формам, составляет распределение терминов по рубрикам и документам, подсчитывает различительную силу каждого термина для данной рубрики2 и составляет семантические образы из наиболее различительных терминов.

В дальнейшем, при классификации входного потока, программа может использовать поисковые запросы или иным способом вычислять смысловую близость документа к рубрикам.

Как ни удивительно, классификация по таким семантическим образам работает гораздо лучше, чем по составленным человеком спискам ключевых слов.

В процессе работы системы системный администратор может время от времени «освежать» ее — перестраивать семантические образы, применяя вновь полученные документы, чтобы уточнить их, благо делается это автоматически и быстро.

Существуют и так называемые «научные» способы классификации документов, основанные на нейронных сетях, методах кластеризации, отображения документов в формальные многомерные пространства и т. д. В частности, так работает система TextAnalyst компании НПИЦ «Микросистемы» (на сервере www.textanalyst.ru можно скачать демонстрационную версию), а также пример кластеризации газетных публикаций и других документов на сервере компании «Гарант-Парк» (www.park.ru/websom) — демонстрация метода WEbSOM для кластеризации документов.

Читатель может сам составить мнение о качестве классификации этих систем, а автор может добавить, что данные методы обычно имеют заведомые ограничения, так как не учитывают лингвистических данных, рассматривая слова и тексты как формальные последовательности знаков.

Апофеоз классификации. Для пользователей, не имеющих времени или средств даже на построение самой системы рубрик, предлагаются программы, выполняющие автоматическое построение системы рубрик по неупорядоченному вороху документов. Делается это так: программа выделяет наиболее важные термины, нормализует их (приводя к «именительному падежу») и составляет заключение об иерархии терминов по их форме и распределению в тексте. Например, термин «контракты на нефть» описывает более широкую рубрику, чем «срочные контракты на нефть». Дерево рубрик с наборами документов и предполагаемыми названиями предлагается пользователю (администратору), который и утверждает его после необходимых модификаций.

Что сейчас имеется на рынке? Посмотреть, какие системы автоматической классификации предлагаются на рынке, можно в Internet по адресам: компания Autonomy (http://www.agentware.com/) — система классификации, основанная на статистических принципах, «МедиаЛингва» (www.medialingua.ru/products/tecnolo/classify/classify.htm) — автоматическая классификация для текстов на русском и английском языках и автоматическое построение рубрик, «Гарант-Парк» (http://www.park.%20ru/websom) — демонстрация кластеризации документов, система классификации на сервере компании WiseWire (http://www.%20wisewire.com/), компания Junglee (http://www.%20junglee.com/) — так называемая виртуальная база данных для Internet.

Предлагаемые этими компаниями технологии значительно отличаются, но в общем и целом работают. На некоторых серверах можно скачать демонстрационные версии. Главное — понимать, что идеального решения не бывает, и не брать на веру излюбленных утверждений разработчиков о понимании программой «смысла» текста и т. п.

Перспективы.

Сейчас уже можно предположить, какие принципиально новые системы извлечения знаний появятся в ближайшем будущем. Ниже я коротко коснусь трех интересных возможностей.

Доклад на заданную тему.

Средства поиска и сжатия информации подошли к тому рубежу, когда немного осталось до создания системы, составляющей по заданию пользователя доклад на конкретную тему по определенной области (базе данных или Internet). Более или менее ясно, как это сделать технически, имея «умную» поисковую машину и уже существующие средства смыслового сжатия текстов и обнаружения смысловых дублей. Степень доверия пользователя к таким докладам будет определяться практикой (статистикой использования) или степенью доверия начальника к своим референтам.

Извлечение фактов.

Как известно, американская разведка в годы Второй мировой войны шпионила за Германией и ее союзниками не только с помощью засылки секретных агентов, но также с помощью изучения открытой немецкой прессы.

Был разработан метод так называемого «окна фактов», с помощью которого из каждой публикации извлекались только несомненные факты, часто совершенно тривиальные и неинтересные. Например, из предложения «Новый директор Apple Стив Джобс заявил, что компания стала возрождаться и в 1999 год перейдет с прибылью 100 млн долларов» можно извлечь только тот несомненный факт, что в 1998 году Джобс был директором Apple.

Оказалось, что сопоставление подобных «атомарных» фактов может дать неожиданные новые знания. Например, по газетным публикациям о Джобсе можно автоматически составить описание его жизненного пути (в терминах атомарных фактов), а заодно провести анализ прибыльности возглавляемых им компаний в зависимости от его прихода и ухода.

Насколько мне известно, впоследствии этот же метод был применен для слежки за развитием самой Америки, в результате чего на свет появилась очень интересная книга Дж. Нэсбитта (Naisbitt, J. Megatrends: Ten New Directions Transforming our Lives), описывающая десять главных тенденций в развитии США в 70-80 годах, которые были не видны простым глазом, но стали совершенно очевидны при заполнении и сравнении «окон фактов».

Можно предположить, что современные поисковые системы от простой индексации слов в документах Internet перейдут именно к сбору фактов. Технически это не очень сложно, а тривиальных фактов в Internet чрезвычайно много.

Поскольку факты, собираемые подобным образом, имеют простую структуру, их легко превратить в знания и производить по ним автоматический логический вывод, например «X — продукт компании Y 1997 г.», «Имярек — технический директор компании Y c 1996 по 1998 годы», следовательно, можно создать новый факт «Имярек руководил выпуском продукта X в компании Y». Или при наличии факта «Имярек-2 — сотрудник компании Y с 1995 года» можно автоматически создать факт «Имярек и Имярек-2 знакомы», имеющий определенную степень достоверности, и попробовать продлить цепочку знакомств дальше.

Виртуальный собеседник.

Следующим шагом по развитию средств доступа к знаниям должны стать виртуальные собеседники. В очень многих областях человечеством накоплено достаточно знаний, чтобы можно было организовать диалог с виртуальным собеседником, например поговорить с виртуальным «сотрудником» службы технической поддержки (если накоплено достаточно наиболее частых вопросов и ответов) или с электронным воплощением Сократа, диалоги которого у Платона и Ксенофонта также дают обширный материал для организации виртуального общения.

Собственно организация диалога с машиной не представляет собой сверхъестественной сложности, что было доказано знаменитой программой «Элиза» — виртуальным психотерапевтом, созданным в 80-х годах Джорджем Вейценбаумом. Весь вопрос — в правильной подготовке данных и их объеме.

Я думаю, первые виртуальные собеседники появятся в ближайшие тричетыре года и вызовут новый шум в прессе и всплеск мифов вокруг возможностей и границ применимости искусственного интеллекта.

Но это уже вопрос не технический, а нравственный, как справедливо пишет Дж. Вейценбаум в своей книге «Возможности вычислительных машин и человеческий разум», поэтому здесь я позволю себе закончить.


1 Чтобы воспользоваться одной из этих служб имен, пользователь должен скачать из сети или получить другим способом небольшую программу-драйвер, которая позволит его прогрмме просмотра отличать естественно-языковые имена.

2 Различительная сила термина — верятность того, что при обнаружении данного термина в документе этот документ относится к данной рубрике. Самый простой способ для вычисления различительной силы термина таков: нужно частоту появления термина в данной рубрике разделить на число его появлений во всем множестве документов. Если термин почти не встречается вне рубрики, данное число будет близко к единице, а в противоположной ситуации — к нулю.

 



Поделиться:


Последнее изменение этой страницы: 2016-12-28; просмотров: 406; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.143.4.181 (0.061 с.)