Теоретико-множественная модель индексирования и поиска
Документальным информационным массивом будем называть совокупность документов. Т.е. массив является множеством документов (сообщений), что является одной из предпосылок применения теоретико-множественного подхода.
С теоретико-множественных позиций описываем и документы или элементы массива. Каждый документ есть множество лексических единиц - слов, дескрипторов (односложных или составных), терминов индексирования, классификационных рубрик (УДК, МПК, ББК и т.д.). Целесообразно ввести понятие универсального словаря D, подмножествами которого являются любые документы.
Таким образом:
, для всех k
где какое-либо сообщение.
Далее, является элементом некоторого массива L:
L
Подобно универсальному словарю, содержащему все термины, (прототипом которого может являться тезаурус ИС, рубрикатор УДК или другая структура), необходимо ввести универсальный массив (массив) L 0, содержащий все сообщения:
L 0
, для всех k, причем
Прообразом Lo могут являться: поисковый массив АИС, отраслевой справочно-информационный фонд, массив библиотеки и т.д.
Представления документа как множества приводит к тому, что с точки зрения потребителя информации каждый документ, загруженный в базу данных, является или множеством терминов или же совокупностью множеств терминов, где могут быть выделены, например:
- множество терминов заголовка;
- множество терминов реферата первоисточника;
- множество дескрипторов индексирования документа.
5.3. Линейное описание информационных массивов (слайд 5)
Линейное представление теоретико-множественного образа документа является дополнительным к теоретико-множественному:
|
|
, если i-й термин входит в k-й документ
, в противном случае
|
|
Универсальный массив в линейном представлении есть матрица размерности ( - мощность множества ):
L0
Подобные матрицы известны под названием "матрицы термин-документ".
Автоматизированная информационно-поисковая система (АИПС) представляет собой объект, реализующий два типа формализованных процедур:
- преобразование массивов документов - информационный поиск, в том числе текущий или ретроспективный, отбор из поискового массива множества сообщений, подчиняющихся определенным формальным условиям;
- преобразование документов - составление поисковых образов индексов (индексирование) документов, отбор из текста документа или вспомогательных лексических коллекций определенных терминов или других лексических единиц для концентрированного отображения содержания сообщения.
Модели упомянутых групп процессов представляют собой основной объект нашего дальнейшего изложения; в различных интерпретациях или сочетаниях они позволяют получить комплексное описание многих аспектов информационной деятельности.
5.4. Структурная схема АИПС.
В структурной схеме (Слайд 6) может быть выделен контур документов и контур запросов.
Контур документов включает процессы получения множества документов и преобразования каждого документа в поисковый образ (ПОД).
Контур запросов включает множества запросов. Каждый запрос преобразуется в поисковый образ (ПОЗ) с созданием массива поисковых образов запросов.
Тезаурус есть средство, используемое для индексирования, реализующее отображение D ® D, причем в общем случае тезаурус, применяемый для документов, не совпадает с тезаурусом запросов.
|