Организация ввода и поиска документов 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Организация ввода и поиска документов



Основные подсистемы системы управления документооборотом

К числу основных функциональных подсистем электронной системы управления документооборотом (ЭСУД) можно отнести:

-подсистему составления электронных документов (система создания ЭД);

-подсистему организации массового ввода, преобразования бумажных документов в электронный вид (система массового ввода бумажных документов - СМВ);

-подсистему осуществления хранения, поиска и выдачи электронных документов по запросам пользователей (система управления электронными документами - СУЭД);

-подсистему планирования маршрутизации и контроля исполнения документов и выполнения деловых процессов с целью своевре­менного документационного обеспечения управления (система электронного документооборота - СЭД).

Одной из основных задач, связанных с технологиями документооборота, является массовый ввод бумажных документов в архивную систему или систему управления документами и организация последующего к ним доступа. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов. При реализации технологии массового ввода документов можно рассматривать два основных класса задач:

-извлечение данных из бумажных документов, когда пользователей интересуют только извлеченные структурированные данные, а собственно сами изображения документов их не интересуют, т.к. не используются для последующего хранения и доступа;

-извлечение данных из бумажных документов с сохранением изображения документа (например, “Платежное поручение” клиента).

При сканировании следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения и другие.

Распознавание документа, анализ содержания документа и извлечение данных может осуществляться с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы:

OCR (Optical Character Recognition) - технология оптического распознавания печатных символов.

ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки;

OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);

Стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах.

Заключительная операция процесса - это экспорт изображений документов и сопутствующих данных в конкретную систему документооборота или базу данных и индексирование.

Для хранения и поиска документов с текстовой, графической, табличной информацией по атрибутам, ключевым словам документа и содержанию в какой-либо предметной области используются информационно-поисковые системы (ИПС). Выделяют ИПС двух типов: фактографические и документографические.

Поиск осуществляется нахождением документа по двум принципам: по атрибутам документа - дате создания, размеру, автору и пр. и по его содержанию (тексту).

Для поиска документов создают и хранят их поисковые образы. Поисковый образ документа (ПОД) - совокупность кодов ведущих ключевых слов (дескрипторов), которые описывают смысл, содержание документа. Ключевые слова и их коды хранятся в специальном словаре - тезаурусе.

Для того чтобы осуществлять поиск документов, нужно создать информационно-поисковый язык (ИПЯ), в состав которого входит тезаурус и грамматика языка.

Чтобы отыскать документ, нужно создать с помощью ИПЯ поисковый образ запроса (ПОЗ), который представляет собой совокупность закодированных ключевых слов, описывающих те документы, которые нужно найти.

 



Поделиться:


Последнее изменение этой страницы: 2017-02-05; просмотров: 1078; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.143.31 (0.005 с.)