Уровни «слово» и «символ». Распознаватели символов (классификаторы) 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Уровни «слово» и «символ». Распознаватели символов (классификаторы)



Разделив строку на отдельные слова, FineReader приступает к обработке символов. Разделение слов на символы и собствен­но распознавание букв, как и все остальные механизмы много­уровневого анализа документа, реализованы в виде составных частей единой процедуры. Это позволяет в полной мере исполь­зовать преимущества принципов IPA. Выделенные изображения символов поступают на рассмотрение механизмов распознава­ния букв, называемых классификаторами.

В системе ABBYY FineReader применяются следующие типы классификаторов: растровый, контурный, признаковый, структурный, признаково – дифференциальный и структурно-дифференциальный.

Растровый классификатор. Классификатор сравнивает сим­вол с набором эталонов, поочередно накладывая изображения друг на друга. Эталонами в данном случае выступают специаль­но подготовленные изображения; каждое из них объединяет в себе очертания множества вариантов написания того или иного символа. Гипотезы выдвигаются в зависимости от того, с каки­ми эталонами точнее совпало изображение буквы. Сами этало­ны строятся методом наложения друг на друга большого коли­чества одних и тех же букв в разных вариантах начертания (рис. 4.7, а).

Контурный классификатор. Представляет собой разновид­ность признакового классификатора. От вышеописанного отли­чается тем, что признаки вычисляются не по полному изображе­нию символа, а по его контуру (рис. 4.7, б). Этот быстродейст­вующий классификатор предназначен для распознавания текста, набранного декоративными шрифтами (например, стилизован­ного под готический, старорусский стиль и т. п.).

Признаковый классификатор. Аналогичен растровому (выдви­гает гипотезы, исходя из степени совпадения параметров симво­ла с эталонными значениями). Оперирует определенными чи­словыми признаками, такими, например, как длина периметра, количество черных точек в разных областях или вдоль различ­ных направлений и т. п. (рис. 4.7, в). Весьма популярен у разработчиков OCR-систем. В определенных условиях способен рабо­тать почти так же быстро, как растровый. Точность работы при­знакового классификатора во многом зависит от качества признаков, выбранных для каждого символа. Под качеством признаков в данном случае понимается их способность макси­мально точно, но без избыточной информации охарактеризовать начертание буквы.

Структурный классификатор. Первоначально был создан и использовался для распознавания рукописного текста, однако в последнее время применяется и для обработки печатных документов. Этот классификатор проводит структурный анализ сим­вола, раскладывая последний на элементарные составляющие (отрезки, дуги, окружности, точки) и формируя точную схему анализируемого знака (рис. 4.7, г).

Затем полученная схема (структурное описание буквы) сравнивается с эталоном. Этот классификатор работает медленнее растрового и признакового, но отличается высокой точностью Более того, он способен «мысленно» восстанавливать не пропе­чатанные или залитые символы.

Признаково-дифференциальный классификатор. Предназначен для различения похожих друг на друга объектов, таких, напри­мер, как буква «m» и сочетание «rn». Принципиальное отличие этого классификатора от описанных выше заключается в том что он не анализирует все изображение. Дифференциальный классификатор обращается только к тем частям объекта, где мо­жет находиться ключ к правильному ответу. В случае с «m» и «rn» ключом служит наличие и ширина разрыва в месте касания предполагаемых букв. Признаково-дифференциальный классификатор используется во многих системах распознавания симво­лов (рис. 4.7, д).

Структурно-дифференциальный классификатор. Аналогичен структурному; был разработан и первоначально применялся для обработки рукописных текстов. Как и признаково-дифференци­альный, этот классификатор решает задачи различения похожих объектов, но работает на порядок точнее (за счет анализа струк­туры) и способен «узнавать» искаженные знаки (рис. 4.7, е).

В самых общих чертах процесс обработки символа выглядит так: растровый и признаковый классификаторы анализируют изображение и выдвигают несколько гипотез относительно того, какая буква им представлена. Следует заметить, что при выдвижении каждой гипотезе присваивается определенная оценка (так называемый вес гипотезы). В результате работы растрового и признакового классификаторов система получает список гипотез, отсортированный по весу (т. е. по степени уве­ренности).

Затем, в соответствии с принципами IРА, FineReader при­ступает к целенаправленной проверке имеющихся гипотез с помощью дифференциального признакового классификатора. В тех случаях, когда требуется различить дна похожих симво­ла (например, «I» и «l»), к анализу подключается дифферен­циальный структурный классификатор. В самых трудных си­туациях задействуют структурный классификатор. Построив полную схему распознаваемого знака и проанализировав ее на предмет наличия ключевых элементов структуры, этот класси­фикатор изменяет веса гипотез в соответствии с результатами своей работы.



Поделиться:


Последнее изменение этой страницы: 2021-04-05; просмотров: 72; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.134.118.95 (0.004 с.)