Распознавание от уровня «страница» до уровня «слово» 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Распознавание от уровня «страница» до уровня «слово»



На первом этапе распознавания система структурирует стра­ницу, выделяет на ней текстовые блоки. Как мы знаем, современ­ные документы часто содержат всевозможные элементы дизайна:

иллюстрации, колонтитулы, цветной фон или фоновые изобра­жения, и т. д. Основная задача на данном этапе состоит в том, чтобы отделить текст от иллюстраций и «подложенных» текстур.

Все современные системы распознавания начинают про­цесс «знакомства» с создания черно-белого изображения доку­мента. При этом подлежащее анализу изображение чаще всего цветное или полутоновое (т. е. состоящее из разных оттенков серого цвета, подобно картинке на экране черно-белого теле­визора). Любая OCR-система прежде всего преобразует такое изображение в монохромное, состоящее только из черных и белых точек. Процесс преобразования называется бинариза­цией, он всегда предшествует летальной обработке распозна­ваемой страницы.

Блок текста, состоящий из строк, должен иметь характерную линейчатую структуру. Разделив этот блок на строки, можем приступать к выделению слов. Однако на практике столь про­стые варианты встречаются нечасто. Возьмите любой документ, где строки текста наложены на цветной фон. и представьте, как будет выглядеть эта страница в черно-белом варианте. Вокруг каждого символа обнаружатся десятки и сотни «лишних» точек, оставшихся от фона. Работая с таким «загрязненным» текстом, большинство OCR-программ не сможет уверенно распознавать символы, поскольку лишние точки будут искажать очертания букв и даже границы строк, приводя к ошибкам.

FineReader не пытается решать задачу бинаризации «в лоб». Принцип целенаправленности диктует иной подход к обнаруже­нию строк в текстовом блоке или слов в строке: они должны быть где-то здесь, надо только суметь их узнать. Для повышения качества поиска FineReader использует процедуры интеллекту­альной фильтрации фоновых текстур (рис. 4.6, а) и адаптивной бинаризации (рис. 4.6, б). Первая позволяет уверенно отделять строки текста от сколь угодно сложного фона, вторая — гибко выбирать оптимальные для данного участка па­раметры бинаризации. Естественно, к этим процедурам система прибегает не всегда, а лишь в тех случаях, когда предваритель­ный анализ указывает на подобную необходимость. В каждом конкретном случае FineReader выбирает подходящий «инстру­мент», опираясь на информацию, накопленную в процессе ана­лиза документа.

Например, идет анализ строки. Система занята поиском объ­ектов уровня «слово». На первый взгляд, проще всего разделить



 

welcome

Sl^jf welcome

w clconu*

\N I U M I I It

Hi Hi
a

б


 

 


Рис. 4.6. Технологии распознавания: а — пример работы интеллектуальной фильтрации фоновых структур; б — уров­ни бинаризации

строку на слова по найденным пробелам. Однако первичный анализ показывает, что в конце строки пробелы попадаются за­метно чаше, чем в начале. Процедура адаптивной бинаризации исследует яркость фона и насыщенность черного цвета на про­тяжении всей строки и подбирает оптимальные параметры бина­ризации для каждого фрагмента по отдельности. В результате оказывается, что часть символов в конце строки получилась слишком светлой и могла бы быть «потеряна» при обработке обычной OCR-программой, но в результате применения адап­тивной бинаризации все слова будут выделены точно. При не­правильном выборе параметров бинаризации слово окажется «нечитаемым».



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 228; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.141.244.201 (0.004 с.)