Основные методы оптического распознавания 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Основные методы оптического распознавания



Один из самых ранних методов оптического распознавания символов базировался на сопоставлении матриц или сравнении с образцом букв. Большинство шрифтов име­ют формат Times, Courier или Helvetica и размер от 10 до 14 пунктов (точек). Программы оптического распознавания сим­волов, которые используют метод сопоставления с образцом, имеют точечные рисунки для каждого символа каждого размера и шрифта (рис. 4.2, а). Сравнивая базу данных точечных рисун­ков с рисунками отсканированных символов, программа пытает­ся их распознавать. Эта ранняя система успешно работала только с непропорциональными шрифтами (подобно Courier), где символы в тексте хорошо отделены друг от друга. Сложные документы с различными шрифтами оказываются уже вне возмож­ностей таких программ.

Выделение признаков было следующим шагом в раз­витии оптического распознавания символов. При этом распо­знавание символов основывается на идентификации их универ­сальных особенностей, чтобы сделать распознавание символов независимым от шрифтов. Если бы все символы могли быть идентифицированы, используя правила, по которым элементы букв (например, окружности и линии) присоединяются друг к другу, то индивидуальные символы могли быть описаны незави­симо от их шрифта. Например: символ «а» может быть представ­лен как состоящий из окружности в центре снизу, прямой ли­нии справа и дуги окружности сверху в центре (рис. 4.2, б). Если отсканированный символ имеет эти особенности, он может быть правильно идентифицирован как символ «а» программой опти­ческого распознавания.

Выделение признаков было шагом вперед сравнительно с со­ответствием матриц, но практические результаты оказались весьма чувствительными к качеству печати. Дополнительные по­метки на странице или пятна на бумаге существенно снижали точность обработки. Устранение такого «шума» само по себе ста­ло целой областью исследований, пытающейся определить, ка­кие биты печати не являются частью индивидуальных символов. Если шум идентифицирован, достоверные символьные фрагмен­ты могут тогда быть объединены в наиболее вероятные формы символа.

Некоторые программы сначала используют сопоставление с образцом и/или метод выделения признаков для того, чтобы распознать столько символов, сколько возможно, а затем уточ­няют результат, используя грамматическую проверку правильно­сти написания для восстановления нераспознанных символов. Например, если программа оптического распознавания символов неспособна распознать символ «е» в слове «th~ir», программа проверки грамматики может решить, что отсутствующий символ — «е».

Современные технологии оптического распознавания намного совершеннее, чем более ранние методы. Вместо того чтобы только идентифицировать индивидуальные символы, современные методы способны идентифицировать целые слова. Эту технологию, предложенную Caere, называют прогнозирую­щим оптическим распознаванием слов (Predictive Optical Word Recognition — POWR).

Используя более высокие уровни контекстного анализа, ме­тод POWR способен устранить проблемы, вызванные шумом. Компьютер анализирует тысячи или миллионы различных способов, которыми точки изображения могут быть собраны в сим­волы слова. Каждой возможной интерпретации приписывается некоторая вероятность, после чего используются нейронные сети и прогнозирующие методы моделирования, заимствован­ные от исследований в области искусственного интеллекта. Они предполагают использование «экспертов» — алгоритмов, разработанных специалистами в различных областях распознавания символов. Один «эксперт» может знать многое о начертаниях шрифта, другой — о словарной информации, третий — об ухуд­шении качества от «зашумленности» и пр. На каждой стадии ис­следования привлекается новый набор «экспертов» с учетом близости их «областей знаний» к специфической ситуации и статистики успеха в подобных ситуациях.

Окончательный итог — то, что система POWR способна идентифицировать слова способом, который близко напоминает человеческое визуальное распознавание. Практически, методика значительно улучшает точность распознавания слов во всех ти­пах документа. Все возможные интерпретации слова оценивают­ся, комбинируя все источники доказательства, от информации пикселя нижнего уровня до контекстных особенностей высокого уровня, в результате чего выбирается самая вероятная интерпре­тация.

Технологии Finereader

Хотя системы оптического распознавания символов сущест­вовали в течение долгого времени, их выгоды только сейчас на­чали по достоинству оценивать. Первые разработки были чрез­вычайно дорогостоящими (в терминах программного обеспече­ния и оборудования), неточны и трудны для использования. За несколько последних лет системы оптического распознавания полностью преобразились. Современное программное обеспече­ние распознавания символов очень удобно в использовании, обладает высокой точностью и находится на пути к распространению на все виды рабочих сред в массовом масштабе.

Типичным представителем данного семейства программ яв­ляется ABBYY FineReader, технологический процесс которого включает следующие шаги (рис. 4.3):

• сканирование исходного документа (страницы);

• разметку областей (ручную или автоматическую), требую­щих различные виды обработки (страницы разворота кни­ги, таблицы, рисунки, колонки текста и пр.);

• распознавание — создание и вывод на экран текстового файла (с вставленными рисунками и таблицами, если это необходимо);

• контроль правильности (ручной, автоматический, полуав­томатический);

• вывод информации в выходной файл в заданном формате (.DOC или.RTF для Word,.XSL для Excel и пр.).

Данные, полученные на каждом этапе (изображение, тексто­вый файл), сохраняются под «общей вывеской» пакета (страницы с номером), что позволяет в любой момент вернуться и по­вторить разметку, распознавание и пр.

Если нет необходимости сохранять цветовую информацию оригинала документа (например, для последующей обработки системами оптического распознавания символов), изображение лучше всего сканировать в режиме grayscale (полутоновое изо­бражение). При этом файл будет занимать одну треть объема сравнительно со сканированием в цвете RGB. Можно использо­вать также режим штриховой графики (line art), однако при этом часто теряются подробности, существенные для точности после­дующего процесса распознавания символов.

Рассмотрим основные принципы функционирования про­граммного продукта.

Принципы IPA (целостности, целенаправленности, адаптивно­сти). Пользователь помещает документ в сканер, нажимает кнопку, и через небольшое время в компьютер поступает элек­тронное изображение, «фотография» страницы. На ней присут­ствуют все особенности оригинала, вплоть до мельчайших под­робностей. Это изображение содержит всю необходимую для OCR-системы информацию об исходном документе.

Принцип целостности (integrity), согласно кото­рому объект рассматривается как целое, состоящее из связан­ных частей. Связь частей выражается в пространственных отно­шениях между ними, и сами части получают толкование только в составе предполагаемого целого, т. е. в рамках гипотезы об объекте.

Принцип целенаправленности (purposefulness): любая интерпретация данных преследует определенную цель. Согласно этому принципу, распознавание представляет собой процесс выдвижения гипотез о целом объекте и целенаправлен­ной их проверки.

Принцип адаптивности (adaptability) подразуме­вает способность системы к самообучению. Полученная при распознавании информация упорядочивается, сохраняется и ис­пользуется впоследствии при решении аналогичных задач. Пре­имущество самообучающихся систем заключается в способности «спрямлять» путь логических рассуждений, опираясь на ранее накопленные знания.

Вместо полных названий этих принципов часто употребляют аббревиатуру IPA, составленную из первых букв соответствующих английских слов. Преимущества системы распознавания, работающей в соответствии с принципами IРА, очевидны — именно они способны обеспечить максимально гибкое и осмыс­ленное поведение системы.

Например, на этапе распознавания символов изображение, согласно принципу целостности, будет интерпретировано как некий объект, только если на нем присутствуют все структурные части этого объекта, и эти части находятся в соответствующих отношениях. Иначе говоря, FineReader не пытается принимать решение, перебирая тысячи эталонов в поисках наиболее подхо­дящего. Вместо этого выдвигается ряд гипотез относительно того, на что похоже обнаруженное изображение, затем каждая гипотеза целенаправленно проверяется. Допуская, что найден­ный объект может быть буквой «A», FineReader будет искать именно те особенности, которые должны быть у изображения этой буквы. Как и следует поступать, исходя из принципа целенаправленности. Причем проверять, верна ли выдви­нутая гипотеза, система будет, опираясь на накопленные ранее сведения о возможных начертаниях символа в распознаваемом документе.



Поделиться:


Последнее изменение этой страницы: 2021-04-05; просмотров: 346; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.59.187 (0.006 с.)