Элементы технологии алгоритмов MPEG 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Элементы технологии алгоритмов MPEG



Стандарт MPEG-2

Рассмотрим в качестве примера стандарт MPEG-2, который состоит из трех основных частей: системной, видео и звуковой.

Системная часть описывает форматы кодирования для мультиплексирования звуковой, видео- и другой информации, рассматривает вопросы комбинирования одного или более пото­ков данных в один или множество потоков, пригодных для хра­нения или передачи.

Системное кодирование в соответствии с синтаксическими и семантическими правилами, налагаемыми данным стандартом, обеспечивает необходимую и достаточную информацию, чтобы синхронизировать декодирование без переполнения или «недо­полнения» буферов декодера при различных условиях приема или восстановления потоков.

Таким образом, системный уровень выполняет пять основ­ных функций:

• синхронизацию нескольких сжатых потоков при воспроиз­ведении;

• объединение нескольких сжатых потоков в единый поток;

• инициализацию для начала воспроизведения;

• обслуживание буфера;

• определение временной шкалы.

Видео часть стандарта описывает кодированный би­товый поток для высококачественного цифрового видео. MPEG-2 является совместимым расширением MPEG-1, он под­держивает чересстрочный видеоформат и содержит средства для поддержки ТВЧ (телевидение высокой четкости).

Стандарт MPEG-2 определяется в терминах расширяемых профилей, каждый из которых, являясь частным случаем стан­дарта, имеет черты, необходимые всем классам приложений.

Иерархические масштабируемые профили могут поддержи­вать такие приложения, как совместимое наземное многопро­граммное ТВ (ТВЧ), пакетные сетевые видеосистемы, обратную совместимость с другими стандартами (MPEG-1 и Н.261) и при­ложениями, использующими многоуровневое кодирование.

Звуковая часть стандарта MPEG-2 определяет кодиро­вание многоканального звука. MPEG-2 поддерживает до пяти полных широкополосных каналов плюс дополнительный низко­частотный канат и (или) до семи многоязычных комментатор­ских каналов. Он также расширяет возможности кодирования моно-и стереозвуковых сигнатов в MPEG-1 за счет использова­ния половинных частот дискретизации (16; 22,05 и 24 кГц) для улучшения качества при скоростях передачи 64 кбит/с и ниже.

JPEG-форматы (M-JPEG CinePack) основаны на сжатии каж­дого кадра из видеопоследовательности. Этот подход получил на­звание intraframe compression (внутрикадровое сжатие). Стандарт MPEG использует как intraframe. так и interframe compression (межкадровое сжатие). При межкадровом сжатии задаются опор­ные кадры, а последующие и предыдущие вычисляются на их ос­нове. Поэтому межкадровая схема позволяет достичь большего сжатия — не надо хранить каждый кадр, запоминаются только различия между кадрами.

Стандарт MPEG-2 не регламентирует методы сжатия видео­сигнала, а только определяет, как должен выглядеть битовый по­ток кодированного вилеосигната, поэтому конкретные алгорит­мы являются коммерческой тайной фирм—производителей обо­рудования. Однако существуют общие принципы, и процесс сжатия цифрового видеосигнала может быть разбит на ряд по­следовательных операций (рис. 3.15):

• преобразование анатогового сигнала в цифровую форму;

• предварительная обработка;

• дискретное косинусное преобразование:

• квантование;

• кодирование.

После аналого-цифрового преобразователя (АЦП) произво­дится предварительная обработка сигнала, которая включает в себя следующие преобразования.

1. Удаление избыточной информации. Например, если фон изображения состоит из идентичных символов (пикселей), то совершенно не обязательно их все передавать. Достаточно опи­сать один пиксель и послать его с сообщением о том, как часто и где он повторяется в изображении.

2. Если исходное изображение передается в виде чересстроч­ных полей, то они преобразуются в кадры с прогрессивной раз­верткой.

3. Сигналы цветности (RGB) преобразуются в цветоразност- ные сигначы U и V и сигнал яркости Y.

4. Изображение достраивается до кратного 16 количества пикселей по строкам и столбцам, чтобы обеспечить разбиение изображения на целое число макроблоков.

Сжатые данные

Рис. 3.15. Блок-схема оборудования сжатия видеоизображения

 

5. Производится преобразование из формата цветности 4: 4: 4 в формат 4:2:2 (горизонтальная передискретизация цве- торазностных компонентов) или 4:2:0 (горизонтальная и вер­тикальная передискретизация цветоразностных компонентов).

Квантование. Изображение разбивается на последова­тельность макроблоков, каждый из которых состоит из шести блоков по 8 х 8 пикселей:

• четыре образуют матрицу 16 х 16 и несут информацию о яркости;

• по одному — определяют цветоразностные компоненты U и V, которые соответствуют области изображения, покры­ваемой матрицей 16x16 пикселей.

Стандарт предусматривает два формата цветности, каждому из которых соответствует свой порядок блоков в макроблоке (рис. 3.16):

• 4:2:0 — макроблок состоит из шести блоков — четыре блока яркости YD и два блока цветности CR И Св;

• 4:4:4 — макроблок состоит из двенадцати блоков. Он со­держит четыре блока YD, четыре CR и четыре Св.

Производится разбиение потока кадров изображения по ти­пам, для них находятся векторы движения, которые необходимы для повышения предсказуемости величин элементов изображе­ния. Векторы движения обеспечивают компенсацию пере-

yd

Формат 4:2:0 Рис. 3.16. Разбивка изображения на блоки в MPEG-2

 

мещений в прошедших и последующих кадрах. Компенсация движения применяется при предсказании текущего кадра на ос­нове предыдущих и интерполяционного предсказания на основе прошедших и последующих изображений. Векторы движения определяются для каждой зоны изображения с размерами 16 х 16 пикселей, т. е. для макроблоков. В большинстве случаев видеопоследовательности содержат избыточность в двух направ­лениях — временном и пространственном. Главное статистиче­ское свойство, на котором основана аппаратура сжатия, — меж­элементная корреляция, включающая предположение о корре­лированное™ последовательных кадров видеоданных. Таким образом, значения отдельных пикселей изображения могут быть предсказаны либо по значениям ближайших пикселей внутри одного кадра (внутрикадровое кодирование), либо по значениям пикселей, расположенных в ближайших кадрах (межкадровое кодирование и компенсация перемещения).

Кодирование. В некоторых случаях, например, при сме­не видеосцены в видеопоследовательности, временная корреля­ция между ближайшими кадрами очень низка. В таких случаях решающую роль в достижении эффективного сжатия видеоин­формации играет внутрикадровая корреляция, т. е. пространст­венная корреляция пикселей изображения. Однако, если корре­ляция между последовательными кадрами видеоданных высока, то в случае, когда два последовательных кадра имеют схожее или одинаковое содержание, желательно применение межкадровой корреляции пикселей с временным предсказанием. На практике для достижения высокого коэффициента сжатия видеоинформа­ции используется комбинация из двух подходов.

Стандарт MPEG-2 определяет три типа кадров, для каждого из которых предусмотрен свой вид кодирования:

• опорные кадры, так называемые 1-кадры (Intra Frames), ко­торые являются основными и кодируются без обращения к другим кадрам, т. е. с использованием информации только этого кадра. Вид кодирования — внутрикадровый, обеспе­чивающий умеренное сжатие. Все остальные кадры анали­зируются процессором, который сравнивает их с опорны­ми, а также между собой;

• Р-кадры (Predicted) — закодированные относительно пре­дыдущих I- или Р-кадров. Кодирование Р-кадров выполня­ют с использованием алгоритмов компенсации движения и предсказанием «вперед» по предшествующим I- и Р-кад- рам. Они сжаты в 3 раза сильнее, чем I-кадры, и служат опорными для последующих Р- и В-кадров. Компенсация движения, применяемая к макроблокам Р-кадров, выраба­тывает два вида информации: векторы движения (разница между базовыми и кодированными макроблоками) и зна­чения ошибок (разница между предсказанными величина­ми и действительными результатами). Если макроблок в Р-кадре не может быть описан с использованием компен­сации движения, что случается при появлении некоторого неизвестного объекта, то он кодируется тем же способом, что и макроблок в 1-кадре;

• В-кадры (Bidirectionally Predicted) — закодированные отно­сительно предыдущих и последующих кадров, т. е. с двуна­правленным предсказанием и компенсацией движения. В-кадры имеют наибольшее сжатие.

Таким образом, в стандарте MPEG-2 используются три вида кодирования: внутрикадровое. межкадровое «вперед» с компен­сацией движения, межкадровое двунаправленное, также с ком­пенсацией движения.

Полученные кадры объединяются в группы последова­тельных кадров (GOP — group of pictures). Каждая последо­вательность начинается с I-кадра и состоит из переменного числа Р- и В-кадров. В описаниях алгоритмов кодирования MPEG и его реализаций не содержится никакой информации относительно методов выделения I-, Р- и В-кадров в видеопоследовательности.

В начале сцены должен стоять I-кадр, в конце — Р-кадр. Увеличивать долю В-кадров можно только в рамках одной сце­ны, иначе возникнут большие ошибки предсказания и компен­сации движения. Поскольку типичная длительность группы кад­ров (во временном представлении — примерно 0,5 с) значитель­но меньше характерного расстояния между границами сцен, то в большинстве случаев жесткое задание структуры группы кадров не приводит к существенным визуальным ошибкам из-за того, что смена сцен попадает внутрь группы кадров.

На рис. 3.17 изображен порядок кодирования I-, Р- и В-кад­ров. Верхний ряд кадров демонстрирует исходную последова­тельность на входе кодера, нижний — после кодирования. Ос­новными параметрами GOP являются длина последовательности N и порядок чередования Р-кадров. Например, в последователь­ности кадров, представленной на рис. 3.17, N= 7, М = 3, т. е. ка­ждый третий кадр в последовательности — типа Р.

Из применявшихся до сих пор форматов групп для частоты полей 30 Гц типичной была последовательность IBBPBBPBBPBBP/BBTBBP... с N= 13 (для первой группы) и М= 3, в которой группу составляют 1,5 кадров, начинающихся с двух В-кадров и одного I-кадра, и каждые два В-кадра переме­жаются с Р-кадром. Для частоты 25 Гц типичной является такая же последовательность, но с N= 12 и Л/ = 3. Такой выбор сделан для того, чтобы обеспечить одновременное выполнение требова­ний максимального сжатия и произвольного доступа к любому из кадров последовательности. Между тем именно В-кадры обеспечивают максимальное сжатие, и если бы удалось поднять долю В-кадров в группе, а I-кадрами обозначить границы сцен, то эффективность сжатия была бы увеличена.

Для блоков с использованием компенсации движения нахо­дятся разностные ошибки предсказания движения.

Рис. 3.17. Порядок кодирования I- Р- и В-кадров по стандарту MPEG-2: а — последовательность кадров на входе кодера; б — последовательность кадров после кодирования

Следует упомянуть еще две возможности MPEG-алгоритмов. Это Motion Estimation (ME, в свободном переводе — оценка пе­ремещений) и Spatial Redundancy (SR — пространственная избы­точность). ME — метод, по которому реализуется вычисление Р- и В- кадров по опорным кадрам. Первым шагом в ME является
разбиение кадров на блоки 16 х 16 пикселей. Далее блоки одного кадра сравниваются с соответствующими блоками другого кадра и, если они изменяют положение от кадра к кадру, их перемеще­ние описывается векторами движения, которые и записываются в MPEG-поток.

На следующем этапе кодирования применяется метод про­странственной избыточности, позволяющий еще более сократить объем данных, описывая разность между соответствующими бло­ками. Используя дискретное косинус-преобразова­ние, блоки подразделяются на подблоки 8 \ 8 для отслеживания изменения цвета и яркости.

Очевидно, что чем больше коэффициент сжатия, тем хуже качество. Коэффициент сжатия — это численное выражение со­отношения между объемом сжатого и исходного видеоматериала. Для MPEG сейчас стандартом считается соотношение 200:1, при этом сохраняется неплохое качество видео. Различные вари­анты Motion-JPEG работают с коэффициентами от 5:1 до 100: 1, хотя даже при уровне в 20: 1 уже трудно добиться нор­мального качества изображения. Кроме того, качество видео за­висит не только от алгоритма сжатия (MPEG или Motion-JPEG), но и от параметров цифровой видеоплаты, конфигурации ком­пьютера, а также от программного обеспечения.

Профили MPEG

Как уже отмечалось выше, в стандарте применяется концеп­ция профилей и уровней (табл. 3.8).

Стандарт предусматривает пять профилей:

• простой (simple) — для реализации видеопотока без В-кадров;

• главный (main) — для реализации всех уровней, но без масштабируемости:

• масштабируемый по отношению сигнал/шум (SNR scalable);

• пространственно масштабируемый (spatiallvscalable);

• профессиональный (professional 4:2:2). пространственно масштабируемый и масштабируемый по отношению сиг­нал/шум.

Каждый из этих профилей можно подразделить на четыре уровня:

• низкий (LL);

• главный (ML):


    Профиль; тип кадра; формат (дискретизация сигнала цветности)
Уровень Параметр Число отсчетов в строке Простой; 1 иР; 4:2:0 Главный (MP @ ML); I; РиВ; 4:2:0 Масштабируемый по отношению сигнал/шум I; Р и В 4:2:0 Пространственно мас­штабируемый I; Р и В 4:2:0 Профессиональ­ный I; Р и В; 4:2:0 или 4: 2: 2
Высокий Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с Не предусмотрен 1152 60 80 Не предусмотрен Не предусмотрен 1152 60 100
  Число отсчетов в строке          
Высокий 1440 Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с Не предусмотрен 1152 60 80 Не предусмотрен 60 80 1152 60 80
  Число отсчетов в строке          
Главный Число строк в кадре Число кадров в секунду 576 30 576 30 576 30 Не предусмотрен 576 30
  Макс, поток, Мбит/с          
  Число отсчетов в строке          
Низкий Число строк в кадре Число кадров в секунду Макс, поток, Мбит/с Не предусмотрен 288 30 4 288 30 4 Не предусмотрен Не предусмотрен
Таблица 3.<X.Уроним и профили спецификации MPEG

-2


. высокий 1440 (HI440);

• высокий (HL).

Каждому профилю соответствуют определенные наборы опе­раций по сжатию данных.

В профиле простой используется наименьшее число опе­раций: компенсация движения и гибридное дискретное косинус­ное преобразование (ДКП. DCT).

Профиль главный содержит дополнительную опера­цию — предсказание по двум направлениям, что улучшает каче­ство изображения.

Профиль масштабируемый по отношению сиг­нал/шум предусматривает повышение устойчивости системы при снижении отношения сигнал/шум. Поток видеоданных раз­деляют на две части: базовый поток и расширенный поток. Пер­вый несет наиболее значимую информацию, второй — дополни­тельную.

Профиль пространственно масштабируемый со­держит все операции предыдущего профиля и новую — разделе­ние потока видеоданных по критерию четкости телевизионного изображения. Этот профиль обеспечивает переходы между ныне действующим стандартом и ТВЧ.

В рассмотренных четырех профилях при кодировании сигна­лов яркости и цветности используют формат представления ви­деоданных 4:2:0, где число отсчетов сигналов цветности по сравнению с сигналом яркости снижено в 2 раза по горизонталь­ному и вертикальному направлениям.

В профиле профессиональный используют формат 4: 2: 2, т. е. число отсчетов сигналов цветности в вертикальном направлении такое же, как и в яркостном сигнале. Кроме этого, предусматривается возможность масштабирования — простран­ственного и по отношению сигнал/шум.

Уровню низкий соответствует недавно введенный класс качества телевизионного изображения — ТВ ограниченной чет­кости. Уровню главный соответствует ТВ обычной четкости. Уровни высокий 144 0 и высокий предусмотрены для ТВЧ, где использовано разложение на 1152 активные строки.

Каждый из этих профилей и уровней определяет предельные значения основных параметров битового потока, как это показа­но в табл. 3.8.

Сочетание профиля и уровня образует некоторое подмноже­ство общего стандарта MPEG-2 применительно к различным за­дачам, для решения которых он предназначен. Такое сочетание принято обозначать аббревиатурой. Например, MP@ML означа­ет главный профиль и главный уровень. Профессиональный профиль в сочетании с главным уровнем (422P@ML) послужил основой принятого в 1996 г. подмножества стандарта MPEG-2 для цифрового телевешания.

Описательный мультимедиа-стандарт MPEG-7

Спецификация разработана на пути использования методов и достижений интеллектуальных информационных систем в мультимедийных приложениях. Попытки решения данной зада­чи известны уже давно — ситуационное моделирование (Ю. И. Клыков, 1974 г.). RX-коды (1969 г.), проект PIPS (Pattern information processing system), программная среда и язык распо­знавания и генерации сцен NALIG — Native language interprator of graphics (Япония, 1980 г.) и др.

MPEG-7 формально называется «Мультимедиа-интерфейс для описания содержимого» (Multimedia Content Description Interface), он имеет целью стандартизовать описание мультиме­дийного материала, поддерживающего некоторый уровень ин­терпретации смысла информации, которая может быть передана для обработки ЭВМ. Стандарт MPEG-7 не ориентирован на ка­кое-то конкретное приложение, он стандартизует некоторые элементы, которые рассчитаны на поддержку как можно более широкого круга приложений. Следовательно, средства MPEG-7 позволят формировать описания (т. е. наборы схем описания и соответствующих дескрипторов по желанию пользователя) мате­риала, который может содержать:

• информацию, описывающую процессы создания и произ­водства материала (указатель, заголовок, короткометраж­ный игровой фильм);

• информацию, относящуюся к использованию материала (указатели авторского права, история использования, рас­писание вешания);

• информацию о характеристиках записи материала (формат записи, кодирование);

• структурную информацию о пространственных, временных или пространственно-временных компонентах материала

(разрезы сцены, сегментация областей, отслеживание пере­мещения областей):

• информацию о характеристиках материала нижнего уровня (цвета, текстуры, тембры звука, описание мелодии);

• концептуальную информацию о реальном содержании ма­териала (объекты и события, взаимодействие объектов);

• информацию о том. как эффективно просматривать мате­риал (конспекты, вариации, пространственные и частотные субдиапазоны и пр.);

• информацию о собрании объектов;

• информацию о взаимодействии пользователя с материалом (предпочтения пользователя, история использования).

MPEG-7 сконструирован так. чтобы учесть все подходы, учитывающие требования основных стандартов, таких, как SMPTE Metadata Dictionary. Dublin Силис. EBU P/Meta и TV Anytime. Эти стандарты ориентированы на специфические приложения и области применения, в то время как MPEG-7 пы­тается быть как можно более универсальным. MPEG-7 исполь­зует также схему XML в качестве языка выбора текстуального представления описания материала. Главными элементами стан­дарта MPEG-7 являются (рис. 3.18):

• дескрипторы (D) — представление характеристик, ко­торые определяют синтаксис и семантику представления каждой из характеристик;

• схемы описания DS (description scheme), которые спе­цифицируют структуру и семантику взаимодействия между компонентами. Эти компоненты могут быть дескриптора­ми и схемами описания;

• язык описания определений DDL (description definition language), позволяющий создавать новые схемы описания и, возможно, дескрипторы, и обеспечивающий расширение и модификацию существующих схем описания;

• системные средства служат для поддержки мультип­лексирования описаний, синхронизации описаний и мате­риала, механизмов передачи, кодовых представлений (как текстуальных, так и двоичных форматов) для эффективной записи и передачи, управления и защиты интеллектуальной собственности в описаниях MPEG-7.

Все области применения, базирующиеся на мультимедиа, выиграют от использования MPEG-7. Ниже предлагается список

Рис. 3.18. Абстрактное представление возможных приложении на основе MPEG-7

 

возможных приложений MPEG-7. которые любой из читателей без труда сможет дополнить:

• архитектура, недвижимость и интерьерный дизайн (напри­мер, поиск идей):

• выбор широковещательного медийного канала (например, радио. TV);

• услуги в сфере культуры (исторические музеи, картинные галереи и т. д.):

• цифровые библиотеки (например, каталоги изображений, музыкальные словари, биомедицинские кататоги изобра­жений. фильмы, видео- и радиоархивы);

• е-коммерция (например, целевая реклама, каталоги реаль­ного времени, каталоги электронных магазинов);

• образование (например, депозитарии мультимедийных кур­сов, мультимедийный поиск дополнительных материалов);

• домашние развлечения (например, системы управления личной мультимедийной коллекцией, включая манипуля­цию содержимым, например, редактирование домашнего видео, поиск игр. караоке);

• исследовательские услуги (например, распознавание чело­веческих особенностей, экспертизы);

• журнатизм (например, поиск речей определенного полити­ка, используя его имя. его голос или его лицо);

• мультимедийные службы каталогов (например, желтые страницы, туристская информация, географические ин­формационные системы):

• мультимедийное редактирование (например, персональная электронная служба новостей, персональная медийная сре­да для творческой деятельности):

• удаленное опознавание (например, картография, экология, управление природными ресурсами);

• осуществление покупок (например, поиск одежды, которая вам нравится):

• надзор (например, управление движением, транспортом, неразрушаюший контроль в агрессивной среде).

В принципе, любой тип аудиовизуального материала может быть получен с помощью любой разновидности материала в за­просе. Это означает, например, что видеоматериал может быть запрошен с помощью видео, музыки, голоса и т. д. Ниже приве­дены примеры запросов:

•проиграйте несколько нот на клавиатуре, и вы получите список музыкальных отрывков, сходных с проигранной мелодией, или изображений, соответствую­щих некоторым образом нотам, например, в эмоциональ­ном плане;

•нарисуйте несколько линий на экране, ивы найдете набор изображений, содержащих похожие графи­ческие образы, логотипы, идеограммы;

•определите объекты, включая цветовые пят­на или текстуры, и вы получите образцы, среди кото­рых сможете выбрать интересующие вас объекты;

• опишите действия и получите список сценариев, со­держащих эти действия;

• используя фрагмент голоса Паваротти, полу­чите список его записей, видеоклипов, где Паваротти поет, и графический материал, имеющий отношение к этому певцу.

Рассмотрим пример описания визуального материала (рис. 3.19, а) графовыми представлениями (рис. 3.19, б).

Этот пример демонстрирует момент футбольного матча. Оп­ределены два видеосегмента, одна стационарная область и три движущиеся области. Граф. описывающий структуру материала, показан на рис. 3.19.


    Щ НЕДНиИНМ  
  Щ SVV1; i ; 1  
     
 
  Video Segment & Kitk  
       
    SISI ■■■
Ms   4 г:  
  Ыж-Мы    
      вбй!

 

Video Segmm! ■


 

а


Рис. 3.19. Пример видеосегмента и областей ситуации (а); соответствующий граф (о)
б

Видеосегмент Dribble&Kick (Обводка и удар) включает в себя мяч, вратаря и игрока. Мяч остается рядом с игроком, движущимся к вратарю. Игрок появляется справа от вратаря.

Видеосегмент гол включает в себя те же подвижные области плюс стационарную область ворота. В этой части последователь­ности игрок находится слева от вратаря, а мяч движется к воротам.

Этот простой пример иллюстрирует гибкость данного вида представления. Заметим, что это описание в основном представ­ляется структурным, так как отношения, специфицированные ребрами графа, являются чисто физическими, а узлы представ­ляют объекты, которые описываются данными о создании, ин­формацией об использовании и медиаданными, а также деск­рипторами низкого уровня, такими, как цвет, форма, движение. В семантически явном виде доступна только информация из текстовой аннотации (где могут быть специфицированы ключе­вые слова мяч, игрок или вратарь).

Контрольные вопросы

1. Каковы характеристики аналогово-цифрового и цифро-аналогового преобразований аудиоданных?

2. Перечислите методы синтеза звука.

3. Какие характеристики имеют аудиоадаптеры?

4. Что такое ЧМ и WaveTable?

5. Перечислите возможности карты SoundBlaster.

6. Что такое LivelDrive?

7. Охарактеризуйте MIDI-интерфейс.

8. Перечислите основные характеристики форматов аудиосигнала.

9. Какие основные функции реализует программное обеспечение обра­ботки аудиосигналов?

10. Охарактеризуйте методы оптической интерполяции.

11. Перечислите основные характеристики цифровых видеокамер (ЦВК).

12. Что такое схемы цветообразования?

13. Охарактеризуйте форматы графических файлов.

14. Что такое видеозахват?

15. Что такое цветоразностные компоненты?

16. Перечислите форматы записи цифрового видео.

17. В чем заключается сущность M-JPEG сжатия видеоданных?

18. Перечислите основные особенности алгоритмов MPEG-1—4.

19. Что такое GOP?

20. Что такое профили MPEG?

21. В чем сущность стандарта MPEG-7?


Глава 4

ИНФОРМАЦИОННЫЕ КРОСС-ТЕХНОЛОГИИ

К данному классу отнесены технологии пользовате­ля, ориентированные на следующие (или аналогичные) виды преобразования информации:

• распознавания символов:

• звук—текст:

• текст—звук;

• автоматический перевод.

4.1. Оптическое распознавание символов (OCR)

Когда страница текста отсканирована в ПК, она представле­на в виде состоящего из пикселей растрового изображе­ния. Такой формат не воспринимается компьютером как текст, а как изображение текста и текстовые редакторы не способны к обработке подобных изображений. Чтобы превра­тить группы пикселей в доступные для редактирования символы и слова, изображение должно пройти сложный процесс, извест­ный как оптическое распознавание символов (optical character recognition — OCR).

В то время как переход от символьной информации к графи­ческой (растровой) достаточно элементарен и без труда осущест­вляется, например при выводе текста на экран или печать, об­ратный переход (от печатного текста к текстовому файлу в ма­шинном коде) весьма затруднителен. Именно в связи с этим для ввода информации в ЭВМ исстари использовались перфо­ленты, перфокарты и др. промежуточные носители, а не исходные «бумажные» документы, что было бы гораздо удобнее. ■ В защиту» перфокарт скажем здесь, что наиболее «продвину­тые» устройства перфорации делали надпечатку на карте для проверки ее содержания.

Первые шаги в области оптического распознавания симво­лов были предприняты в конце 50-х гг. XX в. Принципы распо­знавания, заложенные в то время, используются в большинстве систем OCR: сравнить изображение с имеющимися эталонами и выбрать наиболее подходящий.

В середине 70-х гг. была предложена технология для ввода информации в ЭВМ. заключающаяся в следующем:

• исходный документ печатается на бланке с помощью пи­шущей машинки, оборудованной стилизованным шрифтом (каждый символ комбинируется из ограниченного числа вертикальных, горизонтальных, наклонных черточек, по­добно тому, как это делаем мы и сейчас, нанося на почто­вый конверт цифры индекса):

• полученный «машинный документ» считывается оптоэлек- трическим устройством (собственно OCR), которое коди­рует каждый символ и определяет его позицию на листе;

• информация переносится в память ЭВМ, образуя элек­тронный образ документа или документ во внутреннем представлении.

Очевидно, что по сравнению с перфолентами (перфокарта­ми) OCR-документ лучше хотя бы тем. что он без особого труда может быть прочитан и проверен человеком и, вообще, представ­ляет собой «твердую копию» соответствующего введенного доку­мента. Было разработано несколько модификаций подобных шрифтов, разной степени «удобочитаемости» (OCR A, OCR В и пр., рис. 4.1).

OCR А 123 OCR В 123

а б

Рис. 4.1. Стилизованные шрифты: а - OCR А; 6— OCR В

Очевидно также, что считывающее устройство представляет собой сканер, хотя и специализированный (считывание стилизо­ванных символов), но интеллектуальный (распознавание их).

OCR-технология в данном виде просуществовала недолго и в настоящее время приобрела следующий вид:

• считывание исходного документа осуществляется универ­сальным сканером, осуществляющим создание растрового образа и запись его в оперативную память и/или в файл;

• функции распознавания полностью возлагаются на про­граммные продукты, которые, естественно, получили на­звание OCR-software. Исследования в этом направлении качались в конце 1950-х гг.. и с тех пор технологии непрерывно совершенствова­лись. В 1970-х гг. и в начале 1980-х гг. программное обеспечение оптического распознавания символов все еще обладало очень ограниченными возможностями и могло работать только с неко­торыми типами и размерами шрифтов. В настоящее время про­граммное обеспечение оптического распознавания символов на­много более интеллектуально и может распознать фактически все шрифты, даже при невысоком качестве изображения доку­мента.

Основные методы оптического распознавания

Рис. 4.2. Различные подходя к распознаванию символов: а — сравнение с образцом; б — выделение признаков

Один из самых ранних методов оптического распознавания символов базировался на сопоставлении матриц или сравнении с образцом букв. Большинство шрифтов име­ют формат Times, Courier или Helvetica и размер от 10 до 14 пунктов (точек). Программы оптического распознавания сим­волов, которые используют метод сопоставления с образцом, имеют точечные рисунки для каждого символа каждого размера и шрифта (рис. 4.2, а). Сравнивая базу данных точечных рисун­ков с рисунками отсканированных символов, программа пытает­ся их распознавать. Эта ранняя система успешно работала толь-

 

ко с непропорциональными шрифтами (подобно Courier), где символы в тексте хорошо отделены друг от друга. Сложные до­кументы с различными шрифтами оказываются уже вне возмож­ностей таких программ.

Выделение признаков было следующим шагом в раз­витии оптического распознавания символов. При этом распо­знавание символов основывается на идентификации их универ­сальных особенностей, чтобы сделать распознавание символов независимым от шрифтов. Если бы все символы могли быть идентифицированы, используя правила, по которым элементы букв (например, окружности и линии) присоединяются друг к другу, то индивидуальные символы могли быть описаны незави­симо от их шрифта. Например: символ «а» может быть представ­лен как состоящий из окружности в центре снизу, прямой ли­нии справа и дуги окружности сверху в центре (рис. 4.2, б). Если отсканированный символ имеет эти особенности, он может быть правильно идентифицирован как символ «а» программой опти­ческого распознавания.

Выделение признаков было шагом вперед сравнительно с со­ответствием матриц, но практические результаты оказались весьма чувствительными к качеству печати. Дополнительные по­метки на странице или пятна на бумаге существенно снижали точность обработки. Устранение такого «шума» само по себе ста­ло целой областью исследований, пытающейся определить, ка­кие биты печати не являются частью индивидуальных символов. Если шум идентифицирован, достоверные символьные фрагмен­ты могут тогда быть объединены в наиболее вероятные формы символа.

Некоторые программы сначала используют сопоставление с образцом и/или метод выделения признаков для того, чтобы распознать столько символов, сколько возможно, а затем уточ­няют результат, используя грамматическую проверку правильно­сти написания для восстановления нераспознанных символов. Например, если программа оптического распознавания симво­лов неспособна распознать символ «е» в слове «th~ir», програм­ма проверки грамматики может решить, что отсутствующий символ — «е».

Современные технологии оптического распознавания на­много совершеннее, чем более ранние методы. Вместо того что­бы только идентифицировать индивидуальные символы, совре­менные методы способны идентифицировать целые слова. Эту технологию, предложенную Caere, называют прогнозирую­щим оптическим распознаванием слов (Predictive Optical Word Recognition — POWR).

Используя более высокие уровни контекстного анализа, ме­тод POWR способен устранить проблемы, вызванные шумом. Компьютер анализирует тысячи или миллионы различных спо­собов, которыми точки изображения могут быть собраны в сим­волы слова. Каждой возможной интерпретации приписывается некоторая вероятность, после чего используются нейронные сети и прогнозирующие методы моделирования, заимствован­ные от исследований в области искусственного интеллекта. Они предполагают использование «экспертов» — алгоритмов, разра­ботанных специалистами в различных областях распознавания символов. Один «эксперт» может знать многое о начертаниях шрифта, другой — о словарной информации, третий — об ухуд­шении качества от «зашумленности» и пр. На каждой стадии ис­следования привлекается новый набор «экспертов» с учетом близости их «областей знаний* к специфической ситуации и статистики успеха в подобных ситуациях.

Окончательный итог — то. что система POWR способна идентифицировать слова способом, который близко напоминает человеческое визуальное распознавание. Практически, методика значительно улучшает точность распознавания слов во всех ти­пах документа. Все возможные интерпретации слова оценивают­ся, комбинируя все источники доказательства, от информации пикселя нижнего уровня до контекстных особенностей высокого уровня, в результате чего выбирается самая вероятная интерпре­тация.

Технологии Finereader



Поделиться:


Последнее изменение этой страницы: 2017-02-22; просмотров: 1139; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.218.172.210 (0.108 с.)