Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Препроцессинг и расстановка границ

Поиск

Каждая страница, обрабатываемая Кромсатором, перед основной обработкой проходит препроцессинг - первичную расстановку границ. При этом программа пытается определить положение корешка (при сканировании разворотов), обреза книги и полей страницы.

Запускается препроцессинг командой Draft Kromsate меню Edit, или одноименной кнопкой (на кнопке - рисунок с ножницами) инструментальной панели.

При этом появляется диалог Draft Kromsate, с тремя вкладками: Options, Preprocess и Advanced. Собственно интерес будет представлять только вкладка Options, так как на ней выставляются все нужные на данный момент параметры. Список Kromsate позволяет выбрать, к каким файлам из списка будет применен препроцессинг. Опцию Pre-Rotate (вращение) следует использовать, когда развороты или страницы книги сканировались в "вертикальном" положении и не поворачивались программой сканирования. Флажок Save after rotate позволяет задать необходимость предварительного сохранения повернутого изображения (вот где важно отсутствие JPEG-сжатия!). Группа списков Use options from... задает возможность выбора одного из предварительно сохраненных наборов настроек.

Флажки в нижней части диалога задают параметры работы препроцессора, от них напрямую зависит качество результата, поэтому остановимся на них более подробно:

· Split Pages - задает разбиение разворотов на страницы. Включается в зависимости от формата книги и методики сканирования.

· Ignore blank half-page - разрешает программе самостоятельно исключать из обработки белые форзацы и просто страницы, не содержащие печати. Пригодится, если в книге есть отделение глав друг от друга белым листом.

· Safe top/bottom - установка этого флажка запрещает обрезку "полупустых" страниц и белых форзацев. Выключать не рекомендуется, особенно если книга предназначена для последующей распечатки - иначе не исключено наличие обрезанных не по формату "куцых" страниц.

· Бледный скан - вдвое снижает порог обнаружения контрастных границ текста и корешка. Применяется, если текст на скане очень бледен и трудно читаем (например, при сканировании различных руководств и многостраничных технических таблиц, напечатанных на полупрозрачной низкокачественной бумаге).

· Skip marked files - запрещает повторную обработку файлов, отмеченных зеленой галочкой, то есть уже прошедших препроцессинг.

· Select special processed - выбирает в списке файлы, отмеченные полужирным шрифтом (имеющие специальные настройки).

· Set only cutters - задает возможность не совершать никаких действий, кроме расстановки границ.

· Don't set cutter near border - запрещает установку границы слишком близко от края изображения. Применяется, если книга сканировалась со слишком большим запасом по полям.

Маленькие хитрости
Если границы выставляются неправильно (чаще всего такое происходит на бледных сканах), может помочь увеличение чувствительности поиска вертикальных границ текста - она регулируется ползунком Text vert. sensitivity на вкладке Advanced.

Когда все параметры выставлены, остается только нажать на кнопку OK и подождать... от десяти минут до получаса, в зависимости от объема книги и быстродействия компьютера. После окончания препроцессинга окно программы изменится:

На поле редактирования изображения появляются линии обрезки, а на его краях соответствующие ползунки. Ползунки с L-образным рисунком обозначают границу обрезки поля страницы, ползунки с Т-образным рисунком определяют границы переплета.

Теперь настало время проверить расстановку границ на всех сканах. Это утомительная, но совершенно необходимая часть работы.

В секции опций окна ScanKromsator выбираем вкладку Page, чтобы при необходимости отключать разбиение разворотов на страницы флажком Split. Потом начинаем листать страницы одну за одной. Листание реализовано очень удобно: клавиша "W" листает страницы вперед, а "Q" - назад. Таким образом, перебирая левой рукой страницы, можно очень быстро ставить мышью на место неверно установленные границы, перемещая их за ползунки (сами линии на поле редактирования не перетаскиваются). При необходимости поставить наклонную границу, можно наклонить одну из линий, нажав клавишу Shift и потянув ползунок. Только не нужно злоупотреблять наклоном горизонтальных границ, это может привести к появлению страниц с текстом, растянутым в форме трапеции. Уже упомянутый флажок Split отключает разбиение разворота на страницы (в случае, если, например, в книге присутствует большое изображение на целый разворот, требующее дополнительного сведения в другой программе).

Если ошибки в расстановке границ повторяются (такое бывает, например, когда при сканировании деформировался мягкий переплет), можно скопировать текущее положение одной из границ группой команд Copy current position to... контекстного меню, вызываемого щелчком правой кнопки мыши на ползунке. В этой группе особый интерес представляют команды all down и all selected, задающие копирование положения границы "до конца" списка или на все выбранные сканы. Контекстное меню также позволяет отключить наклон границы командой Reset Slope.

Опции обработки

Когда все границы выставлены как положено, приходит время расстановки опций. Встряхнитесь, ибо тут нужно предельное внимание - даже один неверный шаг наверняка будет стоить вам потраченных нервов и процессорного времени. Итак, перед нами секция опций программы ScanKromsator.

Помните, что большинство выставляемых опций относятся только к выбранной странице! Чтобы распространить устанавливаемую опцию на все страницы, нужно при включении флажка или щелчке на кнопке держать нажатой клавишу Ctrl!

Начнем с вкладки Page и пройдем по опциям последовательно слева направо.

Уже упомянутый флажок Split отвечает за разбиение на страницы. Флажки Deskew (выровнять) и Despeckle (очистить от мусора) установлены по умолчанию для всех страниц. Флажки Art (свободный наклон) и Ortho (принудительный поворот) задают специальное выравнивание страницы. В подавляющем большинстве случаев можно обойтись без них. Группа параметров Page align (выравнивание текста) сообщают программе о типе верстки страницы. Буква A в списках означает автоматическое детектирование верстки. Практически для любой книги (если только это не зоологический справочник с обилием таблиц, вклеек и разной версткой по разделам) выравнивание текста по горизонтали следует выставить по центру (" С "), а вертикальное - автомат (" А "). Вертикальное выравнивание стоит устанавливать только для страниц, имеющих явно нестандартную верстку (например, когда в текст книги включаются формы документов, выровненные посередине высоты страницы).

Вкладка Book.

На этой вкладке задаются единицы измерения (Units), величины добавляемых полей (Gaps) и размеры выходного изображения. Особое внимание стоит уделить полям Gap value (ширина поля). При обработке ScanKromsator добавит белое поле именно такой ширины в изображение страницы.

Величину добавляемых полей можно установить в интервале 180-250 в зависимости от изначальной ширины полей книги. Флажок vert. gap = hor.gap уравнивает ширину горизонтальных и вертикальных полей.

Остальные параметры можно не трогать, кроме флажка Merge pages after split (объединить после разбиения). Этот флажок пригодится, например, когда книга готовится к печати полными разворотами на листах альбомного формата (так иногда собирают дубликаты в библиотеках). Если этот флажок установлен, на выходе вы получите страницы с полями, склеенные по переплету.

Вкладка Files.

На этой вкладке в поле Output folder (папка назначения) задается имя папки для выходных файлов, а в поле Ouput Prefix (префикс имени выходного файла) можно ввести "добавку" к имени файла, которая позволит отличить "сырые" сканы от обработанных. Параметры Start from / Step (Начальный номер / шаг) задают именование выходных файлов.

Особого внимания заслуживает группа параметров Ouput Format (выходной формат). В первом по счету списке выставляется формат упаковки TIFF-файла (уже упомянутый TIFF Uncompress). Следующий список задает разрешение вывода (DPI). Здесь нужно ОБЯЗАТЕЛЬНО выставить 600 dpi! Это включит оверсемплинг и облегчит в дальнейшем задачу распознавания, сжатия и печати.

Список Color (цвет) задает цветность выходного изображения. Для черно-белого текста и одноцветных рисунков выставляется пункт B/W, для черно-белых фотоиллюстраций - Gray, для полноцветных изображений - Color (24bit). Впрочем, установка цветности для страницы в целом чаще всего бывает не нужна, поскольку есть возможность обрабатывать рисунки отдельно.

Маленькие хитрости

Больше всего проблем возникает, когда часть текста верстается поверх изображения (типичный прием для верстки детских книг). Такие страницы желательно вообще не подвергать обработке Кромсатором, а сразу подвергать распознаванию и запаковывать в PDF.

Вкладка Options.

На этой вкладке стоит только поднять до предпоследнего деления уже упоминавшиеся ползунки Text vert. sensitivity. В некоторых особо тяжелых случаях (вроде все тех же таблиц, отпечатанных на полупрозрачной бумаге), избавиться от "съедения" программой части символов можно, установив в списке Despeckle (очистка от мусора) пункт Safe.

Вкладка Options 2.

На этой вкладке заслуживает внимания один-единственный элемент - флажок LZW for non-bw TIFFs (применить сжатие для не ч/б TIFF-файлов). По умолчанию этот флажок включен, но его стоит выключить, чтобы потом не страдать от проблем с открытием файлов в программах распознавания.

Вкладка Convert.

На этой вкладке задаются параметры преобразования изображения из градаций серого в чистое черно-белое. Группа параметров Convert to b/w threshold (Порог преобразования в ч/б) содержит три списка с идентичным набором пунктов. Два верхних из них отвечают за порог преобразования для четных и нечетных страниц, последний - за преобразование специально выделенных одноцветных рисунков.

Для оптимального результата при нормально читаемом с бумаги тексте лучше всего выставить во всех списках вкладки пункт MiddleDark. Если же результат будет негодным, с этими параметрами придется экспериментировать, так как единого рецепта дать здесь невозможно.

Вкладка Quality.

На этой вкладке выставляются параметры, напрямую влияющие на качество выходного изображения. Флажок Enhance Image (применить улучшение) включает такую специальную обработку.

Первое, что нужно сделать на этой вкладке - держа Ctrl, установить галочку Gray Enhance (улучшить в градациях серого). Затем щелкаем по самой надписи, и попадаем в окно настройки дополнительных параметров Gray image enhance.

Здесь включаем (опять держа Ctrl) флажок Correct Illumination (Коррекция освещенности). Параметры - как на рисунке. Именно этот прием обеспечит нам избавление практически от всего мусора на сканах и получение чистых черно-белых страниц.

Маленькие хитрости

В окне Gray image enhance кроме вкладки Illumination всегда стоит заглянуть на вкладку Unsharp (контурная резкость). Если включить фильтр Unsharp Mask (знакомый практически каждому, работавшему с Adobe Photoshop), то он может неплохо выгладить края символов и улучшить их четкость. Параметры фильтра можно выставить как на рисунке.

Когда все дополнительные параметры выставлены, окно Gray image enhance можно закрыть, и перейти снова на вкладку Quality. Здесь включаем флажки Smooth (сгладить), Blur (размыть) и Sharpen (усилить резкость). Параметры везде можно выставить по 1.

Маленькие хитрости

Если нужно улучшить читаемость книги (особенно с монитора), параметры Smooth и Blur стоит увеличить, например поставить Smooth = 2, Blur = 1, или в любом другом сочетании. Размытие краев символов позволяет придать им большую цельность при сжатии, и такой текст с монитора будет отлично читаем.

Подготовка рисунков

После того, как все опции установлены и общие параметры пакетной обработки заданы, приходит время разобраться с рисунками (если таковые имеются в книге). Первое, что стоит сделать с найденным рисунком - выделить его мышью. Выделенная область в ScanKromsator носит название зоны (Zone). Чтобы выделенный рисунок рапознавался программой как не подлежащий обработке, после выделения достаточно щелкнуть в инструментальной панели на кнопке Mark as Picture Zone (отметить как картинку) . Впрочем, для одноцветных рисунков выделение необязательно, наоборот - преобразование в ч/б может сильно улучшить их восприятие.

Маленькие хитрости

Самая большая хитрость в подготовке черно-белых изображений - выбрать правильный способ их кодирования. Дело в том, что ScanKromsator может преобразовать изображение не только в черно-белое фотографическое (оно будет просто вырезано из страницы), но и в так называемое точечно-диффузное одноцветное (Bitonal Dithered Image). Суть этого процесса в том, что оттенки черно-белого изображения получаются путем изменения частоты расстановки отдельных черных пикселей. Фактически (с точки зрения алгоритма сжатия) такое изображение - одноцветное, то есть безградационное. Это позволяет очень существенно (до 20 раз!) выиграть в размере при сжатии алгоритмами, аналогичными LZW, DjVu, ZIP и другими. В случае JPEG сжатие может вообще не удаться, так как этот алгоритм рассчитан на плавные переходы оттенков.

Использовать Dithered Image возможно только на изображениях с высоким разрешением. Дело в том, что при отображении на экране или бумаге диффузного изображения с высоким разрешением происходит уменьшение, и отдельные черные и белые точки пересчитываются в серые. Если изображение не уменьшается при отображении, расположение точек становится заметным глазу, и изображение приходит в негодность.

Применять диффузное кодирование при работе в ScanKromsator имеет смысл при работе с фотографическими изображениями, напечатанными офсетом (на них виден небольшой растр) и глубокой печатью (на них мал общий контраст). Высококонтрастное или фактически одноцветное изображение кодировать диффузным способом опасно - можно "обсыпать" края контрастных объектов отдельными точками. Фактически, можно применить диффузное кодирование к любому изображению с достаточно высокой плотностью серого цвета и достаточно малым общим контрастом (как на рисунке).

Диффузное кодирование задается для выделенного рисунка кнопкой Exclude and Mark as Dithered Zone (Исключить и отметить как зону диффузного кодирования) инструментальной панели, или командой меню Zones -> Exclude and Mark as Dithered Zone. При включении диффузного кодирования рисунок не изымается из страницы при обработке.

2.5. Обработка и подготовка выходных файлов

После того, как все настройки заданы и рисунки оформлены в виде зон - нужно проверить качество выходных файлов. Для этого следует выбрать несколько страниц, которые вам покажутся самыми "проблемными". Как правило, это страницы с рисунками, чертежами и таблицами. Каждая страница передается на обработку командой Process -> Current File или клавишами Ctrl+P. ScanKromsator произведет обработку страниц по заданному настройками сценарию, а потом выведет специальный маленький просмотрщик с окном, подобным старым версиям ACDSee.

Перед запуском обработки программа может выдать запрос на изменение разрешения (DPI) изображения. На этот запрос нужно всегда отвечать утвердительно, иначе оверсемплинг применен не будет и выходные файлы придут в негодность.

Когда экспериментальные файлы удовлетворили требованиям к качеству, приходит время запускать основной процесс обработки. Сами первичные выходные файлы лучше удалить, чтобы программа не застопорилась на них c запросом о перезаписи. Обработка запускается нажатием кнопки Process! инструментальной панели.

Длительность обработки целиком зависит от быстродействия компьютера, и в среднем составляет для 400-страничной книги от 20 минут до полутора часов.

После обработки в выходной папке будут находиться:

· Собственно выходные файлы со страницами книги, преобразованными в черно-белые одноцветные изображения.;

· Рисунки, сохраненные под именами типа pic0001.tif.

В самих страницах на месте выделенных ранее рисунков останутся "дыры". Поэтому для получения изображений, пригодных для распознавания, нужно объединить страницы с рисунками. Это делается командой меню Zones -> Picture Zone -> Merge Zones. После окончания процесса объединения все выходные файлы будут готовы для распознавания.



Поделиться:


Последнее изменение этой страницы: 2016-09-05; просмотров: 213; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.133.153.224 (0.009 с.)