Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Национальная библиотека как депозитарий, которому доверено хранение цифровых материалов в норвежском обществе.

Поиск

 

То, что может быть найдено в цифровой среде, часто меняется. Что случится, например, если издание, распространяемое через Интернет, перестанет представлять интерес? Кто обеспечит устойчивость доступа в тот момент, когда мы перейдем от устойчивой среды к меняющейся? Как обеспечить целостность данных и организовать их так, чтобы они оставались доступными и через тысячу лет, а при необходимости были конвертированы в новый формат? Именно это и означает быть доверенным депозитарием. Важно иметь организации, готовые взять на себя заботу о культурном наследии, к которому относятся также и цифровые материалы.

Разумеется, национальные библиотеки всего мира являются доверенными хранилищами культурного наследия – это наша общественная обязанность. Мы разрабатываем системы и стандарты для обеспечения сохранности, нам известны требования к хранению, и потому другие организации, которые нуждаются в обеспечении надежного хранения, например, научных данных, хотят с нами сотрудничать.

Я предполагаю, что в будущем в этой сфере будет осуществляться сотрудничество между частным и общественным секторами.

Технический аспект хранения.

Требования к обеспечению долговременной сохранности должны быть намного выше, чем технические требования к условиям распространения цифровых материалов. В то же время продолжительность жизни форматов, в которых передаются данные, невелика, отчасти потому что постоянно создаются новые форматы, а, кроме того, потому что появляются новые версии существующих форматов.

По этой причине мы приняли решение создавать форматы для использования и распространения на основе форматов хранения. Графическое разрешение устанавливается в момент поиска пользователем графического образа. Наш графический формат хранения ‑ JPEG2000, а формат распространения ‑ обычный формат JPEG.

 

Предоставление доступа к нашему культурному наследию (например, через поисковые системы)

 

Следующая проблема – как использовать преимущество наличия цифрового хранилища таким образом, чтобы при этом обеспечить доступ к этим материалам и ученым, и студентам и обычной публике. Эта проблема имеет множество аспектов - не только технических, о которых говорилось выше, но преимущественно она касается авторских прав или использования в учебных целях, в том числе при обучении в сети.

 

Обучение в распределенной сети

Национальные библиотеки всегда предоставляли доступ к своим материалам через использование метаданных. При доступе к цифровому материалу появляется проблема управления нашими собраниями и организации знаний, у пользователя возникают ожидания относительно услуг, которые ему должны быть предоставлены. В какой степени следует добавлять новые возможности, например, поддерживать блог, давать доступ к материалам так, как делают в YouTube или Facebook? Мы постоянно обсуждаем этот вопрос с экспертами.

Обучение в сети.

Важно принять участие в разработке обучения в сети. Знание библиотеками потребностей пользователей - хорошее основание для разработки методологии поиска в разрезе метаданных и методологии поисковых систем в Интернет. Наша цель ‑ обеспечить доступ к информации, знаниям и опыту независимо от вида носителя. Мы создаем поисковую систему для всех типов носителей посредством интеграции всех типов каталогов.

Приоритеты.

Существует проблема выбора приоритетов оцифровки. Должны ли мы начать оцифровку с тех материалов, которые представляются наиболее важными с точки зрения культурного наследия? Должны ли мы отобрать один тип носителя? Должны ли мы, в первую очередь, заботиться о том, что наиболее уязвимо с точки зрения сохранности? Должны ли мы сначала оцифровывать и давать доступ к тому, что имеет больший спрос? Должны ли мы выбрать в качестве приоритетных только те материалы, использование которых не ограничено авторскими правами, или же это имеет смысл выбирать и документы с неустановленными авторскими правами (orphan works), или делать выбор приоритетов так, чтобы минимизировать трудности переговоров с держателями прав? Как показано выше, наше решение – сочетание плановой оцифровки и оцифровки по запросам. Это представляет некоторую проблему для организации технологического потока, так как приходится применять разный инструментарий и разные подходы к оцифровке различного материала.

Согласование с держателями копирайта (чтобы мог производиться поиск современных книг, фильмов и музыки).

 

В Законе об обязательном экземпляре говорится, что к любому объекту, попадающему под его действие, может быть обеспечен доступ. Это распространяется и на цифровые материалы, подлежащие обязательному хранению. Однако в цифровой области до сих пор имеются нерешенные проблемы, например, вопросы, возникающие из-за взаимосвязи нескольких ресурсов данных (норвежские Интернет-страницы), а также риски и последствия, связанные с незаконным копированием цифровых материалов, число которых значительно больше, чем число печатных документов.

Национальной библиотеке предоставлено право оцифровки собрания в целях обеспечения его сохранности. Однако для предоставления доступа к собранию в цифровой библиотеке, в тех случаях, когда материал, находится под защитой копирайта, необходимо заключать соглашение с его держателями.

Оцифрованные старые материалы без ограничений копирайта доступны каждому.

Копирайт

Право интеллектуальной собственности – серьезная проблема. Поэтому жизненно важной задачей является ведение переговоров с держателями прав. Какой должна модель оплаты за использование материалов? Сегодня в скандинавских странах существует традиция коллективных моделей. Если цифровая среда облегчает держателю копирайта определение условий и контроль использования художественного произведения, не оказывается ли тем самым давление на отдельного пользователя с целью получения платы за использование произведения? Как мы можем определить, кто такие обладатели прав? В какой степени лицензирование заменит постоянные соглашения об использовании? Возможно ли, чтобы соглашения об использовании цифровых материалов основывались на принципах, принятых для печатных материалов, или же цифровая среда станет иной основой для разработки решений? Является ли фактом, что книги, доступные, например, в национальной цифровой библиотеке являются предметами коммерческого использования, и должно ли это обстоятельство учитываться при переговорах? Должно ли общество финансировать оплату библиотеками прав, или в новой ситуации в национальных библиотеках появится больше платных услуг? Уже теперь ответы на эти вопросы будут разными в разных европейских странах.

Национальная библиотека Норвегии приступила к заключению соглашений с держателями копирайта, чтобы сделать возможным доступ к современной части культурного наследия. Одним из таких соглашений является соглашение между Национальной библиотекой и несколькими держателями прав о доступе к полным текстам книг и журнальных статей по теме «Северные широты». Данное соглашение дает право библиотеке предоставить доступ к 1400 полным произведениям из наших цифровых собраний. С помощью этого проекта мы хотели узнать больше о поведении пользователей, о частоте обращений, и интересе к цифровым текстам: читает ли пользователь в сети, или копирует файлы, и если так, когда и как? Есть ли различия в использовании разных видов материала, например, художественной литературы и справочных изданий? Результаты показали большой интерес к чтению, а также появление нового интереса к забытым произведениям.

Опыт, который был приобретен в ходе реализации проекта, позволил министерству культуры организовать группу для разработки критерия переговоров с держателями прав о порядке и размерах оплаты за доступ к полному тексту в сети национальной библиотеки. На этой основе теперь ведутся переговоры относительно прав предоставления доступа примерно к 50000 полным текстам книг, охватывающих различные периоды норвежской литературы.

Идентификация пользователя и допуск к материалам – контроль доступа

Важный вопрос при использовании цифрового материала – контроль доступа. Необходимо иметь гибкую инфраструктуру для контроля доступа идентификации пользователя, для того чтобы устанавливать разрешен ли ему доступ. В нашей библиотеке мы приняли решение создать такую структуру с функцией контроля доступа в рамках образовательного сектора.

Национальная библиотека приняла решение использовать системный контроль доступа. Мы решили кооперироваться с Федеральной системой идентификации для образования (FEIDE), которая представляет собой национальную инфраструктуру идентификации и допуска пользователей норвежских университетов и других высших учебных заведений. Такое сотрудничество означает, что мы можем открыть доступ группе научных работников из университетов и других высших учебных заведений, не зная персонально каждого из них. Именно, университеты несут ответственность за аутентичность тех пользователей, которые отвечают требованиям, предъявляемым системой к пользователям.

Если бы мы выбрали контроль доступа, основанный на именах пользователей, а кодирование паролей было бы основано на правах для каждого пользователя, национальная библиотека должна была бы потратить значительные ресурсы на администрирование и поддержку прав доступа.

В настоящее время мы еще не реализовали контроль доступа в отношении электронных книг. Поэтому мы только проиндексировали и сделали доступными книги, которые или не имеют копирайта, или подходят под соглашение о доступе с держателями прав.

Программное обеспечение, которое используется для идентификации и допуска пользователя предоставлено компанией «Микросистемы SUN»[70].

Создание производственной линии оцифровки книг.

При организации процесса оцифровки книг было важно получить интегрированную производственную линию, способную охватить все стадии, которые книга должна пройти, прежде чем ее цифровая копия будет сохранена в депозитарии длительного хранения библиотеки и при этом станет доступной имеющим разрешение пользователям. Мы хотели насколько возможно полно автоматизировать обработку цифровой книги, в тоже время обеспечить ее гибкость, чтобы иметь возможность в случае необходимости ввести новые операции в технологический цикл.

Мы предусмотрели следующие операции:

· отбор для оцифровки и установка очередности отобранных книг,

· извлечение книг из фондов,

· транспортировка,

· извлечение из каталогов метаданных (библиографических описаний),

· оцифровка книги,

· оптическое распознавание текста и его структурный анализ,

· конвертирование формата,

· генерация объектов хранения, ввод их в хранилище для длительного хранения,

· ввод в каталог указания о наличии оцифрованной копии,

· индексирование распознанного текста и метаданных для поисковой системы.

Был также принят во внимание факт, что различные типы технологии сканирования дают разные результаты оцифровки. Если книга может быть разобрана на листы, сканирование происходит в 10 раз быстрее.

Обеспечение сохранности – решения по формату и качеству

Оцифровка должна сделать обеспечение сохранности более эффективным, то есть сделать собрания менее подверженным повреждениям. Это значит, что оцифровка должна быть осуществлена с таким уровнем качества, чтобы после хранения оставалась возможность воссоздать качество оригинала на момент оцифровки. В то же время, оцифровка и выбранный формат должны отвечать требованиям к материалам для распространения.

Мы приняли решение оцифровывать книги с разрешением 400 dpi и с глубиной цвета 24 бита. Наш формат сохранения ‑ JPEG2000 без потерь при сжатии. После сканирования сохраняемое изображение не обрабатывается и не редуцируется какими-либо способами.

С помощью применения JPEG2000 без потерь при сжатии вместо формата TIFF без сжатия нам удалось уменьшить потребность в объеме памяти для хранения примерно на 50 %. Для всей программы оцифровки это означает экономию порядка 70 млн норвежских крон. С помощью практических тестов мы смогли доказать, что формат JPEG2000 может быть преобразован обратно в TIFF абсолютно без каких бы то ни было потерь.

Аргумент против использования JPEG2000 состоит в том, что повреждение хотя бы одного бита может полностью разрушить все изображение, тогда как в формате TIFF оно затронет всего лишь один пиксель. Мы считаем, что принятая у нас организация долгосрочного хранения позволяет пренебречь такой опасностью.

Требования к качеству материала для сохранения намного выше, чем при распространении. Кроме того, продолжительность жизни форматов для распространения данных короче, отчасти потому что постоянно разрабатываются новые форматы с более совершенными алгоритмами сжатия, которые обеспечивают лучшее качества с меньшим количеством дополнительных данных, отчасти потому что разрабатываются новые версии существующих форматов с улучшенными алгоритмами и лучшим качеством. По этой причине мы решили генерировать формат передачи (распространения) из файла хранения в тот момент, когда пользователь запросит изображение. Используя такую стратегию, мы в состоянии заменить формат передачи просто с помощью замены алгоритма, генерирующего формат передачи.

При сегодняшнем решении мы генерируем файл JPEG (размер обычно около 200 килобайт) с качеством, позволяющим просмотр, из файла JPEG2000 (обычно около 20 мегабайт), хранящегося в депозитарии длительного хранения.

Депозитарий долгосрочного хранения цифровых материалов

Депозитарий – инфраструктура, обеспечивающая долгосрочную сохранность цифровых материалов.

Все, что оцифровано в рамках программы Национальной библиотеки Норвегии подлежит хранению в ее депозитарии. В нем предусматривается разделение технологий использования и хранения цифровых материалов. Это позволяет просто осуществлять миграцию данных в технологические системы хранения новых поколений, не оказывая при этом влияния на систему извлечения цифровых данных. Это очень существенно в перспективе на 1000 лет.

Депозитарии все цифровые материалы хранятся в трех экземплярах на двух носителях в депозитарии долгосрочного хранения. В настоящее время одна из копий сохраняется на диске, а две другие ‑ на магнитной ленте.

Поисковая система

В целях осуществления поиска в больших массивах данных, Национальная библиотека решила использовать технологию поисковой машины Интернета, а не традиционной базы данных. Как полный текст, так и метаданные индексируются системой, и поиск осуществляется независимо от типа материала. Мы также внедрили систему так называемого ступенчатого поиска (drill down search) в метаданных. В ходе поиска в реальном времени осуществляется анализ метаданных, отвечающих терминам запроса, и пользователю предлагаются альтернативные пути навигации и разные возможности сужения (детализации) запроса. Используемая поисковая система поддерживается системой FAST (Files and settings transfer)

Разброшюровка книг

Для быстрой оцифровки мы приняли решение производить разброшюровку книг в тех случаях, когда в библиотеке имеется не менее трех экземпляров данной книги. После оцифровки разобранный экземпляр выбрасывается. Когда же число экземпляров меньше трех, сканирование производится ручным способом, причем операторы сканируют одновременно две страницы. Книги, наиболее подверженные разрушению, сканируются под наблюдением специалиста по консервации, и принимаются необходимые консервационные меры до или в связи с оцифровкой.

Подготовка книги для сканирования при разброшюровке требует гораздо больше трудозатрат, чем подготовка к ручному сканированию. Для разборки книги необходимы операторы-специалисты (отделение переплета от блока, удаление клея с помощью гидравлического резака). Сканирование переплета – отдельный процесс. Таким образом в этом случае, для обслуживания одного сканера требуется четыре оператора. Тем не менее, в целом такая технология позволяет снизить стоимость и повысить скорость процесса по сравнению с оцифровкой того же материала ручным способом. В настоящее время примерно четверть книг библиотеки может быть подвергнуто разброшюровке для последующей оцифровки.

Для книг, подлежащих разброшюровке, мы располагаем двумя гидравлическими резаками, тремя сканерами для переплета (i2s Copibook) и двумя сканерами с автоподачей листов (Agfa S655). Для сканирования с переворачиванием страниц используется i2s Digibook Suprascan. Пять из них ‑ А2 используются для сканирования в нормальном режиме, а одни A0 – для сканирования особых материалов. Операции на сканере A0 осуществляются специалистами по консервации.

Перед сканированием переплета все метаданные по книге извлекаются из каталога (BIBSYS) посредством штрих-кодов, которым снабжена каждая книга в этом каталоге. Таким образом генерируется цифровой идентификатор-паспорт книги, который вносится в файл XML вместе с метаданными, полученными из каталога. При автоматическом сканировании шрих-код и идентификатор-паспорт распечатываются на отдельном листе сразу после сканирования переплета. Этот лист кладется поверх пачки листов разброшюрованной книги. Когда штрих-код далее проходит через автоматический сканер, он идентифицируется, и таким образом осуществляется связь между файлом метаданных и сканированным переплетом.

При использовании сканера с переворачиванием страниц переплет и содержание книги сканируются на одной и той же машине. Этот процесс также предусматривает извлечение метаданных из каталога и генерацию файла XML c метаданными. Данный файл сопровождает книгу в течение всего цикла.

Летом 2009 года мы начали использование сканера, который переворачивает страницы книг, журналов и газет, которые не были подвергнуты разброшюровке. Для таких материалов эта технология значительно повышает производительность, во-первых, потому, что сканеры работают быстро и при этом осторожно обращаются с материалом, а во вторых, потому, что при такой технологии один оператор может одновременно обслуживать несколько сканеров. Финансовые затраты на такой сканер все же высоки, однако эффективность по сравнению с ручным сканированием того же типа выше в 10 раз.

Оптическое распознавание символов и структурный анализ

После оцифровки книга вместе с описывающими ее метаданными, готовые для дальнейшей обработки, помещаются во временное хранилище. Книги должны быть вручную импортированы в программу docWorks, но с этого момента обработка большинства книг полностью автоматизирована. Ручные операции используют только в исключительных случаях, когда программа сообщает об ошибках (например, когда обработка не может оставаться в пределах заданных границ). Помимо этого операторы используются для контроля качества тех частей собрания, которые мы хотим подвергнуть дальнейшей обработке. Книги, подлежащие обработке в первую очередь, помещаются в специальные папки, которые передаются на стандартную систематическую оцифровку. После оптического распознавания и структурного анализа документа, все графические файлы книги подвергаются сжатию с генерацией формата JPEG2000. Этот формат используется для хранения.

Для того чтобы мог быть использован полнотекстовый поиск, все книги проходят процесс оптического распознавания. В налаженном производстве этот процесс полностью автоматизирован, в нем не предусматривается ручного контроля качества или стадии корректировки. Текст, полученный в результате распознавания, индексируется нашей поисковой системой вместе с метаданными. Если поиск дает результат, страница книги, на которой текст был найден, выводится на экран, а пользователю предоставлена возможность начать поиск с этой страницы.

Кроме того, выполняется автоматический структурный анализ, в ходе которого осуществляется аннотирование любого оглавления, и номера страниц выверяются так, чтобы интерфейс поиска соответствовал бы пагинации книги. Это тоже автоматизированный процесс. Программное обеспечение поддерживает очень сложный структурный анализ, однако, на данной стадии увеличение сложности невозможно без применения интеллектуального контроля после завершения процесса. Для отдельных отобранных частей собрания мы производим более подробный структурный анализ, включая аннотирование нескольких частей документа, который также может обеспечить более тонкую навигацию в книге через пользовательский интерфейс.

В настоящее время в библиотеке в цифровую форму каждый месяц переводятся почти 4000 книг. При таком объеме выполнить ручной контроль после завершения оптического распознавания и структурный анализ текста практически невозможно. И оптическое распознавание, и структурный анализ выполняются c помощью программного обеспечения docWorks.

По завершении обработки в docWorks создается комплексный объект, содержащий метаданные, соответствующие стандарту кодирования и передачи метаданных, цифровую книгу (графический образ), оптически распознанный текст, и данные о структуре. Этот объект помещается в депозитарий долгосрочного хранения цифровых материалов национальной библиотеки.

Одновременно в каталог добавляется паспорт идентификатор книги.

Индексирование.

Импорт данных каталога в формате OAI производится регулярно. Если в ходе импорта обнаруживается, что запись обновлена и на книгу имеется цифровой паспорт –идентификатор, начинается процесс извлечения метаданных и текста книги из депозитария и их индексирование, так чтобы книга стала доступной для поиска в национальной цифровой библиотеке.

Рис.2

Уроки, полученные нами к настоящему времени. Объем, сложность и внедрение

Задача создания интегрированной производственной линии оцифровки книг с высокой степенью автоматизации оказалась шире и сложнее чем ожидалось. В целях экономии времени, как только было принято решение о создании производственной линии, мы начали работу по созданию первой части технологического цикла (планирование, извлечение, транспортировка материала, собственно оцифровка). Для организации эффективного извлечения материала, была произведена адаптация BIBSYS – системы каталога книг национальной библиотеки и программ автоматизированной системы хранения из которой извлекаются книги. Использование этих средств поставило нас в зависимость от двух внешних поставщиков, что имело последствия для быстроты реализации разработки.

Объявление и проведение тендеров на покупку сканнеров также процесс, требующий затрат времени. Мы не могли разработать метод оцифровки до тех пор, пока не стало ясно, какой тип оборудования мы станем использовать, а затем мы должны были установить первые сканеры, прежде чем запустить линию и приступить к тестированию.

После установки первой части поточной линии, мы начали тестовое производство. Рассчитывая на высокую производительность, мы вскоре обнаружили, что во временном хранении скопились большие массивы данных. В ожидании запуска следующей очереди линии, мы должны были организовать временный порядок хранения цифровых данных.

Для запуска следующей очереди производственной линии и обеспечения функций цифровой библиотеки, которые должны облегчить поиск и представление книг, потребовалось большое число разработок, таких, как:

Некоторые примеры:

· инсталляция и запуск программы оптического распознавания и структурного анализа документа,

· интеграция этой системы в производственную линию,

· генерация объектов хранения, соответствующих стандарту кодирования и передачи метаданных (METS),

· процесс помещения объектов депозитарий долгосрочного хранения,

· запуск системы обновления каталогов посредством добавления в них цифрового идентификатора паспорта,

· сбор системой OAI метаданных из каталога,

· процесс извлечения текстов книг и метаданных из депозитария,

· индексирование их

· разработка системы поиска и извлечения книг цифровой библиотеки.

Одновременно возникло сильное административное и общественное давление - требовалось скорое достижение результатов оцифровки, при том, что приходилось отодвигать назначенные сроки, что привело в течение некоторого времени к значительным стрессам в секторе, отвечающем за разработку.

После того, как функции доступа и представления книг цифровой библиотеки были реализованы, вскоре стало ясно, что поиск и представление книг становятся весьма интересной услугой, которая обеспечит «подъем» нашей цифровой библиотеке. Кроме того, оцифровка получила значительное освещение в печати, и ожидания увидеть результаты были велики как у пользователей, так и в библиотеке. Поэтому мы приняли решение начать обслуживание, несмотря даже на то, что производственная линия находилась в стадии разработки (требовалась большая работа операторов, которые вручную должны были проводить книгу через всю технологическую линию). Несмотря на хорошую работу системы обслуживания, ожидания быстрого получения большого объема цифровых книг не оправдались. В основном это было связано с тем, что поточная линия не была еще полностью внедрена, и соответственно, полностью не введена в эксплуатацию.

Из полученного опыта ясно видно, что нам следовало с самого начала больше сконцентрировать усилия на единстве всей производственной линии и необходимых функциях цифровой библиотеки, и что с самого начала нам следовало лучше встроить графики работы по отдельным разработкам в общий график работ.

Реальная эффективность.

Исходя из наличия оборудования для оцифровки, мы уже в начале работы обозначили цели оцифровки. Необходимо было принять во внимание фазу адаптации. Тем не менее, оказалось, что некоторые непредусмотренные нами факторы заметно снизили эффективность в целом. Это стало особенно очевидным при применении автоматического сканирования.

В целом книжные страницы оказались толще, чем тестовые листы, которые использовались для определения характеристик сканеров. Это привело к снижению скорости подачи бумаги, что оказало серьезное влияние на ежедневную производительность.

Поскольку мы начали с самых старых книг, возникла проблема, связанная с их запыленностью. Это означало, что сканеры требовали больших затрат на очистку и поддержку, чем ожидалось поставщиками. Это, в свою очередь, означало, уменьшение ежедневной производительности по сравнению с запланированной.

Наш план предусматривал непрерывную работу сканеров в течение рабочего дня. План предполагалось реализовать с помощью посменной работы операторов, меняющих друг друга на рабочих станциях, и делающих перерывы в работе в разное время. Это была новая и незнакомая форма организации работы, которая вызвала некоторое сопротивление среди операторов. На практике осуществить ее в полной мере не удалось, что также обусловило снижение производительности сканеров по сравнению с нашими прогнозами. Реальная производительность составляла 60 % и 80 % от прогнозируемой.

Качество

Во время тестирования все страницы оцифрованных книг подвергались контролю качества. После этого мы не выполняли стандартных постоянных операций по контролю качества оцифровки. После того как появилась возможность экранного просмотра книг, проводились выборочные незапланированные проверки качества материала, который стал доступен в цифровой библиотеке.

Просмотр книг показал, что сжатие копий для представления было выполнено с неадекватными параметрами. Качество визуализации графических образов было ниже, чем ожидалось. После настройки результаты значительно улучшились.

Очевидно, что качество электронных книг зависит от качества оригиналов. Но в автоматизированной системе отбора книг для оцифровки не качество оригиналов не учтено, и мы соответственно подвергаемся риску взять для оцифровки экземпляры худшего качества, в то время как в фондах могут иметься экземпляры более высокого качества.

Сканеры, которые оцифровывают разброшюрованные книги в ходе одной операции, сканируют обе стороны листа. Это означает, что два самостоятельных устройства сканируют две страницы одного листа. Оказалось, что добиться идентичности настройки двух устройств очень трудно, в результате отмечались различия в цвете страниц. Это удалось значительно улучшить после тестовой фазы, но в целом проблема пока не решена. Эксперименты со сканированием данных о книге перед началом обработки каждой из них с целью упрощения цветовой настройки не дали желаемых результатов.

В настоящее время используются стандартные цветовые шаблоны для автоматической настройки (Color Factory) цвета после оцифровки. Во всех книгах, которые были сканированы с помощью автоматического сканера, настройка была произведена по предварительно определенной цветовой схеме.

Оптическое распознавание / цифровой структурный анализ.

С самого начала мы планировали полную автоматизацию распознавания и анализа документа. Такие задачи мы прежде никогда не решали в столь большом объеме, и у нас не было опыта использования столь современного инструментария.

Первая проблема состояла в том, чтобы организовать масштабное производство, в котором используется восемь типов программ на восьми серверах. Это было необходимо для достижения достаточной производительности обработки, но обеспечить устойчивую оперативную работу программного обеспечения труднее, чем кажется.

Следующая проблема возникла, когда оказалось, что невозможно запустить полностью автоматизированную систему. Это вызвало непредвиденную необходимость в ресурсах, а кадровое обеспечение этой задачи вызвало у нас серьезную головную боль. Мы затратили некоторое время на обдумывание этого вопроса, и должны были отложить запланированное обучение использованию системы. Это в свою очередь вызвало проблему компетентности, поскольку перед нами оказалась сложная система с большим количеством функций. Решение частично найдено с помощью тесного контакта с поставщиком. В целом проблема уже преодолена, и обучение проведено.

Не оправдались пока и наши ожидания в точности полностью автоматизированного структурного анализа. Сложный структурный анализ может быть проведен, но настолько неточно, что абсолютно необходим живой контроль качества. Чем более сложный анализ вы собираетесь использовать, тем более необходим над ним контроль человека. Поэтому мы будем использовать его лишь в крайних случаях при выполнении специальных проектов. Простой расчет показывает, что контроль после проведения анализа, который в среднем занимает 15 секунд на страницу, увеличит количество трудозатрат на 18 человеко-дней при нынешнем уровне производства. Такими ресурсами мы не располагаем. Таким образом, мы вынуждены оставаться на минимальном уровне анализа, сохранив лишь требование корректной пагинации и чтобы оглавление всегда, когда оно присутствует, обеспечивалось автоматическими связями.

До сих пор мы касались лишь распознавания и структурного анализа в публикациях латинского алфавита. Здесь мы имеем приемлемую точность в распознании знаков. Для готического шрифта результаты хуже, но и в данном случае мы достигнута такая степень распознавания, при которой открывается интересная возможность свободного поиска. Мы используем различные конфигурации систем для латинских и готических букв. Книги систематизируются во время сканирования переплетов и направляются к системе с соответствующей конфигурацией. Мы рассчитываем, что появятся дополнительные возможности обучения программ и более современные конфигурации систем.

Статистические устройства – инструменты руководства производством.

До сих пор для генерации статистических данных, необходимых для управления производством, мы использовали простые средства ОС UNIX. В настоящее время мы рассматриваем более развитые средства контроля и управления, которые сообщали бы нам в любое время, на какой стадии обработки находится данный объект. Мы также должны иметь возможность генерировать статистику производства на всех его стадиях.

Работа с исключениями

За некоторым исключением в производственной линии все, что может быть автоматизировано, было автоматизировано. Тем не менее, иногда, на той или иной стадии могут возникнуть отклонения, и их приходится обрабатывать вручную. На сегодняшний день это – одна из самых сложных проблем.

Выводы

Внедрение производственной линии оцифровки книг создало немалое число проблем. Мы, однако, научились их решать, и сегодня имеем современную производственную линию для оцифровки книг, которая сейчас находится в регулярной эксплуатации.

Несмотря все трудности, в течение года тестирования получили много продукции.

Проблема, которая встала перед нами теперь, заключается в том, чтобы создать такие же линии для всех типов материалов, подлежащих оцифровке, так, чтобы мы могли построить цифровую мультимедийную национальную библиотеку.

Чтоб идти в ногу с прогрессом, важно также своевременно анализировать, как используются сетевые и цифровые услуги, каковы предпочтения пользователей в других секторах помимо библиотечного, стараться предвидеть другие пути развития. Кому будет принадлежать цифровое будущее? Кто добавит информационную ценность цифровому продукту, и в чем состоит добавление информационной ценности, когда речь идет о знаниях. Что такое конечный продукт? Сеть? Диск? Будут ли оцифрованные фонды национальных библиотек распространены в большом количестве экземпляров, или каждый сможет получить доступ к ним через централизованный депозитарий. Это важно для всех национальных библиотек!

 


Шен Сяочжан,

Чао Ю,

Вей Вей (Китай)



Поделиться:


Последнее изменение этой страницы: 2017-02-06; просмотров: 184; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.191.107.181 (0.021 с.)