Сканирование и распознавание текстов 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Сканирование и распознавание текстов



Сканирование и распознавание текстов – процесс преобразования бумажного документа в машиночитаемый.

Процесс преобразования состоит из двух этапов: создания растрового изображения документа и преобразования изображения букв в редактируемый текст.

Качество распознавания характеризуется точностью воспроизводства текста. Качество зависит от выбора правильного режима сканирования и от возможности программы отождествить изображение знака с одной из букв алфавита выбранного языка. Возможности программы зависят от встроенного алгоритма распознавания образов.

Распознавание образов — область информатики и математики, связанная с разработкой методов выделения важных свойств некоторой совокупности объектов, установления по этим свойствам принадлежности объекта к одному из известных типов (объединению, образу).

При распознавании текста стоит задача выделения характерных свойств знака на фоне шума, возникающего при сканировании, и особенностей начертания использованной гарнитуры шрифта. Для решения этой задачи применяют алгоритмы распознавания образов, в которых сравниваются суммарные отклонения элементов знака от набора эталонов. Знаку присваивается тот эталон, для которого суммарное отклонение минимальное. Более подробно задача распознавания образов будет рассмотрена в Теме 3 нашего курса.

Одной из наиболее популярных программ распознавания текста является ABBYY FineReader. В последней редакции (8.0) имеется возможность обучения программы особенностям начертания шрифта, что избавляет пользователя от исправления одной и той же ошибки распознавания, например, распознание ып как ьш.

Машинный перевод текстов

С практической точки зрения, не имея ввиду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:

× автоматический перевод;

× автоматизированный машинный перевод при участии человека;

× перевод, осуществляемый человеком с использованием компьютера.

Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов, однако работа над такими переводчиками ведется очень интенсивно.

Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.

В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

К МТ-программам относятся продукты машинного перевода фирмы ПРОМТ, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа (упрощенная бесплатная версия такого продукта установлена на сайте www.translate.ru). Коммерческая версия фирмы ПРОМТ обладает большими возможностями и может быть установлена в корпоративной сети.

На отечественном рынке следует также отметить продукт Retrans Vista фирмы «Виста текнолоджиз», предназначенный только для англо-русского и русско-английского перевода текста. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней «длиной» в 2,2 слова.

Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.

Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation’s Workbench фирмы Trados (для краткости часто также называемый Trados). Сейчас рынок ТМ-систем быстро растет, тем не менее, эти продукты остаются все еще слишком дорогими для российского пользователя (цена пакета составляет 5–7 тыс. долларов).

 

Выводы

1. Документ (документированная информация) – информация, зафиксированная на материальном носителе и имеющая реквизиты для идентификации.

2. Для придания документу юридической силы документ подписывает официальное лицо. Электронные документы могут быть заверены электронно-цифровой подписью.

3. Документы могут иметь регламент оформления для стандартизации. В зависимости от содержащейся в документе информации документы разделяют по режиму доступа, по статусу.

4. Юридическая деятельность связана с огромным потоком текстовой информации. В настоящее время широко представлены различные технологии работы с текстовой информацией. Технологии включают в себя технические и программные средства.

5. Технические  средства включают в себя офисную технику, персональные компьютеры, мощные суперкомпьютеры для организации хранилищ данных и средства связи (сети и средства их поддержки).

6. К программным средствам относятся текстовые редакторы (например, Word), электронные таблицы (Excel), а также программные средства сканирования и распознавания текста (ABBY FineReader), проверки правописания (ОРФО) и автоматизации перевода (ПРОМТ, Trados).

4. Информационная сущность правовых задач и особенности их постановки и решения с использованием компьютерных технологий

4.1 Сущность и виды задач информационно-правового характера, реализуемых с использованием компьютерных технологий

Информатизация общества, развитие кибернетики и компьютерных технологий привело к возникновению новой междисциплинарной отрасли – правовой информатики. В рамках правовой информатики осуществляется синтез данных юридических и прочих – технических, естественных, гуманитарных наук. Информатика – это тот канал, по которому в сферу юридической науки проникают точные методы исследования.

В основе большинства частных методов познания лежит системный подход, который является одним из способов обобщения эмпирических фактов, позволяющий сосредоточиться на выявлении интегративных качеств, возникающих в результате соединения элементов в целое. 

Системный подход

Системный подход предполагает следующие направления, по которым должно идти всестороннее изучение системы: 

× системно-элементарное - описание элементов, из которых строится изучаемая система; 

× системно-структурное - определение внутренней организации системы и способа взаимодействия образующих ее компонентов; 

× системно-функциональное - определение функций, которые выполняет вся система и образующие ее компоненты в отдельности; 

× системно-коммуникационное, раскрывающее взаимосвязь данной системы с другими как по горизонтали, так и по вертикали; 

× системно-интеграционное, показывающее механизмы, факторы сохранения, совершенствования и развития системы; 

× системно-историческое, раскрывающее как возникла данная система, какие этапы в своем развитии проходила, каковы ее исторические перспективы.

В правовой системе большинство информационных систем являются системами управления. Следовательно, при их исследовании должны активно применяться методы кибернетики - науки об управлении. Метод единства прямой и обратной информационной связи (кибернетический метод) играет огромную роль в информационно-правовой деятельности.

Прямая информационная связь определяет поведение правового образования (юриста, органа и др.) в зависимости от каких-либо юридических воздействий,

обратная информационная связь определяет выбор юридического воздействия в зависимости от прошлого поведения этого образования. 

 

Метод информационного моделирования

Для изучения разнообразных социально-правовых явлений и процессов давно и успешно используется метод социально-правового моделирования. Метод моделирования социально-правовых процессов - это метод познания, в процессе которого используется вспомогательный объект - модель.

Наиболее распространенные виды моделей: графическая, словесная, математическая. Процесс моделирования можно разделить на четыре этапа:

× определение класса изучаемых объектов и законов, связывающих рассматриваемые объекты;

× изучение результатов с помощью модели, для дальнейшего их сопоставления с результатами наблюдений изучаемых явлений;

× выяснение того, удовлетворяет ли принятая гипотетическая модель критерию практики;

× последующий анализ модели в связи с накопленными данными об изучаемых явлениях и процессах и усовершенствование модели. 

При использовании метода социально-правового моделирования в правовой информатике моделируется с информационных позиций

правовая система общества в целом, механизмы правового регулирования, правотворчества, правопорядка и др.;

протекающие в указанных системах, механизмах процессы сбора, обработки и использования правовой и иной информации. 

 

 

Рисунок 4. Моделирование механизма действия правовой нормы.

На рис. 4 показан процесс моделирования правовой нормы. Задача моделирования состоит в поиске математических зависимостей, связывающих количественные характеристики социальной системы.

Например,

Социальное поведение продажа контрафактных музыкальных записей,

входит в противоречие с

Охраняемой социальной ценностью интеллектуальной собственности.

Правовая норма предписывает санкции (компенсация ущерба автору)

Социальная среда  – производители и потребители контрафактной продукции.

Для моделирования механизма нужно описать количественно все элементы этой системы. Для этих целей выберем другую систему – дорожное движение.

Рассмотрим социальную систему Участники дорожного движения. В нее входят водители, пассажиры и водители транспортных средств. Количественно эту систему можно описать числом автомобилей (V) и численностью населения (P).

Социальное поведение определяется качеством автомобилей (К), использование ремней безопасности и других правил дорожного движения (E).

Охраняемая социальная ценность – жизнь человека. Количественно ее можно описать как  число ДТП со смертельным исходом (D).

 

Эмпирически (Р. Смидт) была получена следующая модель: количество дорожных происшествий со смертельным исходом описывается по формуле

D = 0,0003· f (K, E) · (VP 2)1/3, f (K, E) ≈ 1 в европейских странах.

Сравнивая величину f (K, E) в разных странах, можно получить модель влияния национального законодательства на эту систему. Для оценки силы влияния этих факторов удобно построить график зависимости D от f (K, E).

Компьютерные технологии позволяют обрабатывать накопленную правовую, социальную, экономическую информацию для уточнения параметров модели;

использовать математические и графические модели для предсказания изменения общественных отношений, вызванных изменением правовой нормы.

 

Формализация

Метод формализации заключается в представлении какой-либо содержательной области (рассуждений, доказательств, процедур классификации информации и т.п.) в виде формальной системы.

Формальная система - это знаковая модель, задающая множество объектов путем описания исходных объектов и правил построения новых объектов.

Классическим примером формальной системы является математика. Исходные объекты описаны аксиомами и определениями. Новые объекты вводятся с помощью теорем, доказательство которых строится по определенным правилам.

В идеале правовая система тоже должна быть формальной системой, в которой новые предписания строятся на основе существующих по законам логики. Формализация позволяет систематизировать, уточнить и методологически прояснить правовую теорию, выявить характер взаимосвязей между различными ее правовыми предписаниями, выявить и сформулировать существующие нерешенные проблемы. Формализация предполагает усиление роли формальной логики как основания правовой науки.

Формализация является первым шагом при составлении алгоритмов решения любой – в том числе и правовой – задачи.

Алгоритм - это определенная последовательность действий, выполнение которой приводит к достижению поставленной цели. В качестве основных требований к алгоритмам следует отметить: дискретность, конечность, определенность. Дискретность подразумевает, что процесс можно разбить на отдельные элементы, причем число этих элементов конечно (конечность). Определенность указывает на то, что каждый элемент может быть точно сформулирован.

В последнее время при изучении информационных процессов в области права широко применяются методы точных наук. Математические методы, специфически преломляясь в теории права, обогащают и усиливают метод правовой науки, но естественно не заменяют его

Задачи информационно-правового характера можно разделить на две группы: задачи, связанные с правотворческой деятельностью, и задачи правоприменительной и правоохранительной деятельности.

В правотворческой деятельности происходит анализ правовых норм, состояния гражданского общества и создание, изменение и толкование законодательной системы. Для эффективного решения таких задач применяются методы математики и смежных с ней наук: статистики, логики, кибернетики. Остановимся на этих методах несколько подробнее.

1) В правовой системе большинство информационных систем являются системами управления. Следовательно, при их исследовании должны активно применяться методы кибернетики - науки об управлении. 

Метод единства прямой и обратной информационной связи (кибернетический метод) играет огромную роль в информационно-правовой деятельности.

Прямая информационная связь определяет поведение правового образования (юриста, органа и др.) в зависимости от каких-либо юридических воздействий,

обратная информационная связь определяет выбор юридического воздействия в зависимости от прошлого поведения этого образования. 

Наряду с математическими методами существуют методы логического моделирования.

2) Методы формальной логики

Одним из главных объектов исследования общей теории права является правовая норма. В соответствии с положениями общей теории права правовая норма состоит из трех основных элементов: правовой      ситуации (гипотезы), правового предписания (диспозиции) и санкции.

Законы логики позволяют описывать связи разных понятий между собой. Этими связями являются логические операции

включают в себя ∩,

исключают,

являются эквивалентными ≡,

следует à

И Λ

ИЛИ V

КРОМЕ

 

Например, Правовая ситуация Пассажир

                   Правовое предписание Оплата проезда

                   Санкция Штраф

((Пассажир à Оплата проезда) Λ (Пассажир Λ Оплата проезда)) à Штраф,

т.е. Из правовой ситуации Пассажир при неоплате проезда следует штраф. Для выяснения, что такое Оплата проезда следует ввести соотношение тождества:

Оплата проезда ≡ (разовый билет V проездной билет V (студенческий проездной билет Λ студенческий билет студента дневной формы обучения))

Студенческий билет ≡ …

Дневная форма обучения ≡

Тем самым можно строить цепочки связей.

Противоречием называется логическое выражение р ≡ р, или р ∩ р, или р Λ р «суждение тождественно своему отрицанию» или «понятие включает в себя противоположное понятие».

Наличие противоречий в формальной системе очень опасно. В математической логике доказано, что, основываясь на ложном суждении, можно вывести логическим путем любое суждение.

Большинство правовых норм строится на основе соблюдения требований и законов логики. Тем ни менее в законодательной практике можно найти правовые нормы, которые страдают определенными логическими дефектами. Такие дефекты обычно носят латентный (скрытый) характер. Поиск таких ошибок достаточно сложен, и применение информационных технологий в этой сфере весьма перспективно.

Методами формальной логики можно

выявить противоречия в правовой системе;

найти «дыры» (наличие понятий, которым не дано определение);

проверить соответствие законопроекта уже имеющимся НПА;

найти документы, которые необходимо изменить при отмене устаревшего НПА.

Лингвистические методы

Лингвистические исследования в правовой сфере не отличаются от задач, стоящих перед математической лингвистикой. К ним относятся

звуковое распознавание речи для автоматизации ввода текста в компьютер;

семантическое распознавание речи для автоматизации поиска и обработки текстовой информации;

создание словарей, справочников, тезаурусов (словарей синонимов и антонимов), рубрикаторов правовой лексики для упорядочивания лексических средств, используемых в правотворческом процессе;

создание методик распознавания смысла текста (сообщения).

Для решения этих задач необходимо создание словарей правовой лексики, справочников, тезаурусов, изучение стилистики правовых документов: частоты сочетаний слов и пр.

 

Статистические методы

Известно, что в явлениях природы существует всеобщая связь. Такая связь наблюдается и в общественных явлениях, включая государство и право. Одна из важных задач правовых конкретно-социологических исследований состоит в изучении причинных и обусловливающих связей. Особая роль здесь принадлежит многофакторному анализу – комплексному исследованию воздействия различных экономических, политических, социальных и иных факторов на социальную обусловленность правовых норм, действенность правовой пропаганды, правового воспитания и т. д.

Математика различает функциональные и статистические связи между величинами. Функциональными называют однозначные связи между двумя и более величинами. Функциональные связи более распространены в области естественных и технических наук и только отчасти — в общественных науках.

В отличие от функциональной статистическая связь между величинами представляет собой связь неоднозначную, вероятностную, «размытую» действием различных побочных для данного процесса факторов. При статистической связи вполне определенному значению одной переменной соответствует одновременно несколько значений другой переменной.

Результативная переменная реагирует на изменения факторов статистическим распределением своих показателей. Такие связи более распространены в общественных науках. Так, для взятого наугад индивида набор параметров, характеризующих его правовые ориентации, знание правовых норм и т. д., не будет однозначно определенным. Данный набор значительно варьирует в пределах группы индивидов с заранее взятыми социально-демографическими характеристиками. Аналогичным образом можно констатировать статистическую связь между возрастом индивидов и степенью приобщенности их к деятельности средств массовой информации и т. д.

Статистическая связь существует между тяжестью совершенного преступления и назначенным наказанием. Факторами, которые делают подобного рода связь статистической, являются: личность осужденного, реальная тяжесть содеянного, условия вынесения приговора по данному делу, состав суда, учет смягчающих и отягчающих обстоятельств и т. д.

В статистике рассматриваются  качественные и количественные признаки.

Качественный признак характеризует наличие или отсутствие какого-либо свойства у единиц наблюдения. Например, качественными признаками являются пол, место жительства, семейное положение, социальный статус гражданина. К их числу относится юридическая квалификация действий субъекта по какой-либо статье нормативного акта. В этих случаях нет возможности установить количественный характер исследуемых данных применительно к каждому изучаемому объекту. Он устанавливается только при обсчете единиц всей совокупности.

Примерами количественных признаков могут служить: размер наказания в годах лишения свободы, численность аппарата управления, численность населения, размер территории.

Математические методы и ЭВМ нужны главным образом для того, чтобы изучать социальные явления во взаимосвязи. Речь идет, например, о разработке таких алгоритмов и программ, которые дали бы возможность изучать количественную меру влияния различных экономических, демографических или иных факторов на государственно-правовые явления. Следовательно, основная задача при разработке программы машинной обработки юридических данных — это автоматизация научного статистического анализа (синтеза) в области права

Статистическая информация – официально документированные сведения, дающие количественную оценку массовым явлениям и событиям. В правовой сфере к массовым явлениям относятся преступность, административные правонарушения, массив уголовных и гражданских дел, налоговые преступления и т.д.

Для эффективного использования данных правовой статистики в правотворческой деятельности принципиальное значение имеет компьютеризация данной сферы. Применение в сфере правовой статистики средств вычислительной техники позволяет:

× Устранить противоречие между огромным количеством «сырых» статистических материалов, которые могут быть использованы в правотворческом процессе, и реальным объемом информации, привлекаемой в данную сферу для повышения эффективности правотворческих решений.

× Существенно расширить применение для обработки статистических данных современных математических методов

× Выполнить в кратчайшие сроки громоздкие подсчеты, касающиеся отдельных статистических показателей (например, подсчет числа отдельных видов преступлений — краж, убийств и т. д.).

× Эффективно использовать метод моделирования, основанный на действии в статистических совокупностях закона больших чисел.

× Проверять на большом статистическом материале некоторые параметры законопроекта (вновь вводимых понятий) в целях уточнения их количественных характеристик (например, понятий «тяжкое преступление», «рецидивист», число пенсионеров определенной категории).

× Делать выборку из больших массивов статистической
информации.

× Накапливать статистическую информацию за многие годы и выдавать ее для использования в деятельности законодательных органов.

Математические средства и ЭВМ применяются для обработки массовой криминологической информации, получения сводных данных о состоянии преступности, личности преступника, причинах преступлений, эффективности мер уголовного наказания и др.

 



Поделиться:


Последнее изменение этой страницы: 2020-10-24; просмотров: 185; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.217.108.11 (0.057 с.)