Синтаксические меры информации. 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Синтаксические меры информации.



Рассмотрим синтаксические меры информации. Они разработаны в наибольшей степени и основаны на представлении информации в виде хранящейся, обрабатываемой или передаваемой последовательность знаков, сигналов.

При передаче и хранении информации с помощью различных технических устройств информацию следует рассматривать как последовательность знаков (цифр, букв, кодов цветов точек изображения), не рассматривая ее содержание.

Основой представления информации в той или иной знаковой системе (языке) является ее алфавит – фиксированный конечный набор символов любой природы. Информационная емкость знаков определяется их количеством в алфавите. Чем из большего количества символов состоит алфавит, тем большее количество информации несет один знак. Полное число символов алфавита принято называть мощностью алфавита. Например, алфавит русского языка содержит 33 символа-буквы, алфавит десятичной системы счисления основан на 10 арабских цифрах, язык математических и других научных текстов может включать наряду с буквами данного языка буквы других языков, а также специальные символы, используемые для обозначения математических операций и т.д.

При обработке информации часто возникает необходимость представлять средствами одного алфавита символы других алфавитов. Такое представление носит название «кодирование». Простейшим абстрактным алфавитом, достаточным для кодирования любого другого алфавита, является двоичный алфавит, образованный двумя символами-цифрами 0 и 1. В вычислительной технике минимальная единица измерения информации получила название бит (англ. binary digit - двоичная цифра).

В виду своей простоты двоичный алфавит получил широкое распространение в разного рода информационных устройствах и в первую очередь в электронных вычислительных машинах. Для кодирования же алфавитов, которыми привык пользоваться человек, употребляются последовательности двоичных цифр. Если каждый символ некоторого алфавита кодируется комбинацией n двоичных цифр, то с его помощью можно закодировать различных символов (N – мощность производного алфавита). Например, в системе кодирования ASCII для представления символов других алфавитов используется n =8 бит. Это значит, с помощью таких двоичных комбинаций можно закодировать 256 символов, чего оказывается вполне достаточно для кодирования большинства реальных алфавитов. Последовательность из 8 бит получила специальное название – байт. В другой распространенной системе кодирования Unicod для кодирования символов используется комбинация из двух байтов, что еще больше расширяет возможности кодирования символов в двоичной системе счисления.

Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении.

Подсчет объема данных VД, одной из количественных характеристик информации, основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания.

Длина сообщения зависит от числа знаков, употребляемых для записи сообщения. Например, слово “мир” в русском алфавите записывается тремя знаками, в английском - пятью (peace), а в ASCCI - двадцатью четырьмя битами (111011011110100111110010).

Поскольку компьютер предназначен для обработки больших объемов информации, то используют производные единицы - килобайт (Кб), мегабайт (Мб), гигабайт (Гб).

Обычно приставка “кило” означает тысячу, а приставка “мега” - миллион, но в вычислительной технике все «привязывается» к принятой двоичной системе кодирования.

В силу этого один килобайт равен не тысяче байтов, а 210 = 1024 байтов.

Аналогично, 1 Мб = 210 Кб = 1024 Кб = 220 байт = 1 048 576 байт.

1 Гб = 210 Мб = 220 Кб = 230 байт = 1 073 741 824 байт.

 


Рассмотрим простую игровую ситуацию – подбрасывание монеты. До получения сообщения о результате подбрасывания монеты человек находится в состоянии неопределенности относительно исхода очередного броска. Сообщение партнера дает информацию, снимающее эту неопределенность. Заметим, что число возможных исходов в описанной ситуации равно 2, они равноправны (равновероятны) и каждый раз передаваемая информация полностью снимала возникавшую неопределенность. Американский инженер Ральф Хартли принял «количество информации», передаваемое по каналу связи относительно двух равноправных исходов и снимающее неопределенность путем оказания на один из них, за единицу информации, получившую название «бит». Для оценки количества информации он предложил формулу:


где N – количество равновероятных событий

I – количество бит в сообщении (количество информации), такое,

что любое из N событий произошло, тогда

 
 

Так как каждое из событий имеет равновероятный исход, то вероятность появления сигнала и тогда:

Автор статистической теории информации американский инженер и математик Клод Шеннон предложил формулу для вычисления количества информации для событий с различными вероятностями.

Чем меньше вероятность появления события (сигнала), тем больше информации оно несет для потребителя. Этот факт можно выразить следующей формулой (формула Шеннона):

 
 

где I – количество полученной информации при передаче сообщения;

pi – вероятность появления события (сигнала) с номером i;

N – количество возможных сигналов.

Формулу Р.Хартли можно рассматривать как частный случай формулы К.Шеннона. При равновероятных событиях получаемое количество информации максимально.

Рассмотрим несколько случаев.

Пусть в системе возможно только одно событие. Свяжем с реализацией события сигнал. Тогда N = 1, и количество полученной информации I = 0. Тот факт, что событие наступит безусловно, обязательно, не несет никакой информации.

 
 

Если для кодирования события используется двоичная система счисления с алфавитом мощности N =2, содержащим 0 и 1, а вероятности появления 0 или 1 равны , то

Количество информации I = 1, связанное с появлением 0 или 1 и принято в качестве единицы измерения информации «бит».

Допустим, что в некоторой системе кодирования используется алфавит, состоящий из 16 символов (для кодирования одного символа отводится 4 бита). Какой объем данных займет информационное сообщение, состоящее из 4096 символов?

Мощность алфавита, используемого для записи этого сообщения составит 16 (). Количество информации, приходящейся на один символ по формуле Хартли-Шеннона:

 
 


Объем данных VД составит бит или Мб.

Объектами двоичного кодирования могут служить не только символы текстового сообщения, но и элементы графического изображения – пиксели. Цветные изображения могут иметь различные режимы: 16 цветов (2 4), 256 цветов (2 4), 1024 цвета (2 10), 65536 цветов (high color) (2 16), 16777216 цветов (true color) (2 24). Количество бит на точку (пиксель), например, режима «high color», равно 16, что обеспечивает весьма широкую палитру графического изображения.

Пусть количество цветов, воспроизводимых на экране сотового телефона, равно 1024, а разрешение экрана 128×64.

Рассчитаем количество информации, приходящейся на одну точку (пиксель) экрана сотового телефона по формуле Хартли-Шеннона:

бит

 
 

По условию задачи экран имеет размер 128×64, т.е. всего на экране 8192 (точек). Рассчитаем необходимый объем видеопамяти (объем данных):

В работах Р.Хартли и К.Шеннона информация возникает перед нами лишь в своей внешней оболочке, которая представлена отношениями сигналов, знаков, сообщений друг к другу - синтаксическими отношениями. Количественная мера Хартли-Шеннона не претендует на оценку содержательной (семантической) или ценностной, полезной (прагматической) сторон передаваемого сообщения

Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.



Поделиться:


Последнее изменение этой страницы: 2017-02-08; просмотров: 217; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.146.221.204 (0.015 с.)