Приближение равной вероятности символов в тексте 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Приближение равной вероятности символов в тексте



 

Если допустить, что все символы алфавита в любом тексте появляются с одинаковой частотой, то информационный вес всех символов будет одинаковым. Пусть N — мощность алфавита. Тогда доля любого символа в тексте составляет 1/ N -ю часть текста. По определению вероятности эта величина равна вероятности появления символа в каждой позиции текста:

Согласно формуле Шеннона, количество информации, которое несет символ, вычисляется следующим образом:

  (6)

 

Следовательно, информационный вес символа (i) и мощность алфавита (N) связаны между собой по формуле Хартли:

Зная информационный вес одного символа (i) и размер текста, выраженный количеством символов (K), можно вычислить информационный объем текста по формуле:

  (7)

 

Эта формула есть частный вариант формулы (5), в случае, когда все символы имеют одинаковый информационный вес.

Из формулы (6) следует, что при N = 2 (двоичный алфавит) информационный вес одного символа равен 1 биту.

С позиции алфавитного подхода к измерению информации 1 битэто информационный вес символа из двоичного алфавита.

Более крупной единицей измерения информации является байт.

1 байтэто информационный вес символа из алфавита мощностью 256.

Поскольку 256 = 28, то из формулы Хартли следует связь между битом и байтом:

2i = 256 = 28

Отсюда: i = 8 бит = 1 байт.

Для представления текстов, хранимых и обрабатываемых в компьютере, чаще всего используется алфавит мощностью 256 символов. Следовательно, 1 символ такого текста “весит” 1 байт.

 

Пример 2.1. Для записи текста используются только строчные буквы русского алфавита и “пробел” для разделения слов. Какой информационный объем имеет текст, состоящий из 2000 символов (одна печатная страница)?

В русском алфавите 33 буквы. Сократив его на две буквы (например, “ё” и “й”) и введя символ пробела, получаем очень удобное число символов — 32. Используя приближение равной вероятности символов, запишем формулу Хартли: 2i = 32 = 25

Отсюда: i =5 бит — информационный вес каждого символа русского алфавита. Тогда информационный объем всего текста равен: L = 2000*5 = 10 000 бит

 

Пример 2.2. Вычислить информационный объем текста размером в 2000 символов, в записи которого использован алфавит компьютерного представления текстов мощностью 256.

В данном алфавите информационный вес каждого символа равен:

i=log2256=8 бит = 1 байт

Следовательно, информационный объем текста равен

L=2000 * 1 байт = 2000 байт

Если пересчитать информационный объем текста килобайты, то получим:

L=2000 байт = 2000/1024 1,9531 Кб

Пример 2.3. Объем сообщения, содержащего 1024 символов, составил 1/512 часть мегабайта. Каков размер алфавита, с помощью которого записано сообщение?

 

Переведем информационный объем сообщения из мегабайтов в биты. Для этого данную величину умножим дважды на 1024 (получим байты) и один раз — на 8:

L = 1/512 * 1024 * 1024 * 8 = 16384 бита

Поскольку такой объем информации несут 1024 символа (К), то на один символ приходится:

i = L/ K= 16384/1024 = 16 бит

 

Отсюда следует, что размер (мощность) использованного алфавита равен N = 216 = 65536 символов.

 



Поделиться:


Последнее изменение этой страницы: 2021-01-08; просмотров: 108; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 18.220.64.128 (0.006 с.)