Характеристики дискретных источников информации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Характеристики дискретных источников информации



 

Определение. Эргодичным источником сообщений называется источник, создающий сообщение, которое математически можно представить в виде эргодичной случайной последовательности, удовлетворяющей условиям стационарности и эргодичности.

Стационарность означает, что вероятности отдельных знаков и их соединений не зависят от расположения последних по длине сообщения. Эргодичность означает, что статистические закономерности, полученные при исследовании одного довольно длинного сообщения с вероятностью, близкой к единице, справедливы для всех сообщений, создаваемых источником.

Стационарный источник сообщений, выбирающий каждый знак формированной последовательности независимо от других знаков, всегда является эргодичным. Его также называют источником без памяти.

Однако чаще встречаются источники, в которых вероятность выбора одного знака сообщения зависит от того, какие знаки были выбраны источником до него (источники с памятью). Поскольку такая связь, как правило, распространяется на ограниченное число предыдущих знаков, то для описания функционирования источника используют цепи Маркова (более подробно см. [10]).

В результате взаимной корреляции букв в употребляемых в текстах буквенных сочетаний происходит дополнительное уменьшение определяемой выражением (1.3) реальной энтропии Н по сравнению максимальной энтропии Н max. Подстановка значения Н, вычисленного с учетом взаимной корреляции букв, в выражение (2.4) дает дополнительное увеличение численного значения избыточной информации In. Указанные свойства письменных текстов наглядно иллюстрируются таблицей искусственных текстов (см. пример 1), полученных путем случайных выборок из реальных текстов отдельных букв или их сочетаний. Вместе с тем, указанная таблица показывает, что вместе с увеличением избыточности увеличивается и упорядоченность (детерминация) текста, достигая в пределе «жесткой детерминации», при которой текст вырождается в повторение одинаковых букв.

Такая взаимосвязь между избыточностью и упорядоченностью текста обусловлена тем, что избыточность текста обусловлена действием грамматических и фонетических правил. Именно этими правилами обусловлена присущая тексту структурность, следовательно, вычисляемое согласно (2.4) количество избыточной информации In является одновременно и количеством информации, сохраняемой в упорядоченой структуре текста или любых других структурированных систем:

D IS = Hmax – H (2.7)

Для уяснения смысла равенства In = D IS, вытекающего из сопоставления выражений (2.4) и (2.7), рассмотрим следующий пример.

Некто получил сообщение, что из яйца вылупился птенец. Для подтверждения того, что это именно птенец, а не малек, сообщается, что у него не плавники, а крылья, не жабры, а легкие и т.п. Разумеется, все это не будет избыточной информацией In для всякого, кто знает, чем отличается птенец от малька.

Но та же самая информация о крыльях, легких, клюве и т.п., заложенная в генетический код, регулирует процесс онтогенеза, в результате которого в яйце формируется организм птенца, а не малька. Таким образом, информация In, избыточная для осведомленного получателя, оказывается необходимой структурной информацией D IS, когда речь идет об информационном управлении процессами формирования тех или иных упорядоченных структур. Вследствие этого и выполняется условие:

In = D IS = Hmax – H.

При подстановке в формулу (2.1) реальных значений вероятностей букв русского текста величина реальной информационной энтропии Нr уменьшается по сравнению с максимальной энтропией, определяемой выражением (1.5).

Пример 1. Учет реальных значений вероятностей букв при передаче письменных текстов позволяет уменьшить избыточность сообщений, передаваемых по каналам связи. Так, например, для избавления от избыточности используется способ кодирования букв алфавита, при котором часто повторяющимся в тексте буквам (т.е. буквам, имеющим наибольшую вероятность, такую, например, как Ра = 0,062; Рв = 0,038; Ре = 0,072; Рл = 0,035; Ро = 0,09и др.) соответствуют или меньшая трата энергии за счет уменьшения величины (амплитуды) сигналов или, увеличенная скорость передачи за счет сокращения числа знаков двоичного кода, соответствующего обозначению указанных букв.

Помимо учета реальных вероятностей букв, для уменьшения избыточности сообщений следует учитывать также вероятности их сочетаний (например, высокую вероятность появления буквы Я после переданного сочетания ТЬС, малую вероятность появления согласной буквы после передачи следующих друг за другом трех согласных букв и т.п.).

 

Способ формирования «фраз» №№ пп "Фразы", полученные на основе статистических свойств русского языка Стат. характеристики
Нr (бит) DIs (бит)
При равной вероятности всех букв     СУХРРОБЬТ ЯИХВЩИЮАЙЖТЛ-ФВНЗАГФОЕВШТТЦРПХГРКУ ЧЖОРЯПЧЬКЙХРЫС 5,0 0,0
При учете реальных вероятностей:
отдельных букв 3-х - буквенных сочетаний   ЕЫНТ ЦИЯЬА СЕРВ ОДНГ ЬУЕМЛОЙК ЭБЯ ЕНВТША ПОКАК ПОТ ДУРНОСКАКА НАКОНЕПНО HE СТВО - 4,3 0,7
    ЛОВИЛ СЕ ТВОЙ ОБНИЛ Ь 3,5 1,5
4-хбуквенных сочетаний   ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО 2,9 2,1
8-ми буквенных сочетаний         1,8 3,2
Выборка из реального текста   ПРИСВОИВ ДВОИЧНЫЕ НОМЕРА БУКВАМ АЛФАВИТА, МОЖНО ПВРЕВРАТИТЬ ЛЮБОЙ ТЕКСТ В ЧЕРЕДОВАНИЕ ЕДИНИЦ И НУЛЕЙ 1,0 4,0
При РА = 1; РБ = Рв =...= Ря = 0     АААА 0,0 5,0

Пример 2. Определить, является ли эргодичным стационарный дискретный источник сообщений, алфавит которого состоит из четырех знаков . Причем безусловные вероятности выбора знаков одинаковы, а условные вероятности заданы в таблице.

1/3 1/3 1/3  
1/3 1/3 1/3  
1/3 1/3 1/3  
       

Решение

В условии задачи сказано, что безусловные вероятности выбора знаков одинаковы, т.е. .

Анализируя данные таблицы, замечаем, что источник имеет два режима работы. С вероятностью, равной 3/4, первым будет выбран один из знаков или , и источник начнет формировать последовательность с равновероятным появлением знаков. Если же первым будет выбран знак (вероятность такого случая равна 1/4), то генерируется последовательность, состоящая только из знаков .

Усреднение по ансамблю допускает наличие множества однотипных источников, приблизительно три четверти из которых будут работать в первом режиме, а остальные – во втором. При этом энтропия источника равна:

бит.

В первом режиме неопределенность, приходящаяся на один знак (энтропия последовательности), равна 1,587 бит, а во втором – нулю. Поскольку статистические закономерности, полученные при исследовании двух режимов работы источника, не могут быть справедливыми для всех создаваемых им сообщений, он не является эргодичным.

Однако, отметим, что всякий стационарный источник сообщений может быть представлен совокупностью нескольких эргодичных источников, отличающихся режимами работы.

 

Свойства информации

1. Информация относительно опыта , содержащаяся в событии , всегда равна информации относительно , содержащейся в

.

2. Равенство подчеркивается следующей простой формулой, которая во многих случаях оказывается весьма удобной (отсюда получили формулу (3.12)).

. (2.8)

3. Пусть теперь , и – три произвольных опыта. В таком случае всегда

.

Иначе говоря, сложный опыт всегда содержит не меньшую информацию относительно любого опыта , чем простой опыт . При этом равенство будет иметь место лишь в том случае, когда условная вероятность любого исхода опыта при условии, что опыта и имеют некоторые определенные исходы, не изменяется при изменении исхода (т. е. зависит лишь от исхода ).

4. Если равенство имеет место, то в этом случае всегда

.

Таким образом, если сложный опыт не содержит никакой дополнительной информации об по сравнению, с опытом , то информация об , содержащаяся в событии , не может быть больше информации об , содержащейся в событии . При этом знак «меньше или равно» в последнем неравенстве можно заменить знаком равенства в том и только в том случае, когда , т. е. когда сложный опыт не содержит дополнительной информации об также и по сравнению с опытом .

5. Неравенство играет в теории информации значительную роль (см. [36]). Оно показывает, что при последовательной передаче информации об опыте , осуществляемой посредством цепочки опытов , , ,..., где только опыт непосредственно связан с , а всю содержащуюся в нем информацию об получает из связи с опытом (так что уже не содержит об дополнительной информации по сравнению с ), всю информацию об получает из связи с опытом и т. д., информация об может лишь уменьшаться:

Наглядной иллюстрацией этого положения может служить известная детская игра в «испорченный телефон», при которой первый играющий тихо произносит на ухо своему соседу некоторое слово (опыт ); сосед тихо передает расслышанное им слово (которое может и отличаться от первоначально произнесенного) следующему играющему (опыт ); этот играющий также передает услышанное слово соседу (опыт ) и т. д.; в конце игры все говорят услышанные ими слова, и проигравшим считается тот из участников, кто первым неправильно услышал передаваемое слово. В этой игре может случиться так, что второй играющий передает первоначально сказанное слово неправильно, а третьему в результате повторной ошибки покажется, что он услышал то же слово, которое передавалось вначале. Однако при большом числе повторений той же процедуры второй играющий, разумеется, в среднем будет чаще передавать дальше слово, которое на самом деле произнес первый игрок, чем третий играющий. Но наше понятие информации I как раз и является статистическим понятием, характеризующим соотношения, имеющие место «в среднем»; поэтому для него всегда будет выполняться выписанная выше цепь неравенств.

Условная информация

 

Определение. Величину

(2.9)

называют средней условной информацией двух опытов и друг относительно друга при условии выполнения опыта или, короче, условной информацией опытов и при условии .



Поделиться:


Последнее изменение этой страницы: 2016-09-05; просмотров: 432; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.138.141.202 (0.015 с.)