Тема 2. Измерение информации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Тема 2. Измерение информации



Учебные вопросы:

Меры измерения информации на различных уровнях: синтаксическом, семантическом и прагматическом. Синтаксический уровень: объемный и статистический подход. Понятие энтропии. Формула Шеннона. Меры информации семантического уровня. Понятие тезауруса получателя информации. Коэффициент содержательности. Меры информации прагматического уровня. Ценность информации. Дезинформация.

 

Рекомендуемая литература:

1. Информатика: базовый курс: Учебник для студентов вузов, бакалавров, магистров, обучающихся по направлениям 552800, 65460 «Информатика и вычислительная техника»/ О.А. Акулов, Н.В. Медведев, –М.:Омега-Л,2004.–М.: Омега-Л, 2004. –552с.

2.   Автоматизированные информационные технологии в экономике: Учеб. / М. И. Семенов, И. Т. Трубилин, В. И. Лойко, Т. П. Ба­ра­новская; Под общ. ред. И. Т. Трубилина.– М.: Финансы и статистика, 2001.

3. Информатика и информационные технологии: Учебник для 10-11 классов / Угринович Н.Д. - М.: БИНОМ. Лаборатория знаний, 2006

Меры информации синтаксического уровня

Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) – объемный подход и количество информации – статистический поход.

Объемный подход

Проблемы синтаксического уровня связаны со способом представления информации (в виде знаков и символов), вне зависимости от ее смысловых и потребительских качеств. На данном уровне рассматриваются формы представления информации для ее передачи и хранения. Информацию, рассмотренную только относительно синтаксического аспекта, называют данными.

Данными называют факты, сведения, представленные в формализованном виде (закодированные), занесенные на носители информации и допускающие обработку с помощью средств вычислительной техники.

При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов некоторого алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита.

В современной вычислительной технике для любого вида информации, представленном в электронном виде, приняты универсальные единицы измерения  бит и байт.

Бит - единица информации в компьютере, представляющая собой, двоичный разряд, который может принимать значение 0 или 1.

Байт - восемь последовательных битов. Более крупными единицами информации являются:

1Килобайт (Кбайт) = 210 байт =1024 байта;

1 Мегабайт (Мбайт) =220 байт =1024 Кбайта = 1 048 576 байт;

1 Гигабайт (Гбайт) =230 байта =1024 Мбайта = 1 073 741 824 байт

1 Терабайт (Тбайт) =240 байта =1024 Гбайта = 1 099 511 627 776 байт

1 Петабайт (Пбайт) =250 байта =1024 Тбайта = 1 125 899 906 842 624 байт

 В компьютерных системах для кодирования информации используется двоичный код, который состоит из 2-х символов 0 и 1. Мощность алфавита – это количество различных символов, которые можно получить с помощью кодовой цепочки, состоящей из I битов: N =2 I

Информационная емкость символа, т.е. количество информации, которое несет один знак, зависит от количества символов в алфавите:

I = ­ log 2 N

Количество информации, которое содержит сообщение V, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак I, умноженному на количество знаков n: V = I × n

Пример 1. В текстовом файле хранится текст объемом в 400 страниц. Каждая страница содержит 3200 символов. Каков будет размер файла, если используется кодировка КОИ-8 (8 бит на 1 символ).

Решение.

Страница содержит 3200 байт информации, т.к. каждый символ представлен 1 байтом (8 бит), то 400 страниц содержит 400×3200=1280000 байт, или  1280000 байт=1280000/1024 =1250 Кбайт.

Статистический подход

Количественно выраженная неопределенность состояния системы получила название энтропия. Чем больше информации получает наблюдатель, тем больше снимается неопределенность, и энтропия системы уменьшается. Если энтропия, равна нулю, то о системе имеется полная информация, и наблюдателю она представляется целиком упорядоченной.

До получения информации наблюдатель имеет некоторые предварительные сведения о системе Х. Оставшаяся неосведомленность является мерой неопределенности состояния системы или априорная энтропия системы H (X). После получения некоторого сообщения наблюдатель приобрел дополнительную информацию I (X), уменьшившую его начальную неосведомленность так, что апостериорная энтропия системы стала H ' (X).

Тогда количество информации I:

I (X)= H (X)- H '(X).                 (1)

Количество информации измеряется уменьшением (изменением) неопределенности состояния системы.

Американский инженер Р.Хартли (1928) процесс получения информации рассматривал как выбор одного сообщения из конечного заранее заданного множества, состоящего из n равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определил как двоичный логарифм n.

I = ­ log2 n.                              (2)

За основание логарифма принято брать 2, так как в этом случае за единицу измерения принимается неопределенность, содержащаяся в опыте, имеющем лишь два равновероятных исхода, которые можно обозначить ИСТИНА и ЛОЖЬ и использовать для анализа таких событий аппарат математической логики. Количество информации численно равно числу вопросов с равновероятными бинарными вариантами ответов, которые необходимо задать, чтобы полностью снять неопределенность задачи.

Правильная стратегия угадывания состоит в том, что вопросы нужно за­давать так, чтобы количество возможных вариантов каждый раз уменьшалось вдвое. Тогда количество возможных событий в каждом из полученных подмножеств будет одинаково и их отгадывание равновероятно. В этом случае на каждом шаге от­вет будет нести максимальное количество ин­формации (1 бит).

Пример 2. Некто задумал целое число в пределах от 1 до 4. Опыт состоит в угадывании этого числа. На вопросы Некто может отвечать лишь «Да» и «Нет». Какое количество информации должны получить, чтобы узнать задуманное число? Как построить процесс угадывания?

Решение.

Количество исходов угадывания n =4, причем, все они равновероятны, можно применить формулу 2: I = log2 4=2 бита.

x >2?   Да. x >3?       Да. x =4        Нет. x =3

      Нет. x >1?     Да. x = 2     Нет. x = 1.

Информация по формуле (1) равна убыли энтропии. В частном случае, если изначально равновероятных исходов было n 1, а в результате передачи информации I неопределенность уменьшилась, и число исходов стало n 2 (очевидно, n 1n 2), то можно получить:

I= log2 n 1–log2 n 2=log2 n 1/ n 2. (3)

Пример 3. В университет можно добраться на автобусе, троллейбусе, трамвае и маршрутном такси равновероятными способами. Какое количество информации получено, если по радио сообщили, что в городе забастовка водителей трамваев?

Решение.

n 1=4; n 2 =3; то по формуле (3), получим:

I= log24 – log23 = log24/3= log21,33» 0,42 бита.

В отличие от объемного подхода, в статистическом подходе биты могут принимать дробные значения.

Информация – это содержание сообщения, понижающего неопределенность некоторого опыта с неоднозначным исходом; убыль связанной с ним энтропии является количественной мерой информации. Максимальное количество информации, которое можно извлечь из опыта численно равно энтропии.

Пусть p – вероятность любого из отдельных равновероятных исходов опыта , тогда энтропия, связанная с каждым исходом составит  Американский ученый К. ШенонШеннон обобщил понятие меры неопределенности выбора энтропии H, на случай когда энтропия зависит не только от числа состояний, но и от вероятностей этих состояний.

Если система X обладает дискретными состояниями, их количество равно n, а вероятность нахождения в каждом из состояний p(A1), p(A2),…, p(A n), то энтропия система H (X) равна:

                       (4)

Энтропия является мерой неопределенности опыта, в котором проявляются случайные события, и равна средней неопределенности всех возможных его исходов.

Пример 4. Имеются ящик, в котором 12 шаров: 3 белых, 3 черных и 6 красных. Опыт состоит в вытаскивании одного шара из ящика. Найти энтропию извлечения?

Решение.

n= 3, A 1 – вынули белый шар;

A 2 – вынули черный шар; A 3 – вынули красный шар;

A 1  и A 2 – события равновероятны p (А 1)= p (А 2 )=3/12=1/4=0,25; 

p (А 3 )=6/12=1/2.

I = – 0,25 log2 0,25 – 0,25 log2 0,25 – 0,5 log2 0,5 =

= 0,25 log2 4 + 0,25 log2 4 + 0,5 log2 2 = 0,25 ×2 + 0,25 ×2 + 0,5 ×1 = 1,5 бит.

Свойства энтропии

1. H= 0 в двух случаях:

1) Какая-либо из P (Aj) = 1, следовательно, все остальные P (Ai) = 0 (i ¹ j), т.е. реализуется ситуация, когда один из исходов является достоверным и общий итог опыта перестает быть случайным;

2) Все P (Ai) = 0, т.е. никакие из рассматриваемых исходов опыта невозможны.

2. Для двух независимых опытов a и b: H(aÙb)=H(a)+H(b).

3. Для двух зависимых опытов a и b: H(aÙb)=H(a)+Ha(b), где   если в опыте a реализовалось событие Ai, то среднюю условную энтропию опыта b при условии выполнения опыта a можно найти по формуле:

Пример 5. Какое количество информации требуется для отгадывания двухзначного числа. Каково минимальное число вопросов при отгадывании двухзначного числа? 

Решение.

Опыт a – отгадывание первой цифры:

n 1 = 9, события равновероятны p 1 =1/9.

Опыт b – отгадывание второй цифры:

n 2 = 10, события равновероятны p 2 =1/10.

a и b – независимые опыты:

I= I a+ I b = log2 9+ log2 10 = log2 90 =6,5 бит – 7 вопросов

Пример 6. В ящике 2 белых, 4 черных и 6 красных шара. Из ящика извлекают последовательно 2 шара без возврата. Найти энтропию, связанную с первым и вторым извлечениями, а также энтропию обоих извлеченийИмеется 3 тела с одинаковыми внешними размерами, но с разными массами. Необходимо определить энтропию, связанную с нахождением наиболее тяжелого из них, если сравнивать веса тел можно только попарно. 

Решение.

Опыт a – сравнивание веса двух тел, имеет два исходавынули I шар:

А 1 первое тяжелеешар белого цвета,  А 2 второе тяжелеешар черного цвета; А 3 шар красного цвета

события равновероятны p (А 1)= 1/6; p (А 2)= 1/3; p (А 2 А 3)=1/20,5, по теореме Шеннона формуле Хартли (2) при n =32:

 

H (a) = -p (А 1) log2 p (А 1)- p (А 2) log2 p (А 2)- p (А 3) log2 p (А 3)=   log2 n = log2 2 = 1 бит.

Опыт b – вынули II шар сравнивание весов тела, выбранного в опыте a, и третьего – имеет четыре возможны исходаы:

– при условии наступления события А 1 проверяются события:

1) В1 шар белого цветапервое тяжелее третьего;

2)   В2 шар черного цветапервое легче третьего; В3 _ шар красного цвета.

– при условии наступления события А2 проверяются события:

3) В3 второе тяжелее третьего;

4) В2 второе легче третьего.

HA1 (b) = log2 2 = 1 бит. HA2 (b) = log2 2 = 1 бит. ,

аналогично HA2 (b)= 1,43; HA3 (b)= 1,45

H a (b)= p (А1) HA1 (b) + p (А 2) HA2 (b) + p (А 3) HA3 (b) =

=0,5 17 ×1,32+0,33×1,43+0,5×1,45 = 1 0,22+0,47+0,73=1,42 бита.

Энтропия сложного опыта:

H (aÙb)= H (a)+ H a (b)= 1,46+1,42 = 2,88 бита.



Поделиться:


Последнее изменение этой страницы: 2021-12-07; просмотров: 64; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.172.115 (0.025 с.)