L Глава 2. Кодирование информации 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

L Глава 2. Кодирование информации



Понятие кодирования. Цели кодирования.

Код. Длина кода

Одну и ту же информацию можно выразить разными способами: проговорить, написать, выразить жестами и т.д. Для автоматизации работы с информацией, представленной в различных видах, очень важно унифицировать форму ее представления, т.е. выражать данные одного типа через данные другого типа. Для этого используют кодирование информации (данных). Естественные человеческие языки – это не что иное, как системы кодирования понятий для выражения мыслей посредством речи. К языкам близко примыкают азбуки (системы кодирования компонентов языка с помощью графических символов). История знает интересные попытки создания “универсальных” языков и азбук. Подобная проблема универсального средства кодирования достаточно успешно реализуется в отдельных отраслях техники, науки и культуры. В качестве примеров можно привести систему записи математических выражений, телеграфную азбуку, морскую флажковую азбуку, систему Брайля для слепых и т.д.

При кодировании могут ставиться разные цели и, соответственно, применяться разные методы. Наиболее распространенными целями кодирования являются следующие [1, c.47]:

· экономность, т.е. уменьшение избыточности сообщения; повышение скорости передачи или обработки;

· надежность, т.е. защита от случайных искажений;

· сохранность, т.е. защита от нежелательного доступа к информации;

· удобство физической реализации (например, двоичное кодирование информации в ЭВМ);

· удобство восприятия.

Эти цели часто противоречат друг другу. Экономные сообщения могут оказаться ненадежными, так как они не содержат лишних символов, искажение любого символа может изменить смысл сообщения. Подробно исследует проблемы разумного сочетания экономности и надежности при передаче информации теория кодирования. В настоящее время немаловажным становится и защита информации от нежелательного доступа. Защита требует специальных способов обеспечения секретности (паролей, ключей и т.п.), что увеличивает объем хранимой информации и замедляет работу с ней.

На разных этапах сложного информационного процесса достигаются разные цели, поэтому информация неоднократно перекодируется, т.е. изменяет свое представление. Например, такая перекодировка происходит при передаче телеграмм. При решении задачи с помощью ЭВМ происходит превращение алгоритма решения задачи, написанного на естественном языке, в программу, записанную на языке программирования, далее происходят последовательно ввод, трансляция, работа программы и вывод результатов. На каждом из этапов происходит перекодирование информации.

Для того чтобы сообщение было передано отисточника к потребителю, оно должно быть каким-либо образом отображено, зафиксировано. Такое отображение осуществляется с помощью некоторых символов (знаков). “ Знак – это элемент конечного множества отличных друг от друга элементов. Знак вместе с его смыслом называют символом. Набор знаков, в котором определен их порядок, называется алфавитом. Алфавит, состоящий из двух знаков, называется двоичным алфавитом. Кодированием называется процесс преобразования одного набора знаков в другой набор знаков” [1, c. 45]. Кодирование – способ хранения и передачи информации, форма представления ее на носителе. Шифрование – это тоже кодирование сообщения отправителем, но такое, чтобы оно было непонятно несанкционированному пользователю. Последовательность символов алфавита называется словом. Сообщение фиксируется как последовательность слов. Простой и всем понятный пример такого представления сообщения – его запись словами, составленными из букв русского алфавита. В канале связи способ представления сообщения может изменяться: один алфавит заменяться другим. Для того, чтобы закодировать информацию, необходимо выбрать код. “ Кодом называется правило для преобразования одного набора знаков в другой набор знаков. Длиной кода называется такое количество знаков, которое используется при кодировании” [1, c. 45].

Количество символов в алфавите кодирования и длина кода – совершенно разные вещи. Например, в русском алфавите 33 буквы, а слова могут быть длиной в 1, 2, 3 и т.д. буквы. Код может быть постоянной и непостоянной длины. В технике коды различной длины встречаются довольно редко. Исключением является лишь код Морзе. В нем, например, буква Е обозначается одним символом – «.»; буква А двумя символами – «. - -»; буква D тремя символами – «- ..», буква J четырьмя символами «. - - -». Азбука Морзе – это троичный код с набором знаков: точка, тире, пауза. Пауза используется в качестве разделителя между буквами и словами, так как длина кода непостоянна. По общепринятому правилу радистов, продолжительность точки равна продолжительности паузы, продолжительность тире равна продолжительности трех точек, продолжительность пропуска (между буквами) равна трем продолжительностям паузы. В кодах с постоянной длиной закодированные символы могут следовать друг за другом непосредственно. Расположение этих символов устанавливается с помощью отсчета. В этом случае сообщение может быть раскодировано однозначно.

Применение кодов с постоянной длиной позволяет использовать для кодирования двоичный алфавит, как наиболее простой. Чем меньше букв в алфавите, которым кодируется информация, тем проще должно быть устройство для распознавания (дешифровки) информационного сообщения. Однако, чем меньше букв в этом алфавите, тем большее количество их (большая длина кода) может потребоваться для записи одной и той же информации.

В вычислительной технике существует своя система кодирования. Она называется двоичным кодированием и основана на представлении данных последовательностью всего двух знаков: 0 и 1. То есть, алфавит составляют две цифры 0 и 1. Эти знаки называются двоичными цифрами, по-английски – binary digit или сокращенно bit (бит).

Почему длина кода выбрана в два символа? Такая форма позволяет создавать достаточно простые технические устройства для представления (кодирования) и распознавания (дешифровки) информации. Двоичное кодирование выбрали для того, чтобы максимально упростить конструкцию декодирующей машины, ведь дешифратор должен уметь различать всего два состояния (например, 1 – есть ток в цепи, 0 – тока в цепи нет). Двоичные элементы самые надежные – трудно перепутать состояние “включено” с состоянием “выключено”. Троичное кодирование, несмотря на ряд технических попыток, успеха не имело. В Советском Союзе в 60-е годы выпускался малой серией компьютер с троичной системой счисления при кодировании, который назывался “Сетунь”, компьютеры с десятичной системой счисления так и не вышли из стен лабораторий.

Основным свойством двоичной системы является компактность упаковки данных, т.е. почти минимальный расход памяти на представление числа. Для подтверждения последнего вывода рассмотрим следующий пример [16, c. 44-45]: Пусть дано число 9999, необходимо представить это число в разных системах счисления (нижний индекс обозначает основание системы счисления). В единичной системе потребуется 9999 состояний (камешков, палочек и т.п.) для представления этого числа. В двоичной системе 999910 = 100111000011112. Всего потребуется 14 разрядов, в каждом из которых возможны две цифры, т.е. всего 28 состояний. В троичной системе 999910 = 1112011003 – 27 состояний. По основанию 4 999910 = 21300334 – 28 состояний. По основанию 5 999910 = 3044445 – 30 состояний. Продолжая далее осуществлять перевод числа 9999 в системы счисления с основаниями больше 5 можно видеть, что количество состояний (оно равно произведению основания системы счисления на количество разрядов в числе) будет увеличиваться. Наиболее плотная упаковка обеспечивается, когда в качестве основания системы счисления выбрано число между 2 и 3. Подсчитано, что оно равно 2,718 – знаменитое число е – основание натурального логарифма. Таким образом, для представления чисел в компьютере можно выбрать либо двоичную, либо троичную систему счисления. Выбор пал на двоичную. Двоичное представление числа требует примерно в 3,3 раза большего числа разрядов, чем его десятичное представление. Тем не менее применение двоичной системы счисления создает большие удобства для работы ЭВМ, так как технически оказалось проще реализовать два состояния “включено” или “выключено”. Кроме того, в двоичной системе счисления таблицы сложения и умножения, необходимые для того, чтобы считать, очень просты: 0 + 0 = 0, 0 + 1 = 1, 1 + 0 = 1, 1 + 1 = 10, 0 ´ 0 = 0, 0 ´ 1 = 0, 1 ´ 0 = 0, 1 ´ 1 = 1.

Одним битом, как уже упоминалось, могут быть выражены два понятия: 0 или 1 (да или нет, черное или белое, истина или ложь и т.п.). Если количество битов увеличить до двух, то уже можно выразить четыре различных понятия: 00 01 10 11. Тремя битами можно закодировать восемь различных значений: 000 001 010 011 100 101 110 111. Увеличивая на единицу количество разрядов в системе двоичного кодирования, увеличиваем в два раза количество значений, которое может быть выражено в данной системе, т.е. общая формула имеет вид: N = 2 m, где N – количество независимых кодируемых значений; m – разрядность двоичного кодирования, принятая в данной системе.

Рассмотрим, как в ЭВМ кодируются символьная или текстовая информация, целые и вещественные числа, графическая и звуковая информация.



Поделиться:


Последнее изменение этой страницы: 2016-12-15; просмотров: 3112; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.253.161 (0.008 с.)