Кодирование информации, ASCII 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Кодирование информации, ASCII



Кодирование информации - это процесс формирования определенного представления информации.

В более узком смысле под термином "кодирование" часто понимают переход от одной формы представления информации к др., более удобной для хранения, передачи или обработки.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.

При обработке текстовой информации каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие м/у набором букв и числами называется кодировкой символов.

Представление информации в компьютере

В компьютерах используется двоичная система измерений, т.к. конструкция вычислительной техники тем проще и надежнее, чем меньше символов в системе исчисления, применяемых для кодирования информации.

В ЭВМ используют двоичную систему потому, что она имеет ряд преимуществ перед другими:

· для ее реализации используются технические элементы с двумя возможными состояниями (есть ток -- нет тока, намагничен -- ненамагничен);

· представление информации посредством только двух состояний надежно и помехоустойчиво;

· возм. применение аппарата булевой алгебры для выполнения логических преобразований информации;

· двоичная арифметика проще десятичной.

Единица измерения информации называется бит (bit) -- сокращение от английских слов binary digit, что означает двоичная цифра (0 или 1). Для передачи и хранения информации применяют 8-битовые коды (байты), кот. позволяют закодировать любой символ. 1Мб, 1 Гб, 1 Тб.

Для работы с большими числами используются слова - 16-битовые числа, двойные слова - 32-битовые числа.

Соответствие байтов и символов задается с помощью табл., в которой для каждого кода указывается свой символ. Так, например, в широко распространенной кодировке Koi8-R буква "М" имеет код 11101101, буква "И" -- код 11101001, а пробел - код 00100000.

В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого количества вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (сокращение от American Standard Code for Information Intercange -- американский стандартный код для обмена информацией). В таком файле не могут быть представлены буквы, отличные от латиницы.


Кодирование русского текста

В первых ЭВМ для кодирования текста отвели 7 бит. 27=128. Этого кол-ва вполне хватало для кодирования всех строчных и прописных букв латинского алфавита, десяти цифр и различных знаков и скобок. Именно такой, 7-битной, является таблица символов ASCII (от American Standard Code for Information Intercange - американский стандартный код для обмена информацией). В таком файле не м.б. представлены буквы, отличные от латиницы.

Когда возникла необходимость кодировать национальные алфавиты, то 128 символов стало недостаточно. Было решено перейти на кодирование с помощью 8 бит (т. е. одного байта). В результате кол-во символов, кот. м. закодировать Т.О. стало равно 28=256. При этом символы национальных алфавитов располагались во второй половине кодовой табл.. Так появился стандарт ISO 8859, содержащий множество кодировок для наиболее распространенных языков. Среди них была и одна из первых таблиц для кодировки русских букв - ISO 8859-5.

Задачи передачи текс-й инф. по сети вынудили разработать еще одну кодировку для русских букв, названную Koi8-R (код отображения информации 8-битный, русифицированный). Рассмотрим ситуацию, когда письмо, содержащее русский текст, отправлено по электронной почте. Случалось, что в процессе путешествия по сетям письмо обрабатывалось программой, которая работала с 7-битной кодировкой и обнуляла восьмой бит. В результате такого преобразования код символа уменьшался на 128, превращаясь в код символа латинского алфавита. Возникла необходимость повысить устойчивость передаваемой текстовой информации к обнулению 8 бита. Значительное число букв кириллицы имеет фонетические аналоги в латинском алфавите. Например, Ф и F, Р и R. Есть несколько букв, совпадающих даже по начертанию. Расположив русские буквы в кодовой табл. Т.О., чтобы их код превышал код аналогичных латинских на число 128, добились того, что потеря 8-го бита превращала текст хотя и в состоящий из одной латиницы, но все равно понимаемый русскоязычным пользователем.

Далее наступила эра ПК и операционной системы MS DOS, а кодировка Koi8-R для нее не подходила (так же, как и ISO 8859-5), в ее табл. некот. русские буквы находились на тех местах, кот. многие программы предполагали заполненными псевдографикой (горизонтальные и вертикальные черточки, уголки и т. д.). Поэтому была придумана еще одна кодировка кириллицы, в табл. которой русские буквы "обтекали" со всех сторон графические символы. Назвали эту кодировку альтернативной (alt), поскольку она была альтернативой официальному стандарту -- кодировке ISO-8859-5. Неоспоримым достоинством этой кодировки является то, что русские буквы в ней расположены в алфавитном порядке.

После появления ОС Windows от фирмы Microsoft выяснилось, что альтернативная кодировка для нее не подходит. Снова передвинув русские буквы в табл., получили кодировку Windows 1251 (Win-1251).

В разл. ОС предпочтение отдается разным кодировкам. Для чтение и редактирования текста, набранного в др. кодировке, используются программы перекодирования русского текста. Некот. текстовые ред-ры содержат встроенные перекодировщики, позволяющие читать текст в различных кодировках (Word и др.).


СЖАТИЕ ДАННЫХ

Сжатие данных необходимо для удешевления хранения информации. Особенность большинства данных - избыточность. Под этим понятием понимаются разные значения: в теории лингвистики под избыточностью понимается кол-во слов, которое м. выбросить без ущерба для смысла, в теории информации - кол-во случайно удаленных букв, при котором возм. однозначное восстановление информации. Избыточность зависит от:

1. Национальных особенностей языка

2. Типа данных (наиболее избыточны видеоданные, граф-е данные, текст).

Существует 3 сп-ба ум-я избыточности данных. Это изменение содержания данных, изменение структуры данных, либо то и другое вместе. Если при сжатии данных происходит изменение их содержания, то при восстановлении данных не происходит их полного восстановления. Такой метод сжатия применяется для данных, при которых формальная утрата части информации не приводит к значительному снижению потребительских свойств. Этот прием сжатия применим к видеозаписям, музыкальным записям, аудиозаписям и рис.

Характерными форматами сжатия с частичной потерей информации являются форматы:.JPG для графических данных,.MPG для видеоданных,.МР3 для звуковых данных. Если при сжатии данных происходит только изменение структуры, то метод сжатия полностью обратим. Обратимые методы применяются для сжатия любого типа данных. Характерные форматы сжатия без потери информации это GIF,.TIF,.PCX для графических данных,.AVI для видеоданных,.ZIP,.ARJ,.RAR,.LZH,.LH,.CAB для любых типов данных.

Данные различного типа имеют свои оптимальные алгоритмы сжатия. Алгоритм RLE применим для сжатия графических данных, его эффективность не зависит от объема данных. Для текстовых данных его эффективность не велика. В некоторых случаях он используется для сжатия таблиц, имеющих фиксированную длину полей.В основу метода положен принцип выявления повторяющихся последовательностей данных и замены их простой структурой, в которой указывается код данных и коэффициент повтора.

Алгоритм KWE применяется для сжатия текстовых данных. В данном алгоритме сжатые данные помещаются в таблицу имеющую вид словаря. На кодировку слова исп-ся двухбайтовая единица. Для англ. текстов и файлов баз данных.

Алгоритм Хаффмана прим-ся для люб. типа данных. В основе лежит кодировка битовыми группами. Перед началом сжатия проводится частотный анализ кода документа и выявляется частота повтора каждого символа. Чем чаще встречается тот или иной символ, тем меньшим кол-вом битов он кодируется.

Для сжатия данных в ОС MS DOS исп-ся прогр-е средства PKZIP, RAR, ARJ, для Windows это WinZIP, WinARJ, WinRAR, 7-Zip, и др. Эти прогр-е ср-ва способны извлекать файлы из архивов, соз-ть нов. архивы, добавлять файлы в имеющийся архив, соз-ть самораспаковывающиеся архивы, тестировать целостность стр-ры архива, полностью или частично вос-ть поврежденные архивы, защищать архивы от просмотра и несанкционированной модификации, соз-е распределенных архивов, просматривать архивный файл без извлечения, защищать паролем, выбирать и настраивать коэффициент сжатия информации.



Поделиться:


Последнее изменение этой страницы: 2016-04-23; просмотров: 787; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.145.34.185 (0.01 с.)