Тема 1.3.
Тема
1.3. Представление чисел в ЭВМ
Кодирование текстовой, графической, звуковой и видеоинформации. Сжатие информации
Кодирование
информации в компьютере
Современный
компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео
информацию. Все эти виды информации в компьютере представлены в двоичном коде,
т. е. используется алфавит мощностью два символа (0 и 1). Связано это с тем, что
удобно представлять информацию в виде последовательности электрических
импульсов: импульс отсутствует (0), импульс есть (1). Такое кодирование принято
называть двоичным, а сами логические последовательности нулей и единиц -
машинным языком.
Каждая
цифра машинного двоичного кода несет количество информации равное одному
биту.
Данный
вывод можно сделать, рассматривая цифры машинного алфавита, как равновероятные
события. При записи двоичной цифры можно реализовать выбор только одного из двух
возможных состояний, а, значит, она несет количество информации равное 1 бит.
Следовательно, две цифры несут информацию 2 бита, четыре разряда --4 бита и т.
д. Чтобы определить количество информации в битах, достаточно определить
количество цифр в двоичном машинном коде.
Кодирование
текстовой информации
В
настоящее время большая часть пользователей при помощи компьютера обрабатывает
текстовую информацию, которая состоит из символов: букв, цифр, знаков препинания
и др.
На
основании одной ячейки информационной ёмкостью 1 бит можно закодировать только 2
различных состояния. Для того чтобы каждый символ, который можно ввести с
клавиатуры в латинском регистре, получил свой уникальный двоичный код, требуется
7 бит. На основании последовательности из 7 бит, в соответствии с формулой
Хартли, может быть получено N=27=128 различных комбинаций из нулей и
единиц, т.е. двоичных кодов. Поставив в соответствие каждому символу его
двоичный код, мы получим кодировочную таблицу. Человек оперирует символами,
компьютер – их двоичными кодами.
Для
латинской раскладки клавиатуры такая кодировочная таблица одна на весь мир,
поэтому текст, набранный с использованием латинской раскладки, будет адекватно
отображен на любом компьютере. Эта таблица носит название ASCII (American
Standard Code of Information Interchange) по-английски произносится [э́ски],
по-русски произносится [а́ски]. Ниже приводится вся таблица ASCII, коды в
которой указаны в десятичном виде. По ней можно определить, что когда вы вводите
с клавиатуры, скажем, символ “*”, компьютер его воспринимает как код 42(10), в
свою очередь 42(10)=101010(2) – это и есть двоичный код символа “*”. Коды с 0 по
31 в этой таблице не задействованы.
Таблица
символов ASCII
код |
символ |
код |
символ |
код |
символ |
код |
символ |
код |
символ |
код |
символ |
32 |
Пробел |
48 |
. |
64 |
@ |
80 |
P |
96 |
' |
112 |
p |
33 |
! |
49 |
0 |
65 |
A |
81 |
Q |
97 |
a |
113 |
q |
34 |
" |
50 |
1 |
66 |
B |
82 |
R |
98 |
b |
114 |
r |
35 |
# |
51 |
2 |
67 |
C |
83 |
S |
99 |
c |
115 |
s |
36 |
$ |
52 |
3 |
68 |
D |
84 |
T |
100 |
d |
116 |
t |
37 |
% |
53 |
4 |
69 |
E |
85 |
U |
101 |
e |
117 |
u |
38 |
& |
54 |
5 |
70 |
F |
86 |
V |
102 |
f |
118 |
v |
39 |
' |
55 |
6 |
71 |
G |
87 |
W |
103 |
g |
119 |
w |
40 |
( |
56 |
7 |
72 |
H |
88 |
X |
104 |
h |
120 |
x |
41 |
) |
57 |
8 |
73 |
I |
89 |
Y |
105 |
i |
121 |
y |
42 |
* |
58 |
9 |
74 |
J |
90 |
Z |
106 |
j |
122 |
z |
43 |
+ |
59 |
: |
75 |
K |
91 |
[ |
107 |
k |
123 |
{ |
44 |
, |
60 |
; |
76 |
L |
92 |
\ |
108 |
l |
124 |
| |
45 |
- |
61 |
< |
77 |
M |
93 |
] |
109 |
m |
125 |
} |
46 |
. |
62 |
> |
78 |
N |
94 |
^ |
110 |
n |
126 |
~ |
47 |
/ |
63 |
? |
79 |
O |
95 |
_ |
111 |
o |
127 |
DEL |
Для
того чтобы закодировать один символ используют количество информации равное 1
байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между
собой количество возможных событий К и количество информации I, можно вычислить
сколько различных символов можно закодировать (считая, что символы - это
возможные события):
К
= 2I = 28 = 256,
т.
е. для представления текстовой информации можно использовать алфавит мощностью
256 символов.
Суть
кодирования заключается в том, что каждому символу ставят в соответствие
двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0
до 255.
Необходимо
помнить, что в настоящее время для кодировки русских букв используют пять
различных кодовых таблиц (КОИ - 8, СР1251, СР866, Мас, ISO), причем
тексты, закодированные при помощи одной таблицы не будут правильно отображаться
в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной
таблицы кодировки символов.
Одному
и тому же двоичному коду ставится в соответствие различные
символы.
Двоичный
код |
Десятичный
код |
КОИ8 |
СР1251 |
СР866 |
Мас |
ISO |
11000010 |
194 |
б |
В |
- |
- |
Т |
Впрочем,
в большинстве случаев о перекодировке текстовых документов заботится не
пользователь, а специальные программы - конверторы, которые встроены в
приложения.
Начиная
с 1997 г. последние версии Microsoft Office поддерживают новую кодировку. Она
называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для
кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании
такой таблицы может быть закодировано N=216=65 536
символов.
Юникод
включает практически все современные письменности, в том числе: арабскую,
армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит,
кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай,
Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и
другие.
С
академической целью добавлены многие исторические письменности, в том числе:
древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский
алфавит.
В
Юникоде представлен широкий набор математических и музыкальных символов, а также
пиктограмм.
Для
символов кириллицы в Юникоде выделено два диапазона кодов:
Cyrillic
(#0400 — #04FF)
Cyrillic
Supplement (#0500 — #052F).
Но
внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если
код одного символа будет занимать не один байт, а два байта, что для хранения
текста понадобится вдвое больше дискового пространства, а для его передачи по
каналам связи – вдвое больше времени.
Поэтому
сейчас на практике больше распространено представление Юникода UTF-8 (Unicode
Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами,
использующими 8-битные символы. Текст, состоящий только из символов с номером
меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные
символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В
целом, так как самые распространенные в мире символы – символы латинского
алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее,
чем чистый Юникод.
Чтобы
определить числовой код символа можно или воспользоваться кодовой таблицей. Для
этого в меню нужно выбрать пункт "Вставка" - "Символ", после чего на экране
появляется диалоговая панель Символ. В диалоговом окне появляется таблица
символов для выбранного шрифта. Символы в этой таблице располагаются построчно,
последовательно слева направо, начиная с символа Пробел.
Кодирование
графической информации
В
середине 50-х годов для больших ЭВМ, которые применялись в научных и военных
исследованиях, впервые в графическом виде было реализовано представление данных.
В настоящее время широко используются технологии обработки графической
информации с помощью ПК. Графический интерфейс пользователя стал стандартом
"де-факто" для ПО разных классов, начиная с операционных систем. Вероятно, это
связано со свойством человеческой психики: наглядность способствует более
быстрому пониманию. Широкое применение получила специальная область информатики,
которая изучает методы и средства создания и обработки изображений с помощью
программно-аппаратных вычислительных комплексов, - компьютерная графика. Без нее
трудно представить уже не только компьютерный, но и вполне материальный мир, так
как визуализация данных применяется во многих сферах человеческой деятельности.
В качестве примера можно привести опытно-конструкторские разработки, медицину
(компьютерная томография), научные исследования и др.
Графическую
информацию можно представлять в двух формах: аналоговой или дискретной.
Живописное полотно, цвет которого изменяется непрерывно - это пример аналогового
представления, а изображение, напечатанное при помощи струйного принтера и
состоящее из отдельных точек разного цвета - это дискретное
представление.
Путем
разбиения графического изображения (дискретизации) происходит преобразование
графической информации из аналоговой формы в дискретную. При этом производится
кодирование - присвоение каждому элементу конкретного значения в форме кода. При
кодировании изображения происходит его пространственная дискретизация. Все
изображение разбивается на отдельные точки, каждому элементу ставится в
соответствие код его цвета.
При
этом качество кодирования будет зависеть от следующих параметров: размера точки
и количества используемых цветов. Чем меньше размер точки, а, значит,
изображение составляется из большего количества точек, тем выше качество
кодирования. Чем большее количество цветов используется (т. е. точка изображения
может принимать больше возможных состояний), тем больше информации несет каждая
точка, а, значит, увеличивается качество кодирования.
Создание
и хранение графических объектов возможно в нескольких видах - в виде векторного,
фрактального или растрового изображения. Для каждого вида используется свой
способ кодирования графической информации.
Растровое
изображение.
При
помощи увеличительного стекла можно увидеть, что черно-белое графическое
изображение, например из газеты, состоит из мельчайших точек, составляющих
определенный узор - растр.
Точность
передачи рисунка зависит от количества точек и их размера. После разбиения
рисунка на точки, начиная с левого угла, двигаясь по строкам слева направо,
можно кодировать цвет каждой точки. Далее одну такую точку будем называть
пикселем (происхождение этого слова связано с английской аббревиатурой "picture
element" - элемент рисунка).
Объем
растрового изображения определяется умножением количества пикселей на
информационный объем одной точки, который зависит от количества возможных
цветов. Качество изображения определяется разрешающей способностью монитора. Чем
она выше, то есть больше количество строк растра и точек в строке, тем выше
качество изображения.
Если
пиксель изображения может быть раскрашен только в один из 2х цветов, допустим,
либо в черный (0), либо в белый (1), то для хранения информации о цвете пикселя
достаточно 1 бита памяти (log2(2)=1 бит). Соответственно, объем,
занимаемый в памяти компьютера всем изображением, будет равен числу пикселей в
этом изображении.
Если
под хранение информации о цвете пикселя выделить 2 бита, то число цветов,
допустимых для раскраски каждого пикселя, увеличится до 4х (N=22=4),
а объем файла изображения в битах будет вдвое больше, чем количество
составляющих его пикселей.
1
бит на пиксель – 2 цвета. 2 бита на пиксель – 4 цвета.
При
печати на не цветном принтере обычно допускает 256 градаций серого цвета (от
черного (0) до белого (255)) для раскраски каждой точки изображения. Под
хранение информации о цвете точки в этом случае отводится 1 байт, т.е. 8 бит
(log2(256)=8 бит).
В
компьютерной графике чрезвычайно важен цвет. Он выступает как средство усиления
зрительного впечатления и повышения информационной насыщенности изображения. Как
формируется ощущение цвета человеческим мозгом? Это происходит в результате
анализа светового потока, попадающего на сетчатку глаза от отражающих или
излучающих объектов. Принято считать, что цветовые рецепторы человека, которые
еще называют колбочками, подразделяются на три группы, причем каждая может
воспринимать всего один цвет - красный, или зеленый, или
синий.
Цветовые
модели.
Применяют
несколько систем кодирования: HSB, RGB и CMYK. Первая цветовая модель проста и
интуитивно понятна, т. е. удобна для человека, вторая наиболее удобна для
компьютера, а последняя модель CMYK-для типографий.
Использование
этих цветовых моделей связано с тем, что световой поток может формироваться
излучениями, представляющими собой комбинацию " чистых" спектральных цветов :
красного, зеленого, синего или их производных.
1)
Модель HSB характеризуется тремя компонентами: оттенок цвета(Hue), насыщенность
цвета (Saturation) и яркость цвета (Brightness). Можно получить большое
количество произвольных цветов, регулируя эти компоненты. Эту цветовую модель
лучше применять в тех графических редакторах, в которых изображения создают
сами, а не обрабатывают уже готовые. Затем созданное свое произведение можно
преобразовать в цветовую модель RGB, если ее планируется использовать в качестве
экранной иллюстрации, или CMYK, если в качестве печатной.
2)
Принцип метода RGB заключается в следующем: известно, что любой цвет можно
представить в виде комбинации трех цветов: красного (Red, R), зеленого (Green,
G), синего (Blue, B). Другие цвета и их оттенки получаются за счет наличия или
отсутствия этих составляющих. По первым буквам основных цветов система и
получила свое название - RGB. Данная цветовая модель является аддитивной, то
есть любой цвет можно получить сочетание основных цветов в различных пропорциях.
При наложении одного компонента основного цвета на другой яркость суммарного
излучения увеличивается. Если совместить все три компоненты, то получим
ахроматический серый цвет, при увеличении яркости которого происходит
приближение к белому цвету.
При
256 градациях тона (каждая точка кодируется 3 байтами) минимальные значения RGB
(0,0,0) соответствуют черному цвету, а белому - максимальные с координатами
(255, 255, 255). Чем больше значение байта цветовой составляющей, тем этот цвет
ярче. Например, темно-синий кодируется тремя байтами ( 0, 0, 128), а ярко-синий
(0, 0, 255).
Изменяющиеся
в диапазоне от 0 до 255 координаты RGB образуют цветовой куб. Любой цвет
расположен внутри этого куба и описывается своим набором координат, показывающем
в каких долях смешаны в нем красная, зеленая и синяя составляющие.
Излучающий
объект RGB. Отражающий объект CMYK.
3)
Принцип метода CMYK. Эта цветовая модель используется при подготовке публикаций
к печати. Каждому из основных цветов ставится в соответствие дополнительный цвет
(дополняющий основной до белого). Получают дополнительный цвет за счет
суммирования пары остальных основных цветов. Любой цвет можно представить или в
виде суммы красной, зеленой, синей составляющей или же в виде суммы голубой,
пурупурной, желтой составляющей. В основном такой метод принят в полиграфии. Но
там еще используют черный цвет (BlacК, так как буква В уже занята синим цветом,
то обозначают буквой K). Это связано с тем, что наложение друг на друга
дополнительных цветов не дает чистого черного цвета.
Различают
несколько режимов представления цветной графики:
а)
полноцветный (True Color);
б)
High Color;
в)
индексный.
При
полноцветном режиме для кодирования яркости каждой из составляющих используют по
256 значений (восемь двоичных разрядов), то есть на кодирование цвета одного
пикселя (в системе RGB) надо затратить 8*3=24 разряда. Это позволяет однозначно
определять 16,5 млн цветов. При кодировании с помощью системы CMYK для
представления цветной графики надо иметь 8*4=32 двоичных
разряда.
Режим
High Color - это кодирование при помощи 16-разрядных двоичных чисел, то есть
уменьшается количестко двоичных разрядов при кодировании каждой точки. Но при
этом значительно уменьшается диапазон кодируемых цветов.
При
индексном кодировании цвета можно передать всего лишь 256 цветовых оттенков.
Каждый цвет кодируется при помощи восьми бит данных.
Соответствие
между количеством отображаемых цветов (К) и количеством бит для их кодировки (а)
находится по формуле: К = 2а.
а |
К |
Достаточно
для… |
8 |
28 =
256 |
Рисованных
изображений типа тех, что видим в мультфильмах, но недостаточно для
изображений живой природы |
16
(High Color) |
216 =
65536 |
Изображений,
которые на картинках в журналах и на
фотографиях |
24
(True Color) |
224 =
16 777 216 |
Обработки
и передачи изображений, не уступающих по качеству наблюдаемым в живой
природе |
Двоичный
код изображения, выводимого на экран, хранится в видеопамяти. Видеопамять - это
электронное энергозависимое запоминающее устройство. Размер видеопамяти зависит
от разрешающей способности дисплея и количества цветов. Но ее минимальный объем
определяется так, чтобы поместился один кадр (одна страница) изображения, т.е.
как результат произведения разрешающей способности на размер кода
пикселя.
Vmin
= M * N * a.
Векторное
и фрактальное изображения.
Векторное
изображение - это графический объект, состоящий из элементарных отрезков и дуг.
Базовым элементом изображения является линия. Как и любой объект, она обладает
свойствами: формой (прямая, кривая), толщиной., цветом, начертанием (пунктирная,
сплошная). Замкнутые линии имеют свойство заполнения (или другими объектами, или
выбранным цветом). Все прочие объекты векторной графики составляются из линий.
Так как линия описывается математически как единый объект, то и объем данных для
отображения объекта средствами векторной графики значительно меньше, чем в
растровой графике. Информация о векторном изображении кодируется как обычная
буквенно-цифровая и обрабатывается специальными
программами.
К
программным средствам создания и обработки векторной графики относятся следующие
ГР: CorelDraw, Adobe Illustrator, а также векторизаторы (трассировщики) -
специализированные пакеты преобразования растровых изображений в
векторные.
Фрактальная
графика основывается на математических вычислениях, как и векторная. Но в
отличии от векторной ее базовым элементом является сама математическая формула.
Это приводит к тому, что в памяти компьютера не хранится никаких объектов и
изображение строится только по уравнениям. При помощи этого способа можно
строить простейшие регулярные структуры, а также сложные иллюстрации, которые
имитируют ландшафты.
Кодирование
звуковой информации
Из
физики известно, что звук – это колебания воздуха. Если преобразовать звук в
электрический сигнал (например, с помощью микрофона), то видно плавно
изменяющееся с течением времени напряжение. Для компьютерной обработки такой –
аналоговый – сигнал нужно каким-то образом преобразовать в последовательность
двоичных чисел.
Делается
это, например, так – измеряется напряжение через равные промежутки времени и
полученные значения записываются в память компьютера. Этот процесс называется
дискретизацией (или оцифровкой), а устройство, выполняющее его –
аналого-цифровым преобразователем (АЦП).
Чтобы
воспроизвести закодированный таким образом звук, нужно сделать обратное
преобразование (для этого служит цифро-аналоговый преобразователь – ЦАП), а
затем сгладить получившийся ступенчатый сигнал.
Чем
выше частота дискретизации и чем больше разрядов отводится для каждого отсчета,
тем точнее будет представлен звук, но при этом увеличивается и размер звукового
файла. Поэтому в зависимости от характера звука, требований, предъявляемых к его
качеству и объему занимаемой памяти, выбирают некоторые компромиссные
значения.
Параметры
дискретизации.
Важными
параметрами дискретизации являются частота и разрядность.
Разрядность указывает,
с какой точностью происходят изменения амплитуды аналогового сигнала. Точность,
с которой при оцифровке передается значение амплитуды сигнала в каждый из
моментов времени, определяет качество сигнала после цифро-аналогового
преобразования. Именно от разрядности зависит достоверность восстановления формы
волны.
Для
кодирования значения амплитуды используют принцип двоичного кодирования.
Звуковой сигнал должен быть представленным в виде последовательности
электрических импульсов (двоичных нулей и единиц). Обычно используют 8,
16-битное или 20-битное представление значений амплитуды. При двоичном
кодировании непрерывного звукового сигнала его заменяют последовательностью
дискретных уровней сигнала.
Частота -
количество измерений амплитуды аналогового сигнала в
секунду.
Сжатие
информации
Принципы
сжатия информации
Цель
сжатия данных - обеспечить компактное представление данных, вырабатываемых
источником, для их более экономного сохранения и передачи по каналам
связи.
Пусть
у нас имеется файл размером 1 (один) мегабайт. Нам необходимо получить из него
файл меньшего размера. Ничего сложного - запускаем архиватор, к примеру, WinZip,
и получаем в результате, допустим, файл размером 600 килобайт. Куда же делись
остальные 424 килобайта?
Сжатие
информации является одним из способов ее кодирования. Вообще коды делятся на три
большие группы - коды сжатия (эффективные коды), помехоустойчивые коды и
криптографические коды. Коды, предназначенные для сжатия информации, делятся, в
свою очередь, на коды без потерь и коды с потерями. Кодирование без потерь
подразумевает абсолютно точное восстановление данных после декодирования и может
применяться для сжатия любой информации. Кодирование с потерями имеет обычно
гораздо более высокую степень сжатия, чем кодирование без потерь, но допускает
некоторые отклонения декодированных данных от исходных.
Виды
сжатия
Все
методы сжатия информации можно условно разделить на два больших непересекающихся
класса: сжатие с потерей информации и сжатие без
потери информации.
Сжатие
без потери информации.
Эти
методы сжатия нас интересуют в первую очередь, поскольку именно их
применяют при передаче текстовых документов и программ, при выдаче
выполненной работы заказчику или при создании резервных копий информации,
хранящейся на копьютере.
Методы
сжатия этого класса не могут допустить утрату информации, поэтому они
основаны только на устранении ее избыточности, а информация имеет избыточность
почти всегда (правда, если до этого кто-то ее уже не уплотнил). Если бы
избыточности не было, нечего было бы и сжимать.
Вот
простой пример. В русском языке 33 буквы, десять цифр и еще примерно полтора
десятка знаков препинания и прочих специальных символов. Для текста,
который записан только прописными русскими буквами (как в
телеграммах и радиограммах) вполне хватило бы шестидесяти разных значений. Тем
не менее, каждый символ обычно кодируется байтом, который содержит 8 битов и
может выражать 256 различных кодов. Это первое основание для избыточности.
Для нашего «телеграфного» текста вполне хватило бы шести битов на
символ.
Вот
другой пример. В международной кодировке символов ASCII для
кодирования любого символа отводится одинаковое количество битов (8), в то время
как всем давно и хорошо известно, что наиболее часто встречающиеся символы
имеет смысл кодировать меньшим количеством знаков. Так, например, в «азбуке
Морзе» буквы «Е» и «Т», которые встречаются часто, кодируются одним знаком
(соответственно это точка и тире). А такие редкие буквы, как «Ю» (• • - -) и «Ц»
(- • - •), кодируются четырьмя знаками. Неэффективная кодировка — второе
основание для избыточности. Программы, выполняющие сжатие информации, могут
вводить свою кодировку (разную для разных файлов) и приписывать к сжатому файлу
некую таблицу (словарь), из которой распаковывающая программа узнает, как в
данном файле закодированы те или иные символы или их группы. Алгоритмы,
основанные на перекодировании информации, называют алгоритмами
Хафмана.
Наличие
повторяющихся фрагментов — третье основание для избыточности. В текстах это
встречается редко, но в таблицах и в графике повторение кодов — обычное явление.
Так, например, если число 0 повторяется двадцать раз подряд, то нет смысла
ставить двадцать нулевых байтов. Вместо них ставят один ноль и коэффициент 20.
Такие алгоритмы, основанные на выявлении повторов,
называют методами RLE (Run Length Encoding).
Большими
повторяющимися последовательностями одинаковых байтов особенно отличаются
графические иллюстрации, но не фотографические (там много шумов и соседние точки
существенно различаются по параметрам), а такие, которые художники рисуют
«гладким» цветом, как в мультипликационных фильмах.
Сжатие
с потерей информации.
Сжатие
с потерей информации означает, что после распаковки уплотненного архива мы
получим документ, который несколько отличается от того, который был в самом
начале. Понятно, что чем больше степень сжатия, тем больше величина потери и
наоборот.
Разумеется,
такие алгоритмы неприменимы для текстовых документов, таблиц баз данных и
особенно для программ. Незначительные искажения в простом неформатированном
тексте еще как-то можно пережить, но искажение хотя бы одного бита в программе
сделает ее абсолютно неработоспособной.
В
то же время, существуют материалы, в которых стоит пожертвовать несколькими
процентами информации, чтобы получить сжатие в десятки раз. К ним относятся
фотографические иллюстрации, видеоматериалы и музыкальные композиции. Потеря
информации при сжатии и последующей распаковке в таких материалах воспринимается
как появление некоторого дополнительного «шума». Но поскольку при создании этих
материалов определенный «шум» все равно присутствует, его небольшое
увеличение не всегда выглядит критичным, а выигрыш в размерах файлов дает
огромный (в 10-15 раз на музыке, в 20-30 раз на фото- и
видеоматериалах).
К
алгоритмам сжатия с потерей информации относятся такие известные алгоритмы как
JPEG и MPEG. Алгоритм JPEG используется при сжатии фотоизображений.
Графические файлы, сжатые этим методом, имеют расширение JPG. Алгоритмы
MPEG используют при сжатии видео и музыки. Эти файлы могут иметь различные
расширения, в зависимости от конкретной программы, но наиболее известными
являются .MPG для видео и .МРЗ для музыки.
Алгоритмы
сжатия с потерей информации применяют только для потребительских задач. Это
значит, например, что если фотография передается для просмотра, а музыка для
воспроизведения, то подобные алгоритмы применять можно. Если же они
передаются для дальнейшей обработки, например для редактирования, то
никакая потеря информации в исходном материале
недопустима.
Величиной
допустимой потери при сжатии обычно можно управлять. Это позволяет
экспериментовать и добиваться оптимального соотношения размер/качество. На
фотографических иллюстрациях, предназначенных для воспроизведения на
экране, потеря 5% информации обычно некритична, а в некоторых случаях можно
допустить и 20-25%.
Алгоритмы
сжатия без потери информации
Код
Шеннона-Фэно
Для
дальнейших рассуждений будет удобно представить наш исходный файл с текстом как
источник символов, которые по одному появляются на его выходе. Мы не знаем
заранее, какой символ будет следующим, но мы знаем, что с вероятностью p1
появится буква "а", с вероятностью p2 -буква "б" и т.д.
В
простейшем случае мы будем считать все символы текста независимыми друг от
друга, т.е. вероятность появления очередного символа не зависит от значения
предыдущего символа. Конечно, для осмысленного текста это не так, но сейчас мы
рассматриваем очень упрощенную ситуацию. В этом случае справедливо утверждение
"символ несет в себе тем больше информации, чем меньше вероятность его
появления".
Давайте
представим себе текст, алфавит которого состоит всего из 16 букв: А, Б, В, Г, Д,
Е, Ж, З, И, К, Л, М, Н, О, П, Р. Каждый из этих знаков можно закодировать с
помощью всего 4 бит: от 0000 до 1111. Теперь представим себе, что вероятности
появления этих символов распределены следующим образом:
А |
Б |
В |
Г |
Д |
Е |
Ж |
З |
И |
К |
Л |
М |
Н |
О |
П |
Р |
0,2 |
0,15 |
0,15 |
0,1 |
0,08 |
0,08 |
0,06 |
0,04 |
0,03 |
0,022 |
0,018 |
0,016 |
0,014 |
0,014 |
0,013 |
0,013 |
Сумма
этих вероятностей составляет, естественно, единицу. Разобьем эти символы на две
группы таким образом, чтобы суммарная вероятность символов каждой группы
составляла ~0.5 (рис). В нашем примере это будут группы символов А-В и Г-Р.
Кружочки на рисунке, обозначающие группы символов, называются вершинами или
узлами (nodes), а сама конструкция из этих узлов - двоичным деревом (B-tree).
Присвоим каждому узлу свой код, обозначив один узел цифрой 0, а другой - цифрой
1.
Снова
разобьем первую группу (А-В) на две подгруппы таким образом, чтобы их суммарные
вероятности были как можно ближе друг к другу. Добавим к коду первой подгруппы
цифру 0, а к коду второй - цифру 1.
Будем
повторять эту операцию до тех пор, пока на каждой вершине нашего "дерева" не
останется по одному символу. Полное дерево для нашего алфавита будет иметь 31
узел.
Коды
символов (крайние правые узлы дерева) имеют коды неодинаковой длины. Так, буква
А, имеющая для нашего воображаемого текста вероятность p=0.2, кодируется всего
двумя битами, а буква Р (на рисунке не показана), имеющая вероятность p=0.013,
кодируется аж шестибитовой комбинацией.
Код
Хаффмана.
Алгоритм
Хаффмана изящно реализует общую идею статистического кодирования с
использованием префиксных множеств и работает следующим
образом:
1.
Выписываем в ряд все символы алфавита в порядке возрастания или убывания
вероятности их появления в тексте.
2.
Последовательно объединяем два символа с наименьшими вероятностями появления в
новый составной символ, вероятность появления которого полагаем равной сумме
вероятностей составляющих его символов. В конце концов построим дерево, каждый
узел которого имеет суммарную вероятность всех узлов, находящихся ниже
него.
3.
Прослеживаем путь к каждому листу дерева, помечая направление к каждому узлу
(например, направо - 1, налево - 0) . Полученная последовательность дает кодовое
слово, соответствующее каждому символу (рис.).
Построим
кодовое дерево для сообщения со следующим алфавитом:
A
B C D E
10
5 8 13 10
B
C A E D
5
8 10 10 13
A
E BC D
10
10 13 13
BC
D AE
13
13 20
AE
BCD
20
26
AEBCD
46
Недостатки
методов
Самой
большой сложностью с кодами, как следует из предыдущего обсуждения, является
необходимость иметь таблицы вероятностей для каждого типа сжимаемых данных. Это
не представляет проблемы, если известно, что сжимается английский или русский
текст; мы просто предоставляем кодеру и декодеру подходящее для английского или
русского текста кодовое дерево. В общем же случае, когда вероятность символов
для входных данных неизвестна, статические коды Хаффмана работают
неэффективно.
Решением
этой проблемы является статистический анализ кодируемых данных, выполняемый в
ходе первого прохода по данным, и составление на его основе кодового дерева.
Собственно кодирование при этом выполняется вторым
проходом.
Еще
один недостаток кодов - это то, что минимальная длина кодового слова для них не
может быть меньше единицы, тогда как энтропия сообщения вполне может составлять
и 0,1, и 0,01 бит/букву. В этом случае код становится существенно избыточным.
Проблема решается применением алгоритма к блокам символов, но тогда усложняется
процедура кодирования/декодирования и значительно расширяется кодовое дерево,
которое нужно в конечном итоге сохранять вместе с кодом.
Данные
коды никак не учитывают взаимосвязей между символами, которые присутствуют
практически в любом тексте. Например, если в тексте на английском языке нам
встречается буква q, то мы с уверенностью сможем сказать, что после нее будет
идти буква u.
RLE
Групповое
кодирование - Run Length Encoding (RLE) - один из самых старых и самых простых
алгоритмов архивации. Сжатие в RLE происходит за счет замены цепочек одинаковых
байт на пары "счетчик, значение". («красный, красный, ..., красный» записывается
как «N красных»).
Одна
из реализаций алгоритма такова: ищут наименнее часто встречающийся байт,
называют его префиксом и делают замены цепочек одинаковых символов на тройки
"префикс, счетчик, значение". Если же этот байт встретичается в исходном файле
один или два раза подряд, то его заменяют на пару "префикс, 1" или "префикс, 2".
Остается одна неиспользованная пара "префикс, 0", которую можно использовать как
признак конца упакованных данных.
При
кодировании exe-файлов можно искать и упаковывать последовательности вида
AxAyAzAwAt..., которые часто встречаются в ресурсах (строки в кодировке
Unicode)
К
положительным сторонам алгоритма, можно отнести то, что он не требует
дополнительной памяти при работе, и быстро выполняется. Алгоритм применяется в
форматах РСХ, TIFF, ВМР. Интересная особенность группового кодирования в PCX
заключается в том, что степень архивации для некоторых изображений может быть
существенно повышена всего лишь за счет изменения порядка цветов в палитре
изображения.
LZW
LZW-код
(Lempel-Ziv & Welch) является на сегодняшний день одним из самых
распространенных кодов сжатия без потерь. Именно с помощью LZW-кода
осуществляется сжатие в таких графических форматах, как TIFF и GIF, с помощью
модификаций LZW осуществляют свои функции очень многие универсальные архиваторы.
Работа алгоритма основана на поиске во входном файле повторяющихся
последовательностей символов, которые кодируются комбинациями длиной от 8 до 12
бит. Таким образом, наибольшую эффективность данный алгоритм имеет на текстовых
файлах и на графических файлах, в которых имеются большие одноцветные участки
или повторяющиеся последовательности пикселов.
Отсутствие
потерь информации при LZW-кодировании обусловило широкое распространение
основанного на нем формата TIFF. Этот формат не накладывает каких-либо
ограничений на размер и глубину цвета изображения и широко распространен,
например, в полиграфии. Другой основанный на LZW формат - GIF - более примитивен
- он позволяет хранить изображения с глубиной цвета не более 8 бит/пиксел. В
начале GIF - файла находится палитра - таблица, устанавливающая соответствие
между индексом цвета - числом в диапазоне от 0 до 255 и истинным, 24-битным
значением цвета.
Алгоритмы
сжатия с потерей информации
JPEG
Алгоритм
JPEG был разработан группой фирм под названием Joint Photographic Experts Group.
Целью проекта являлось создание высокоэффективного стандарта сжатия как
черно-белых, так и цветных изображений, эта цель и была достигнута
разработчиками. В настоящее время JPEG находит широчайшее применение там, где
требуется высокая степень сжатия - например, в Internet.
В
отличие от LZW-алгоритма JPEG-кодирование является кодированием с потерями. Сам
алгоритм кодирования базируется на очень сложной математике, но в общих чертах
его можно описать так: изображение разбивается на квадраты 8*8 пикселов, а затем
каждый квадрат преобразуется в последовательную цепочку из 64 пикселов. Далее
каждая такая цепочка подвергается так называемому DCT-преобразованию,
являющемуся одной из разновидностей дискретного преобразования Фурье. Оно
заключается в том, что входную последовательность пикселов можно представить в
виде суммы синусоидальных и косинусоидальных составляющих с кратными частотами
(так называемых гармоник). В этом случае нам необходимо знать лишь амплитуды
этих составляющих для того, чтобы восстановить входную последовательность с
достаточной степенью точности. Чем большее количество гармонических составляющих
нам известно, тем меньше будет расхождение между оригиналом и сжатым
изображением. Большинство JPEG-кодеров позволяют регулировать степень сжатия.
Достигается это очень простым путем: чем выше степень сжатия установлена, тем
меньшим количеством гармоник будет представлен каждый 64-пиксельный
блок.
Безусловно,
сильной стороной данного вида кодирования является большой коэффициент сжатия
при сохранении исходной цветовой глубины. Именно это свойство обусловило его
широкое применение в Internet, где уменьшение размера файлов имеет
первостепенное значение, в мультимедийных энциклопедиях, где требуется хранение
возможно большего количества графики в ограниченном
объеме.
Отрицательным
свойством этого формата является неустранимое никакими средствами, внутренне ему
присущее ухудшение качества изображения. Именно этот печальный факт не позволяет
применять его в полиграфии, где качество ставится во главу
угла.
Однако
формат JPEG не является пределом совершенства в стремлении уменьшить размер
конечного файла. В последнее время ведутся интенсивные исследования в области
так называемого вейвлет-преобразования (или всплеск-преобразования). Основанные
на сложнейших математических принципах вейвлет-кодеры позволяют получить большее
сжатие, чем JPEG, при меньших потерях информации. Несмотря на сложность
математики вейвлет-преобразования, в программной реализации оно проще, чем JPEG.
Хотя алгоритмы вейвлет-сжатия пока находятся в начальной стадии развития, им
уготовано большое будущее.
Фрактальное
сжатие
Фрактальное
сжатие изображений — это алгоритм сжатия изображений c потерями, основанный на
применении систем итерируемых функций (IFS, как правило являющимися аффинными
преобразованиями) к изображениям. Данный алгоритм известен тем, что в некоторых
случаях позволяет получить очень высокие коэффициенты сжатия (лучшие примеры —
до 1000 раз при приемлемом визуальном качестве) для реальных фотографий
природных объектов, что недоступно для других алгоритмов сжатия изображений в
принципе. Из-за сложной ситуации с патентованием широкого распространения
алгоритм не получил.
Фрактальная
архивация основана на том, что с помощью коэффициентов системы итерируемых
функций изображение представляется в более компактной форме. Прежде чем
рассматривать процесс архивации, разберем, как IFS строит
изображение.
Строго
говоря, IFS - это набор трехмерных аффинных преобразований, переводящих одно
изображение в другое. Преобразованию подвергаются точки в трехмерном
пространстве (x координата, у координата, яркость).
Основа
метода фрактального кодирования — это обнаружение самоподобных участков в
изображении. Впервые возможность применения теории систем итерируемых функций
(IFS) к проблеме сжатия изображения была исследована Майклом Барнсли и Аланом
Слоуном. Они запатентовали свою идею в 1990 и 1991 гг. Джеквин (Jacquin)
представил метод фрактального кодирования, в котором используются системы
доменных и ранговых блоков изображения (domain and range subimage blocks),
блоков квадратной формы, покрывающих все изображение. Этот подход стал основой
для большинства методов фрактального кодирования, применяемых сегодня. Он был
усовершенствован Ювалом Фишером (Yuval Fisher) и рядом других
исследователей.
В
соответствии с данным методом изображение разбивается на множество
неперекрывающихся ранговых подизображений (range subimages) и определяется
множество перекрывающихся доменных подизображений (domain subimages). Для
каждого рангового блока алгоритм кодирования находит наиболее подходящий
доменный блок и аффинное преобразование, которое переводит этот доменный блок в
данный ранговый блок. Структура изображения отображается в систему ранговых
блоков, доменных блоков и преобразований.
Идея
заключается в следующем: предположим, что исходное изображение является
неподвижной точкой некоего сжимающего отображения. Тогда можно вместо самого
изображения запомнить каким-либо образом это отображение, а для восстановления
достаточно многократно применить это отображение к любому стартовому
изображению.
По
теореме Банаха, такие итерации всегда приводят к неподвижной точке, то есть к
исходному изображению. На практике вся трудность заключается в отыскании по
изображению наиболее подходящего сжимающего отображения и в компактном его
хранении. Как правило, алгоритмы поиска отображения (то есть алгоритмы сжатия) в
значительной степени переборные и требуют больших вычислительных затрат. В то же
время, алгоритмы восстановления достаточно эффективны и
быстры.
Вкратце
метод, предложенный Барнсли, можно описать следующим образом. Изображение
кодируется несколькими простыми преобразованиями (в нашем случае аффинными), то
есть определяется коэффициентами этих преобразований (в нашем случае A, B, C, D,
E, F).
Например,
изображение кривой Коха можно закодировать четырмя аффинными преобразованиями,
мы однозначно определим его с помощью всего 24-х
коэффициентов.
Далее,
поставив чёрную точку в любой точке картинки, мы будем применять наши
преобразования в случайном порядке некоторое (достаточно большое) число раз
(этот метод ещё называют фрактальный пинг-понг).
В
результате точка обязательно перейдёт куда-то внутрь чёрной области на исходном
изображении. Проделав такую операцию много раз, мы заполним все чёрное
пространство, тем самым восстановив картинку.
Наиболее
известны два изображения, полученных с помощью IFS: треугольник Серпинского и
папоротник Барнсли. Первое задается тремя, а второе - пятью аффинными
преобразованиями (или, в нашей терминологии, линзами). Каждое преобразование
задается буквально считанными байтами, в то время как изображение, построенное с
их помощью, может занимать и несколько мегабайт.
Становится
понятно, как работает архиватор, и почему ему требуется так много времени.
Фактически, фрактальная компрессия - это поиск самоподобных областей в
изображении и определение для них параметров аффинных
преобразований.
В
худшем случае, если не будет применяться оптимизирующий алгоритм, потребуется
перебор и сравнение всех возможных фрагментов изображения разного размера. Даже
для небольших изображений при учете дискретности мы получим астрономическое
число перебираемых вариантов. Даже резкое сужение классов преобразований,
например, за счет масштабирования только в определенное число раз, не позволит
добиться приемлемого времени. Кроме того, при этом теряется качество
изображения. Подавляющее большинство исследований в области фрактальной
компрессии сейчас направлены на уменьшение времени архивации, необходимого для
получения качественного изображения.
Для
фрактального алгоритма компрессии, как и для других алгоритмов сжатия с
потерями, очень важны механизмы, с помощью которых можно будет регулировать
степень сжатия и степень потерь. К настоящему времени разработан достаточно
большой набор таких методов. Во-первых, можно ограничить количество
преобразований, заведомо обеспечив степень сжатия не ниже фиксированной
величины. Во-вторых, можно потребовать, чтобы в ситуации, когда разница между
обрабатываемым фрагментом и наилучшим его приближением будет выше определенного
порогового значения, этот фрагмент дробился обязательно (для него обязательно
заводится несколько линз). В-третьих, можно запретить дробить фрагменты размером
меньше, допустим, четырех точек. Изменяя пороговые значения и приоритет этих
условий, можно очень гибко управлять коэффициентом компрессии изображения: от
побитного соответствия, до любой степени сжатия.
Сравнение
с JPEG
Сегодня
наиболее распространенным алгоритмом архивации графики является JPEG. Сравним
его с фрактальной компрессией.
Во-первых,
заметим, что и тот, и другой алгоритм оперируют 8-битными (в градациях серого) и
24-битными полноцветными изображениями. Оба являются алгоритмами сжатия с
потерями и обеспечивают близкие коэффициенты архивации. И у фрактального
алгоритма, и у JPEG существует возможность увеличить степень сжатия за счет
увеличения потерь. Кроме того, оба алгоритма очень хорошо
распараллеливаются.
Различия
начинаются, если мы рассмотрим время, необходимое алгоритмам для
архивации/разархивации. Так, фрактальный алгоритм сжимает в сотни и даже в
тысячи раз дольше, чем JPEG. Распаковка изображения, наоборот, произойдет в 5-10
раз быстрее. Поэтому, если изображение будет сжато только один раз, а передано
по сети и распаковано множество раз, то выгодней использовать фрактальный
алгоритм.
JPEG
использует разложение изображения по косинусоидальным функциям, поэтому потери в
нем (даже при заданных минимальных потерях) проявляются в волнах и ореолах на
границе резких переходов цветов. Именно за этот эффект его не любят использовать
при сжатии изображений, которые готовят для качественной печати: там этот эффект
может стать очень заметен.
Фрактальный
алгоритм избавлен от этого недостатка. Более того, при печати изображения каждый
раз приходится выполнять операцию масштабирования, поскольку растр (или
линиатура) печатающего устройства не совпадает с растром изображения. При
преобразовании также может возникнуть несколько неприятных эффектов, с которыми
можно бороться либо масштабируя изображение программно (для дешевых устройств
печати типа обычных лазерных и струйных принтеров), либо снабжая устройство
печати своим процессором, винчестером и набором программ обработки изображений
(для дорогих фотонаборных автоматов). Как можно догадаться, при использовании
фрактального алгоритма таких проблем практически не
возникает.
Вытеснение
JPEG фрактальным алгоритмом в повсеместном использовании произойдет еще не скоро
(хотя бы в силу низкой скорости архивации последнего), однако в области
приложений мультимедиа, в компьютерных играх его использование вполне
оправдано.