Способ с потерей информации

Содержание
  1. Двадцать способов потерять свои данные
  2. 1. Пренебрежение резервным копированием
  3. 2. Ошибки при использовании утилит
  4. 3. Пренебрежение сигналами о неисправности
  5. 4. Внезапное зависание операционной системы
  6. 5. Действия злоумышленников
  7. 6. Вирусы
  8. 7. «Случайное» форматирование
  9. 8. Физические повреждения
  10. 9. Повреждение считывающей головки жесткого диска
  11. 10. Неисправность секторов жесткого диска
  12. 11. Повторяющиеся сообщения об ошибке S.M.A.R.T.
  13. 12. Сбой питания
  14. 13. Повреждение служебной программы жесткого диска
  15. 14. Форс-мажор
  16. 15. Длительное использование флешки
  17. 16. Неправильное извлечение устройства
  18. 17. Статическое электричество
  19. 18. Человеческий фактор
  20. 19. Намеренное уничтожение
  21. 20. Закрытие несохраненного файла
  22. Сжатие информации без потерь. Часть первая
  23. Сжатие. Нужно ли оно в наше время?
  24. Универсальные методы сжатия без потерь
  25. Кодирование без памяти
  26. Алгоритм Хаффмана
  27. Заключение

Двадцать способов потерять свои данные

С потерей данных я впервые столкнулся, когда лишился своей коллекции тщательно отредактированных переводов любимой книги во время банальной переустановки ОС. Это было очень давно, однако воспоминания о часах кропотливого труда, потраченного на доведение до ума нескольких миллионов знаков текста до сих пор не дают мне покоя. Тогда ещё не было различных облачных технологий типа дропбокса, поэтому потеря оказалась практически невосполнимой. Конечно, не всё и не всегда так трагично – если сам носитель всё ещё есть в наличии, потерянные данные можно восстановить. Эх, знал бы, где упаду…

Поэтому я решил, что правильнее всего будет посвятить свой первый пост в блоге компании, занимающейся восстановлением данных тому, как эти данные чаще всего теряются. Итак, вашему вниманию представляется топ-20 причин, по которым юзеры обычно остаются без своей драгоценной информации. Даже если вы гуру системного администрирования, например, освежить азы будет не лишним — чтобы соломку подстелить.

1. Пренебрежение резервным копированием

Резервное копирование данных нужно проводить регулярно, а также – в обязательном порядке перед любыми манипуляциями с системой. При этом даже опытные админы допускают ошибки, сохраняя бэкап данных на тот же физический диск или raid массив, или на другой носитель, который находится в том же месте (в одном системном блоке 2 винчестера), не проверяя архивы бэкапа (иногда архивы оказываются поврежденными, непригодными для развертывания). Это поможет избежать сразу больше половины причин потери данных, перечисленных в этой статье.

2. Ошибки при использовании утилит

Попытка восстановить испорченные или утерянные данные при помощи предназначенного для этого софта – идея неплохая. Однако применение таких софтин возможно только при условии, что сам носитель исправен. В противном случае, можно сделать только хуже или потерять данные уже навсегда. К губительным случаям использования утилит также относятся:

  1. запуск на исправном носителе программ для тестирования диска
  2. попытки расширить или объединить логические разделы, конвертировать файловую систему
  3. установка софта при восстановлении данных после переустановки системы на тот же носитель, сохранение результатов сканирования на тот же диск.

3. Пренебрежение сигналами о неисправности

Если диск щелкает или система зависает/выпадает в синий экран, то вероятнее всего он таким образом прощается с вами – лучше сразу перенести с него все данные, если успеете.

4. Внезапное зависание операционной системы

Раньше это был бич божий, сейчас программы сами после сбоя системы восстанавливают последний сохранённый вариант документа. Windows, Mac OS, Linux – любая ось может в какой-то момент «крякнуться» и потерять несохранённые данные. При этом данные пользователя, файлы на диске, как правило, остаются целы.

5. Действия злоумышленников

Атака хакеров — не самый распространенный способ потерять свои данные — грозит не каждому: для начала вам нужно, всё же, чем-то заинтересовать хакеров. Самый частый случай такой атаки — взлом компьютера главбуха с банк клиентом, перевод всех денег со счетов фирмы, последующее стирание или шифрование носителя.

6. Вирусы

Вирусы могут либо начать удалять ваши файлы один за другим, либо просто порушить файловую систему жесткого диска. Список советов, чтобы избежать этой ситуации, достаточно чёткий:

  • Не открывайте незнакомые ссылки, даже присланные друзьями
  • Внимательно проверяйте адрес, с которого приходит почта, содержащая ссылки
  • Пользуйтесь антивирусами и сетевыми экранами
  • Создайте на компьютере пользователя без прав администратора и работайте под ним; если надо будет что-то установить, просто перелогиньтесь
  • Больше всего вирусов на порно-сайтах и сайтах, предлагающих нелицензионное ПО и медиа-файлы
  • Пользуйтесь альтернативными браузерами, большинство вирусов рассчитано на самые популярные интернет-обозреватели

7. «Случайное» форматирование

Такое бывает, когда форматирование запускаешь, ошибившись диском. Когда на диске повреждена файловая система (в основном FAT 32) и ОС предлагает отформатировать устройство, когда запускают раздел восстановления на ноутбуке (получается переустановка системы, форматирование с перезаписью данных). После этого – если не использовать диск, а сразу обратиться к специалисту, данные ещё можно восстановить.

8. Физические повреждения

Жесткий диск умирает по разным причинам. Его можно уронить, залить чем-нибудь, перегреть, заморозить или придумать более хитроумный способ его уничтожить. Вот только некоторые, из наиболее часто встречающихся:

  1. Утопление ноутбука в ванне или на море
  2. Залитие напитками
  3. Внешний диск уронили, зацепив за провод
  4. Стирка в машинке флешки или сотового телефона
  5. Перегрев диска в дешевом корпусе.
  6. торчащая наружу флэшка — её, как правило, заденут и сломают
  7. перегрев накрытых внешних дисков в результате длительной нагрузки
  8. Как бы то ни было, информацию с поврежденного носителя сможет восстановить только специалист, так как восстановить механику диска в домашних условиях практически невозможно. Первым из строя выходит блок магнитных головок.

9. Повреждение считывающей головки жесткого диска

Расстояние между считывающей головкой и самим диском – микроскопическое, поддерживается исключительно набегающим потоком воздуха. Поэтому малейшая пылинка или песчинка, попавшая внутрь, рушит диск. Именно поэтому разбирать диск самому и пытаться починить не нужно: специалисты разбирают-собирают их в специальной чистой комнате или ламинарном боксе, чтобы исключить попадание частиц пыли внутрь устройства, где все манипуляции с жестким диском проводятся в обеспыленном пространстве. Более того, должны соблюдаться другие условия: предварительная очистка внешних поверхностей диска, чтоб пыль и грязь с корпуса не попала внутрь после вскрытия, антистатическое покрытие, специальная одежда, чтобы частицы кожи, ворсинки одежды специалиста так же не попали внутрь.

10. Неисправность секторов жесткого диска

Если данные оказались в неисправном кластере (секторе) диска, они могут быть утеряны. При помощи разметки диска неисправные кластеры можно отсечь. Этот процесс скрытия бэдов (неисправных кластеров) называется переназначением секторов, в процессе выполнения которого все данные на диске безвозвратно уничтожаются, так как происходит полная перезапись поверхности пластин. Как правило, появление бэд блоков происходит со временем с каждым жестким диском в той или иной степени по мере износа механики диска, перегрева, т.е. это первые признаки его скорого выхода из строя.

Читайте также:  Способ длительного хранения мяса

11. Повторяющиеся сообщения об ошибке S.M.A.R.T.

Это не причина, это – важный знак: если его игнорировать, данные можно потерять. Поэтому если такое сообщение регулярно всплывает при загрузке компьютера, лучше файлы забэкапить, а для жесткого диска рекомендуется в этом случае проверка «SMART» (Self-Monitoring, Analysis and Reporting Technology), которая записана на самом жестком диске.

12. Сбой питания

Это одна из частых причин потери данных: при резком выключении, головки жесткого диска не успевают запарковаться, что приводит царапинам или поломке диска — в результате, несохраненные файлы теряются, а те, которые ранее были сохранены, могут быть повреждены. Не редкость выход всего компьютера из строя при внезапном увеличении напряжения в электропитающей сети: при скачках напряжения обычно выгорает железо — электроника жесткого диска, raid-контроллер массива, контроллер флешки. Можно использовать UPS чтобы предотвратить потерю данных таким способом.

13. Повреждение служебной программы жесткого диска

Встроенное программное обеспечение, которое хранится на самом жестком диске, обрабатывает различные задачи устройства. При его повреждении, операционная система не может увидеть или начать работу с диском. Чинить это можно, но дорого. А предусмотреть – сложно. Поэтому против этого лома нет другого приёма, кроме старого доброго резервного копирования. Абсолютно надежных жестких дисков пока не изобрели, Из того, что есть в продаже, можно порекомендовать топовые модели жестких дисков Westen Digital Caviar Black RE4 и Hitachi. Среди дисков для ноутбуков формата 2,5” вообще нельзя выделить более или менее надежные модели.

14. Форс-мажор

Среди самых распространенных для центрального региона России и Москвы форс-мажорных обстоятельств утери данных являются прорыв водопроводных труб (или прорыв батареи отопления, что актуально зимой), пожар, неисправность кондиционера в серверной. Часто приносят утопленные во время отпуска в море ноутбуки.

15. Длительное использование флешки

Флешка не является особо надёжным носителем и конструктивно рассчитана на определенное циклов записи\чтения. Поэтому постоянно работать на ней или хранить свои файлы – не рекомендуется. Очень часто, например, бухгалтеры постоянно работают «на флешке» на работе и дома. Рано или поздно флешка, исчерпав циклы записи, откажет. Кстати, новые флешки имеют гораздо меньший ресурс из-за большей плотности записи.

16. Неправильное извлечение устройства

Карты памяти лучше извлекать при выключенном устройстве, а флешки перед извлечением нужно «остановить». Конечно, если это не соблюдать регулярно, можно какое-то время и не замечать, что что-то происходит. Однако, если в операционной системе включено кэширование данных, так называемая отложенная запись, файлы на флешку записываются не сразу. При небезопасном извлечении можно выдернуть флешку во время записи и потерять данные. Помимо сбоя файловой системы также высока вероятность выхода из строя контроллера.

17. Статическое электричество

Хотя флешки и карты памяти изначально планировались как достаточно мобильные носители информации, любая манипуляция с ними может привести к повреждению данных. Статическое электричество может дать разряд до 3000 вольт, а для того, чтобы испортить электронику и повредить данные – достаточно и 12В. И хотя флешки достаточно надёжно защищены пластиком, такой вариант потери данных тоже может иметь место — поэтому нельзя браться пальцами за контакты карт памяти, ssd-дисков. К примеру, в картах памяти CF(Compact Flash) можно таким образом случайно повредить тонкие контакты на фотоаппарате. А фотографии из фотоаппарата желательно переносить на компьютер по usb, не извлекая саму карту.

18. Человеческий фактор

Конечно, это определение подходит ко многим из вышеописанных ситуаций, но всё же страсть к самостоятельному решению проблем иногда бывает не совсем уместна. Самостоятельные попытки восстановить уничтоженные файлы почти всегда приводят к повреждению магнитных пластин, блока головок, загрязнению, удорожанию стоимости восстановления информации, иногда — к принципиальной невозможности снять данные. Однако поскольку эта причина потери данных – одна из самых распространенных, существует специальный софт, который ваши данные восстановит. Пожалуй, лучший совет, который здесь можно дать – выключите компьютер, и обратитесь к специалисту. Если, всё же, решитесь воспользоваться специальными утилитами, то восстанавливайте данные на другой носитель или, как минимум, раздел – иначе данные можно потерять совсем.

19. Намеренное уничтожение

Такое бывает, если файл сознательно удалить, почистить корзину, или сразу сделать shift-delete, а потом передумать и захотеть его обратно. Для восстановления таких файлов существуют специальные утилиты. Главное в этой ситуации не допустить перезаписи и не пользоваться устройством.Хотя, конечно, если информация вам действительно нужна, лучше доверить восстановление профессионалам, тем более, что это не самый дорогой случай восстановления данных и восстановить их можно практически гарантированно.

20. Закрытие несохраненного файла

Закрыть файл не сохраняя – действие весьма продуманное, на первый взгляд, потому что как минимум нужно подтвердить своё намерение. Однако это тоже нередко случается. Как правило, файл можно сразу вытянуть из папки temp руками.

Источник

Сжатие информации без потерь. Часть первая

Доброго времени суток.
Сегодня я хочу коснуться темы сжатия данных без потерь. Несмотря на то, что на хабре уже были статьи, посвященные некоторым алгоритмам, мне захотелось рассказать об этом чуть более подробно.
Я постараюсь давать как математическое описание, так и описание в обычном виде, для того, чтобы каждый мог найти для себя что-то интересное.

В этой статье я коснусь фундаментальных моментов сжатия и основных типов алгоритмов.

Сжатие. Нужно ли оно в наше время?

Разумеется, да. Конечно, все мы понимаем, что сейчас нам доступны и носители информации большого объема, и высокоскоростные каналы передачи данных. Однако, одновременно с этим растут и объемы передаваемой информации. Если несколько лет назад мы смотрели 700-мегабайтные фильмы, умещающиеся на одну болванку, то сегодня фильмы в HD-качестве могут занимать десятки гигабайт.
Конечно, пользы от сжатия всего и вся не так много. Но все же существуют ситуации, в которых сжатие крайне полезно, если не необходимо.

  • Пересылка документов по электронной почте (особенно больших объемов документов с использованием мобильных устройств)
  • При публикации документов на сайтах, потребность в экономии трафика
  • Экономия дискового пространства в тех случаях, когда замена или добавление средств хранения затруднительно. Например, подобное бывает в тех случаях, когда выбить бюджет под капитальные расходы непросто, а дискового пространства не хватает
Читайте также:  Способы управления продажам это

Конечно, можно придумать еще множество различных ситуаций, в которых сжатие окажется полезным, но нам достаточно и этих нескольких примеров.

Все методы сжатия можно разделить на две большие группы: сжатие с потерями и сжатие без потерь. Сжатие без потерь применяется в тех случаях, когда информацию нужно восстановить с точностью до бита. Такой подход является единственно возможным при сжатии, например, текстовых данных.
В некоторых случаях, однако, не требуется точного восстановления информации и допускается использовать алгоритмы, реализующие сжатие с потерями, которое, в отличие от сжатия без потерь, обычно проще реализуется и обеспечивает более высокую степень архивации.

Сжатие с потерями
Лучшие степени сжатия, при сохранении «достаточно хорошего» качества данных. Применяются в основном для сжатия аналоговых данных — звука, изображений. В таких случаях распакованный файл может очень сильно отличаться от оригинала на уровне сравнения «бит в бит», но практически неотличим для человеческого уха или глаза в большинстве практических применений.
Сжатие без потерь
Данные восстанавливаются с точностью до бита, что не приводит к каким-либо потерям информации. Однако, сжатие без потерь показывает обычно худшие степени сжатия.

Итак, перейдем к рассмотрению алгоритмов сжатия без потерь.

Универсальные методы сжатия без потерь

В общем случае можно выделить три базовых варианта, на которых строятся алгоритмы сжатия.
Первая группа методов – преобразование потока. Это предполагает описание новых поступающих несжатых данных через уже обработанные. При этом не вычисляется никаких вероятностей, кодирование символов осуществляется только на основе тех данных, которые уже были обработаны, как например в LZ – методах (названных по имени Абрахама Лемпеля и Якоба Зива). В этом случае, второе и дальнейшие вхождения некой подстроки, уже известной кодировщику, заменяются ссылками на ее первое вхождение.

Вторая группа методов – это статистические методы сжатия. В свою очередь, эти методы делятся на адаптивные (или поточные), и блочные.
В первом (адаптивном) варианте, вычисление вероятностей для новых данных происходит по данным, уже обработанным при кодировании. К этим методам относятся адаптивные варианты алгоритмов Хаффмана и Шеннона-Фано.
Во втором (блочном) случае, статистика каждого блока данных высчитывается отдельно, и добавляется к самому сжатому блоку. Сюда можно отнести статические варианты методов Хаффмана, Шеннона-Фано, и арифметического кодирования.

Третья группа методов – это так называемые методы преобразования блока. Входящие данные разбиваются на блоки, которые затем трансформируются целиком. При этом некоторые методы, особенно основанные на перестановке блоков, могут не приводить к существенному (или вообще какому-либо) уменьшению объема данных. Однако после подобной обработки, структура данных значительно улучшается, и последующее сжатие другими алгоритмами проходит более успешно и быстро.

Общие принципы, на которых основано сжатие данных

Все методы сжатия данных основаны на простом логическом принципе. Если представить, что наиболее часто встречающиеся элементы закодированы более короткими кодами, а реже встречающиеся – более длинными, то для хранения всех данных потребуется меньше места, чем если бы все элементы представлялись кодами одинаковой длины.
Точная взаимосвязь между частотами появления элементов, и оптимальными длинами кодов описана в так называемой теореме Шеннона о источнике шифрования(Shannon’s source coding theorem), которая определяет предел максимального сжатия без потерь и энтропию Шеннона.

Немного математики

Если вероятность появления элемента si равна p(si), то наиболее выгодно будет представить этот элемент — log2p(si) битами. Если при кодировании удается добиться того, что длина всех элементов будет приведена к log2p(si) битам, то и длина всей кодируемой последовательности будет минимальной для всех возможных методов кодирования. При этом, если распределение вероятностей всех элементов F = i)> неизменно, и вероятности элементов взаимно независимы, то средняя длина кодов может быть рассчитана как

Это значение называют энтропией распределения вероятностей F, или энтропией источника в заданный момент времени.
Однако обычно вероятность появления элемента не может быть независимой, напротив, она находится в зависимости от каких-то факторов. В этом случае, для каждого нового кодируемого элемента si распределение вероятностей F примет некоторое значение Fk, то есть для каждого элемента F= Fk и H= Hk.

Иными словами, можно сказать, что источник находится в состоянии k, которому соответствует некий набор вероятностей pk(si) для всех элементов si.

Поэтому, учитывая эту поправку, можно выразить среднюю длину кодов как

Где Pk — вероятность нахождения источника в состоянии k.

Итак, на данном этапе мы знаем, что сжатие основано на замене часто встречающихся элементов короткими кодами, и наоборот, а так же знаем, как определить среднюю длину кодов. Но что же такое код, кодирование, и как оно происходит?

Кодирование без памяти

Коды без памяти являются простейшими кодами, на основе которых может быть осуществлено сжатие данных. В коде без памяти каждый символ в кодируемом векторе данных заменяется кодовым словом из префиксного множества двоичных последовательностей или слов.
На мой взгляд, не самое понятное определение. Рассмотрим эту тему чуть более подробно.

Пусть задан некоторый алфавит , состоящий из некоторого (конечного) числа букв. Назовем каждую конечную последовательность символов из этого алфавита (A=a1, a2,… ,an) словом, а число n — длиной этого слова.

Пусть задан также другой алфавит. Аналогично, обозначим слово в этом алфавите как B.

Введем еще два обозначения для множества всех непустых слов в алфавите. Пусть — количество непустых слов в первом алфавите, а — во втором.

Пусть также задано отображение F, которое ставит в соответствие каждому слову A из первого алфавита некоторое слово B=F(A) из второго. Тогда слово B будет называться кодом слова A, а переход от исходного слова к его коду будет называться кодированием.

Поскольку слово может состоять и из одной буквы, то мы можем выявить соответствие букв первого алфавита и соответствующих им слов из второго:
a1 B1
a2 B2

an Bn

Читайте также:  Кессонная болезнь способы предотвращения

Это соответствие называют схемой, и обозначают ∑.
В этом случае слова B1, B2,…, Bn называют элементарными кодами, а вид кодирования с их помощью — алфавитным кодированием. Конечно, большинство из нас сталкивались с таким видом кодирования, пусть даже и не зная всего того, что я описал выше.

Итак, мы определились с понятиями алфавит, слово, код, и кодирование. Теперь введем понятие префикс.

Пусть слово B имеет вид B=B’B». Тогда B’ называют началом, или префиксом слова B, а B» — его концом. Это довольно простое определение, но нужно отметить, что для любого слова B, и некое пустое слово ʌ («пробел»), и само слово B, могут считаться и началами и концами.

Итак, мы подошли вплотную к пониманию определения кодов без памяти. Последнее определение, которое нам осталось понять — это префиксное множество. Схема ∑ обладает свойством префикса, если для любых 1≤i, j≤r, i≠j, слово Bi не является префиксом слова Bj.
Проще говоря, префиксное множество – это такое конечное множество, в котором ни один элемент не является префиксом (или началом) любого другого элемента. Простым примером такого множества является, например, обычный алфавит.

Итак, мы разобрались с основными определениями. Так как же происходит само кодирование без памяти?
Оно происходит в три этапа.

  1. Составляется алфавит Ψ символов исходного сообщения, причем символы алфавита сортируются по убыванию их вероятности появления в сообщении.
  2. Каждому символу ai из алфавита Ψ ставится в соответствие некое слово Bi из префиксного множества Ω.
  3. Осуществляется кодирование каждого символа, с последующим объединением кодов в один поток данных, который будет являться результатам сжатия.

Одним из канонических алгоритмов, которые иллюстрируют данный метод, является алгоритм Хаффмана.

Алгоритм Хаффмана

Алгоритм Хаффмана использует частоту появления одинаковых байт во входном блоке данных, и ставит в соответствие часто встречающимся блокам цепочки бит меньшей длины, и наоборот. Этот код является минимально – избыточным кодом. Рассмотрим случай, когда, не зависимо от входного потока, алфавит выходного потока состоит из всего 2 символов – нуля и единицы.

В первую очередь при кодировании алгоритмом Хаффмана, нам нужно построить схему ∑. Делается это следующим образом:

  1. Все буквы входного алфавита упорядочиваются в порядке убывания вероятностей. Все слова из алфавита выходного потока (то есть то, чем мы будем кодировать) изначально считаются пустыми (напомню, что алфавит выходного потока состоит только из символов <0,1>).
  2. Два символа aj-1 и aj входного потока, имеющие наименьшие вероятности появления, объединяются в один «псевдосимвол» с вероятностью p равной сумме вероятностей входящих в него символов. Затем мы дописываем 0 в начало слова Bj-1, и 1 в начало слова Bj, которые будут впоследствии являться кодами символов aj-1 и aj соответственно.
  3. Удаляем эти символы из алфавита исходного сообщения, но добавляем в этот алфавит сформированный псевдосимвол (естественно, он должен быть вставлен в алфавит на нужное место, с учетом его вероятности).

Шаги 2 и 3 повторяются до тех пор, пока в алфавите не останется только 1 псевдосимвол, содержащий все изначальные символы алфавита. При этом, поскольку на каждом шаге и для каждого символа происходит изменение соответствующего ему слова Bi (путем добавление единицы или нуля), то после завершения этой процедуры каждому изначальному символу алфавита ai будет соответствовать некий код Bi.

Для лучшей иллюстрации, рассмотрим небольшой пример.
Пусть у нас есть алфавит, состоящий из всего четырех символов — < a1, a2, a3, a4>. Предположим также, что вероятности появления этих символов равны соответственно p1=0.5; p2=0.24; p3=0.15; p4=0.11 (сумма всех вероятностей, очевидно, равна единице).

Итак, построим схему для данного алфавита.

  1. Объединяем два символа с наименьшими вероятностями (0.11 и 0.15) в псевдосимвол p’.
  2. Удаляем объединенные символы, и вставляем получившийся псевдосимвол в алфавит.
  3. Объединяем два символа с наименьшей вероятностью (0.24 и 0.26) в псевдосимвол p».
  4. Удаляем объединенные символы, и вставляем получившийся псевдосимвол в алфавит.
  5. Наконец, объединяем оставшиеся два символа, и получаем вершину дерева.

Если сделать иллюстрацию этого процесса, получится примерно следующее:


Как вы видите, при каждом объединении мы присваиваем объединяемым символам коды 0 и 1.
Таким образом, когда дерево построено, мы можем легко получить код для каждого символа. В нашем случае коды будут выглядить так:

Поскольку ни один из данных кодов не является префиксом какого-нибудь другого (то есть, мы получили пресловутое префиксное множество), мы можем однозначно определить каждый код в выходном потоке.
Итак, мы добились того, что самый частый символ кодируется самым коротким кодом, и наоборот.
Если предположить, что изначально для хранения каждого символа использовался один байт, то можно посчитать, насколько нам удалось уменьшить данные.

Пусть на входу у нас была строка из 1000 символов, в которой символ a1 встречался 500 раз, a2 — 240, a3 — 150, и a4 — 110 раз.

Изначально данная строка занимала 8000 бит. После кодирования мы получим строку длинной в ∑pili = 500 * 1 + 240 * 2 + 150 * 3 + 110 * 3 = 1760 бит. Итак, нам удалось сжать данные в 4,54 раза, потратив в среднем 1,76 бита на кодирование каждого символа потока.

Напомню, что согласно Шеннону, средняя длина кодов составляет . Подставив в это уравнение наши значения вероятностей, мы получим среднюю длину кодов равную 1.75496602732291, что весьма и весьма близко к полученному нами результату.
Тем не менее, следует учитывать, что помимо самих данных нам необходимо хранить таблицу кодировки, что слегка увеличит итоговый размер закодированных данных. Очевидно, что в разных случаях могут с использоваться разные вариации алгоритма – к примеру, иногда эффективнее использовать заранее заданную таблицу вероятностей, а иногда – необходимо составить ее динамически, путем прохода по сжимаемым данным.

Заключение

Итак, в этой статье я постарался рассказать об общих принципах, по которым происходит сжатие без потерь, а также рассмотрел один из канонических алгоритмов — кодирование по Хаффману.
Если статья придется по вкусу хабросообществу, то я с удовольствием напишу продолжение, так как есть еще множество интересных вещей, касающихся сжатия без потерь; это как классические алгоритмы, так и предварительные преобразования данных (например, преобразование Барроуза-Уилира), ну и, конечно, специфические алгоритмы для сжатия звука, видео и изображений (самая, на мой взгляд, интересная тема).

Источник

Оцените статью
Разные способы