shedevr.org.ru

HoRRoR

Давно я хотел написать доку по алгоритмам сжатии, и просьбы в теме раздела PSX побудила меня выложить свои "труды" Smile

Заодно и опишу для новичков алгоритм определения структуры архива...

--

Вот я и решил написать свою первую доку Smile

. За неимением такового опыта могу упустить некоторые моменты и допустить ошибки, так что строго не судите. Решил я написать повесть о всеми любимом алгоритме сжатия (все - это разработчики Smile

). Итак, начнём.

Как известно, все стремятся что-то экономить, будь то деньги, материалы или же свободное место в РОМе. Ведь экономя место, разработчики экономят те самые денежки, порой так извращаясь, что сам Лемпель бы в гробу перевернулся Smile

А нам, горе-ромхакерам, приходиться всю эту кашу разгребать. Конечно, хорошо знать такую штутку, как ассемблер, тогда всё нипочём - посмотрел процедуру распаковки, написал прогу и усё (хотя порой таким способом не так уж просто разобрать даже простейшие алгоритмы). Но что же делать, если мы ентого самого ассемблера не знаем? Да и при знаниях можно убить кучу времени на изучение процедуры, так её и не поняв.

Начнём с самого простого, как же нам найти место с графикой или текстом? Для этого существует древний, как мир (ну или почти как мир Smile

), способ - просто поганить блоками файл и смотреть на изменения, если данные исказились - значит они находятся в данном блоке. Для этих целей прекрасно подойдёт программа Vitrual_Killer'а Поганка, или её модифицированный римейк от BHLady. Если запакован именно текст, то можно поскать часть самой первой фразы или же самое редко встречающееся слово, например, состоящие только из больших букв (обычно в LZ77-подобных алгоритмах первые фразы не попадают под паковку, наполняя буфер, а слова из букв большого регистра встречаются редко, поэтому тоже не пакуются).
Второй способ более простой, но требует определённых навыков. Просто берём дебаггер, ждём, пока появится нужная картинка/фраза, идём в память, ищем её там и ставим бряк либо на запись в то место, либо на условие равенства того места текущему значению. Перезапускаем игру и когда брякнется либо анализируем код, ища присвоение исходного адреса, либо же просто идём и смотрим по адресам всех регистов, значения которых в пределах адресного пространства РОМа данной платформы. Описывать подробно этот способ я не буду, т.к. у тех, кто знаком с дебагом, вопросов не возникнет Smile

В общем, ипровизируем Wink

Ромхакинг по сути и есть импровизация...

Ну, точное расположение начала архива мы установили. Теперь открываем файл в hex-редакторе(тем, кто не знает, что это такое, просьба покинуть помещение Smile

), переходим по узнанному нами адресу. А теперь я объясню принципы сжатия на простых примерах.

----

LZ77

Основой этого алгоритма является замена повторяющихся блоков байт на один или несколько байт, в которых просто содержится информация о том, откуда и сколько байт повторить. Т.е. вместо повторяющегося блока будет просто пара байт, которые указывают на такой же блок и говорят его длину.

Рассмотрим это на примере:

{xx} - байт в hex-счислении.

Незапакованный текст:
Этот_текст_запакован_LZ77_алгоритмом._Этот_запакован.

Запакованный текст:
{35}{00}{FF}Этот_тек{FF}ст_запак{FF}ован_LZ7{FF}7_алгори{3F}тмом._{26}{05}{20}{09}{01}.

Теперь распакуем этот текст:
1. Читаем первые два байта. {35}{00} - это размер запакованного файла. Он нужен для того, чтобы не распаковать лишнего и вовремя остановиться. В большинестве случаев байты читаем задом наперёд - это особенности процесора и нужно это для того, чтобы было легче преобразовывать типы данных друг в друга. Но сейчас не об этом.
2. Читаем "управляющий" байт. В нашем случае он равен {FF}.
3. Разбираем его по битам: 11111111. В нашем случае 1 значит просто считать в буфер распаковки один байт, а 0 - считать командный байт(о нём чуть позже).
1 - читаем "Э"
1 - читаем "т"
...
1 - читаем "к"
Командный байт кончился, читаем следующий(GoTo 2)
---
Так доходим до {3F}. Разберём его по битам: 00111111.
Что делать с еденицами мы знаем. Что же делать с нулями? Вот тут-то вот и проявляется сжатие. Если мы наталкиваемся на 0, то нам надо прочитать не символ, а командные байт. В нашем случае их два - один отвечает за отсылку назад(у нас она будет исчисляться в байтах), а другой - за количество считываемых байт. У нас это {26} и {05}. 26(hex)=38(dec). Наш буфер: "Этот_текст_запакован_LZ77_алгоритмом._". Возвращаемся от текущей позиции на 38 символов назад: "Этот_текст_запакован_LZ77_алгоритмом._". И читаем 5 байт(05 hex=5 dec) подряд:
"[Этот_]текст_запакован_LZ77_алгоритмом._". Теперь наш буфер выглядит так: "Этот_текст_запакован_LZ77_алгоритмом._Этот_". Берём следующий бит командного байта, он равен 0. Опять читаем два командный байта и делаем то же самое.
Наш командный байт кончился, берём следующий. Он равен {01}, т.е. 00000001. Соответственно читаем один символ в буфер. Но дальше идёт 7 нулей, то есть они говорят, что надо считать 7 пар командных байт, а текст кончился, что же делать? Для этого и нужен размер файла. Мы знаем, что нужное количество байт уже распаковано и просто прекращаем процесс распаковки.

Чтобы было понятней, распишу так:
11111111 11111111 11111111 11111111 111111___0_______0____ 10000000
Этот_тек_ст_запак_ован_LZ7_7_алгори_тмом._{26}{05}{20}{09}_.
Т.е. я просто сопоставил каждому биту управляющего байта соответствующий байт или пару байт. Т.е. биту 1 сопоставлен байт, который считывается, а биту 0 пара байт с отсылкой и количеством считываемых байт.

Упрощённое объяснение алгоритма распаковки:
1. Читаем размер.
2. Читаем управляющий байт (разбирающийся по битам).
3. Читаем бит:
4. Если 1 - читаем символ. GoTo 3.
5. Если 0 - читаем командные байты (ссылка и количество читаемых байт). GoTo 3.
6. Управляющий байт кончился - читаем следующий(GoTo 2).
И во время всей этой процедуры не забываем проверять размер Smile

Если он уже равен указанному - то прекращаем распаковку.
_________________
Работаю за деньги
KILL ALL HUMANS!!!!!111

HoRRoR

RLE

На этом алгоритме мы особо останавливаться не будем, т.к. он очень прост как в плане понимания, так и в плане реализации. Разновидностей его существует множество(кстати существую даже алгоритмы, где могут содержаться сразу несколько методов сжатия, например, RLE+LZ77), но я приведу самый простой пример.

В основном RLE применяют для сжатия графики, т.к. его принцип - это замена подряд идущих одинаковых байт на один такой байт и значение, в котором говорится их количество (обычно 1-2 байта). Сами понимаете, текст им ужимать бесполезно :)

Пример.

Исходный текст:
Вооооооот нееееее наааааадо тоооооормозиииииить.

Запакованный текст:
В{00}{07}от н{00}{06}е н{00}{06}адо т{00}{06}ормоз{00}{06}ить.

Сразу хочу отметить, что для большей простоты я привёл пример неструктурированного архива, т.е. в нём не наблюдается чёткой структуры, а просто есть сигнализирующий о применении сжатия байт (в нашем случае это {00}). Кстати именно байт я привёл тоже для простоты, иногда это может быть, например, старший бит в байте. Так что разновидность алгоритма может быть любой, но принцип остаётся прежним.

Теперь распакуем этот текст:
1. Считываем байт. Если он не равен {00}, то читаем дальше, а если равен, то переходим к пункту 2.
2. Читаем следующий байт, у нас первым таким байтом будет {07}. Читаем байт, идущий за ним. Это о. Повторяем о 7 раз. Переходим к пункту 1.
Вот и всё Smile

_________________
Работаю за деньги
KILL ALL HUMANS!!!!!111

HoRRoR

Huffman

Этот алгоритм довольно эффективен при сжатии текста, т.к. не имеет значения, в каком порядке расположены байты в файле.
Принцип состоит в том, что составляется так называемое дерево. В нём содержатся кодируемые символы, и продвигаясь вглубь по этому дереву, будет составляться блок бит, кодирующий этот самый символ. Символы, встречающиеся чаще, расположены ближе к "верхушке" этого самого дерева, т.к. в кодированном виде они будут занимать меньшее количество бит. Но легче понять это будет на примере.

Текст:
Группа_переводов_"Шедевр".

Встречаемые символы и частота встречаемости:
Г - 1
р - 3
у - 1
п - 3
а - 1
_ - 2
е - 4
о - 2
д - 2
в - 2
" - 2
Ш - 1
. - 1

Теперь сортируем по частоте встречаемости:
е, р, п, _, о, д, в, ", Г, у, а, Ш, .

Теперь нам необходимо составить дерево. Для этого нужно грамотно расположить символы, чтобы всё получилось оптимально. Сразу предупреждаю, что тут целью оптимально составить дерево я не задавался, делал как быстрее и понятней Smile

Сперва разделим дерево на две ветви, т.к. первый бит всегда либо 1, либо 0, т.е. есть два варианта.
Слева у нас будет 0, а справа 1:

HoRRoR

Определение структуры архивов

Для начала разберём, что такое архив.
Архив - это файл, в котором содержится некоторое количество других файлов, при этом они вовсе необязательно должны быть сжаты. Делается это либо для удобства и быстродействия (попробуйте поработать с несколькими десятками тысяч файлов в одной папке Smile

), либо для экономии места (если данные ужимаются - то понятное дело для экономии, но если нет - то место тоже экономится, т.к. в кластерных файловых системах файлы с размером не кратным размеру кластера будут занимать немного больше места - ровно столько, сколько занимали бы, если бы их дополнить так, чтобы их размер всё-таки стал кратен размеру кластера).

Итак, у нас есть архив:

HoRRoR

Примеры

Рассмотрим для примера архивы и алгоритмы сжатия в некоторых играх.
Для примера архива и LZ77 возьмём Final Fanasy [PSP], а для примера Хаффмана возьмём Silent Hill: Play Novel [GBA].

Итак, структура dpk-архива в игре Final Fantasy

Возьмём кусочек заголовка:

АнС · RRC2008 Зарегистрирован: 08.11.2003 Сообщения: 2818

Ух, я хотел создать подобную тему ещё с 2003 года.
Вован, выкладывай уже свою доку по тому продвинутому RLE, а то тут всё уже забито! Shocked

Гость

HoRRoR если будет еще возможность то напиши в каждом примере по 1 названию игры PSP в котором используеться тот или иной алгоритм.
Конечно можно и без этого. Но так проще будет догнать что и как.
Но если даж не напишешь то тож ничего страшного будем разбираться сами.

Shiru

Столько текста и цифр про LZ77, а принцип сжатия так и не объяснил (объяснил только один из возможных способов кодирования)...

Есть большой русскоязычный сайт, посвящённый теме сжатия данных - http://www.compression.ru/

Гость

HoRRoR

Shiru

HoRRoR

Макс · Гость

Horror, респект тебе. Very Happy

Не забрасывай.

HoRRoR

LG.BALUKATION

Может лучше такую статью в виде доки повесить где иль для скачивания выложить... Хех, вот на такие случаи и было бы уместно wiki-двигло =)

ЗЫ: текст вроде понятный, но вот в Хоффмане про построение дерева наверно стоилоб упомянуть подробней, а не показывать готовое.
_________________
Zwei Drachen betrachten einander

HoRRoR

Гость

Кода была выложена 1ая часть были одни вопросы
когда прочитал вторую часть стали совершенно другие
В коде стал замечать то что не замечал раньше.
спс. жду примеров. в топ заглядываю по 20 раз надень))

HoRRoR

BlueHairLady

Shiru

АнС · RRC2008 Зарегистрирован: 08.11.2003 Сообщения: 2818

Здорово пишешь! Я бы, наверное, так просто и понятно не смог описать.

HoRRoR

УхоЖёр · Зарегистрирован: 31.10.2007 Сообщения: 14

Мне нравиться идея перевода игр
Но переводить на уже забытие платформы скучно
фиг знает Может быть мне хочеться славы??)) чеславие с ума сойти...

Я реально 4 дня как начал вникать в тему гдет по 5 часов в день примерн...

Благодаря одному англоизычному сайту и форуму шедевр я примерн разабравшись в самых что ни на есть основах осилил марио на денди))

далее прочел СУПЕР ПУПЕР фак HoRRoR'а я все что написанно усвоил но не все догнав... остались вопросы конечн.

Главное конечный результат ... распаковать то что надо и запаковать назад .... пока это не очень из фака понятно как ... но фак не дописан и я думаю что еще прочту то что даст пищи для размышления...

Пока не написанно как это делаеться в факе я начал включать мозг гы)) или то что там есть...

ну вобщем решил зделать так
взял текстовый файл назвал Super.txt написал там слово FUCK больше умного ничего в бошку не пришло). Далее заархифировал его раром по умолчанию. Открыл ХЕКСОМ и чтож я там увидел??

Почему то что подчеркнуто подчеркнуто будет ясно после сравнения рис 1 и рис 2
Первое подчеркнутое так и осталось для меня загадкой. Вопрос первый что это? второе и третье это 04 как я понял это 4 байта которые весил файл со словом в 4 буквы)) Далее опять 2 непонятных для меня вещи которые подчеркнуты и вопрос номер 2 что это? далее черным подчеркнуто название моего файла тхт. далее опять подчеркнутое чтото синим после двух нулей и опять не понять что эт есть такое)) вопрос три что это? во далее черным идет мои 4 буквы и после них опять какой то старческий маразм)))

поглядел на это все я... почесал макушку и решил изменить архив добавив еще 1 букву)) опять раскрыл хексом и вуаля

Сделав скрины которые вы видете я начал их сравнивать. Все что как то отличалось я подчеркнул. Потом был еще опыт с архивом на 2 файла в 1ом было 3 буквы во 2ом 4 буквы. Из всего я вынес одно я знал где увидеть количество 1ое байт (тоесть я знал длинну слова в файле) 2. знал имя + расширение файла 3. Я понял что после названия файла идут два нуля потом еще 4 байта и после них мои слова длинну которую я знал.
Далее я открыл прост файл тхт в хексе и увидел там ток байты своих букв. Ни каких других. Открыв архив хексом опять я скопировал в блок в заранее пустой хекс и выбрав сохранив как сохранил как тхт файл. После открыв тхт файлик я увидел свой текс)))...
Далее я начал эксперементировать с рисунками. Создал масенький белый квадрат в Паинте ... результат тот же ... я извлек его без проблем.
Далее я начал уже эксперементировать с одним из архивов ПСП и опять результат тот же) Единственное что еще не попробывал разархивировав изменить буквы (не их количество) или разукрасить белый квадратик не меняя размера вернуть биты назад вставив их назад на ихнее место.

HoRRoR

RAR под данную документацию не подходит, т.к. там используется более сложный алгоритм сжатия.
_________________
Работаю за деньги
KILL ALL HUMANS!!!!!111

LG.BALUKATION

Кстати, с RAR'ом идёт описание формата файла и распаковщик доступен в сырцах.
_________________
Zwei Drachen betrachten einander