Какие форматы поддерживает электронная книга. Форматы электронных книг FB2, EPUB, MOBI и другие Какой формат лучше fb epub mobi

2015-03-11 | Без рубрики

Человек, любящий книги, стремится читать везде и всюду. Именно поэтому в последние годы чтение с ридеров или мобильных телефонов приобрело такую огромную популярность. Конечно, мы можем сколько угодно говорить о прелестях запаха новой бумажной книги, о приятных моментах в книжном, при выборе пополнений для вашей библиотеки, но факт остается фактом - в повседневной суете читать электронные книги проще, чем таскать с собой привычные бумажные томики. Если же вы пишите и хотите, чтобы ваше творчество стало удобным и доступным для читателей, мало выкладывать тексты на открытых ресурсах, хорошо бы еще и приложить к ним файловые версии, чтобы люди смогли скачать ваше творение и оценить его на досуге.

Вне зависимости от того, читатель вы, писатель или «два в одном», при скачивании или выкладывании текстов с файлами, вы можете столкнуться с тем, кто ваш телефон или ридер не поддерживают этот формат (или же ваши читатели жалуются на то, что файлы такого формата у них не читаются). Чтобы разобраться с тем почему так происходит, мы написали для вас небольшое пояснение о том, какие бывают форматы электронных книг, чем они отличаются и в чем преимущество и недостаток каждого из них.

Виды форматов:

Для начала необходимо заметить, что наиболее распространенные форматы электронных книг это: FB2, EPUB, MOBI, PDF, RTF, TXT, DOC/DOCX и DjVu. Естественно, когда непосвященный человек сталкивается с таким многообразием, сложно разобраться что к чему и какой формат выбрать для чтения или конвертации своих файлов.

Microsoft Windows, только вот, к сожалению, DOC/DOCX не поддерживаются большинством ридеров, да и на мобильных телефонах могут не всегда открыться, а в TXT читать книги очень и очень неудобно.

Впрочем, давайте обо всем по порядку:

FB2 (FictionBook)

Преимущества: Один из наиболее распространенных форматов в русскоязычном сегменте интернета. В нем удобно структурировать документ большого объема, делить на главы и т. п. Файлы FB2 занимают немного места и легко конвертируются в другие форматы.

Недостатки: FB2 - разработанный в России формат. Он не поддерживается большинством ридеров и неизвестен по всему миру. Открывается только на устройствах с русской прошивкой и чужд брендовым ридерам, лидирующим по всему миру: Sony, Amazon Kindle, Barnes&Noble, Kobo и т. п. Да, вы можете поспорить, что на Sony FB2 открывается, но официальная прошивка, позволяющая открыть этот формат на ридерах Sony, вышла в свет всего пару лет назад и установлена далеко не на всех моделях. Если же говорить о том, чтобы продавать свои произведения на Amazon или Itunes, тот тут ответ однозначен - FB2 не подходит для международных площадок.

PDF (Adobe Portable Document Format) и DjVu (произносится «дежавю́») - не будем рассматривать каждый в отдельности и объединим их одним пунктом.

Преимущества: Оба формата используются для хранения сканированных книг. В PDF можно создавать очень красочные файлы. DjVu просто довольно неплохо сжимает файлы, благодаря чему они меньше «весят».

Недостатки: Файлы PDF получаются очень громоздкими. Если же речь идет о сканировании, то в любом случае сканированные книги неудобно читать с экрана, поскольку их качество оставляет желать лучшего вне зависимости от того в PDF выложен скан или в DjVu.

Преимущества: TXT открывается на любом ридере. DOC/DOCX известные всем форматы Microsoft Word.

Недостатки: Читать книги в TXT ужасно неудобно, поскольку в нем отсутствует форматирование текста (выравнивание по ширине, перенос абзацев, деление на главы и т.п.). DOC/DOCX поддерживается очень малым количеством устройств для чтения.

RTF (Rich Text Format)

Преимущества: Удобный и компактный формат для хранения текстовых файлов.

Недостатки: Крайне редко поддерживается ридерами и мобильными телефонами, планшетами и т. п.

Преимущества: LRF специальный формат электронный книг от Sony. MOBI формат книг для Amazon Kindle.

Недостатки: В настоящее время и Sony поддерживают более популярный формат электронных книг - EPUB.

EPUB (Electronic PUBlishing)

Преимущества: EPUB - самый распространенный в мире формат электронных книг. Не имеет проблем с распознаванием, позволяет создать хорошо структурированный текст с иллюстрациями. Этот формат сам по себе уже архив, а потому компактный и не требует дополнительных архиваторов.

Как вы можете видеть, каждый из упомянутых выше форматов имеет свои преимущества и недостатки. К примеру, безусловно, наиболее «читаемым» форматом для электронных книг будет TXT, но при этом читать книги в таком формате - это практически издеваться над своими глазами. Такой текст невозможно структурировать, в нем отсутствуют абзацы, главы, в него невозможно вставить иллюстрации и т. п.

Наиболее распространенным и удобным форматом для чтения электронных книг, является EPUB. Однако, если речь идет о том в каком виде автору выкладывать свое произведение онлайн, наиболее рациональным решением будет выкладка сразу в нескольких форматах. К примеру: EPUB (читается везде, кроме Amazon Kindle) + MOBI (читается только на Amazon Kindle) + DOC/DOCX (для тех, кому привычно читать с компьютеров и ноутбуков). Конечно, бонусом можно выложить текст и в формате FB2, к которому так привыкла русскоязычная аудитория, однако, далеко не на всех устройствах откроется файл такого формата.

И конечно же, в завершение этой статьи и на правах рекламы, хотим вам сообщить, что недавно в СНГ начала работу новая интернет-система Booqla, предназначенная для удобной и, внимание, бесплатной конвертации рукописей в форматы EPUB и MOBI. Сайт предлагает пользователям со всего мира конвертацию своих рукописей в электронный формат и оказывает помощь в продаже электронных книг, но для русскоязычной аудитории будет доступна только бесплатная конвертация рукописей.

Вы можете сами оценить простоту и удобство сервиса Booqla, зарегистрировавшись на

Распространённые форматы электронных книг

TXT - формат обычных текстовых документов. Данный формат поддерживается всеми электронными книгами. В TXT формате отсутствует какое-либо форматирование текста. Также в документах этого формата не может быть изображений и графики.
Не рекомендуется выбирать данный формат из-за отсутствия в нём графики и форматирования текста.

FB2 - формат был разработан для российский пользователей и «заточен» под кириллицу. Книги в формате FB2 поддерживают форматирование текста, разбивку по главам, книги могут содержать графику и иллюстрации. Также в данном формате могут быть сохранены такие параметры книги, как название, автор, содержание, жанр, которые считываются электронными ридерами и позволяют пользователю сортировать файлы на устройстве.
Данный формат рекомендуется выбирать для устройств, продающихся в России. Устройства, привезённые из-за границы, скорее всего не откроют файлы данного формата.

EPUB - современный формат, всё больше набирает популярность среди пользователей во всём мире. Также, как и формат FB2, поддерживает форматирование текста, разбивку по главам, книги могут содержать графику и иллюстрации. Данный формат электронных книг применяется в технике Apple.
Данный формат также рекомендуется для выбора.

MOBI - формат электронных книг, используемый в ридерах Kindle. Набирает свою популярность за счёт всё большего появления в России ридеров Kindle. По своим характеристикам формат MOBI похож на FB2 и EPUB.

Данные форматы электронных книг являются самыми распространёнными и поддерживаются практически всеми современными электронными книгами.

Другие форматы электронных книг

RTF - формат электронных документов, изначально разработанный для Windows. Для чтения на ридерах не очень удобен из-за большого размера файла.

HTML или HTM - формат веб-документов. Иногда применяется для электронных книг.
Книги можно открывать веб-браузером на компьютере.

LIT - формат электронных книг, разработанный Microsoft. Имеет достаточное распространение, но у него имеется некоторые проблемы, так как читается он в основном с помощью специального ПО - Microsoft Reader. Чем-то похож на формат PDF, может масштабироваться, поддерживает закладки и аннотации.

LRF - формат электронных книг разработанный компанией Sony для своих ридеров. Формат LRF используется только в ридерах Sony. При необходимости можно воспользоваться конвертером для конвертирования данного формата в любой другой. Популярность формата LRF падает.

MBR - формат электронных книг под названием MobiPocket. Разрабатывается французской компанией с таким же названием. Используют его в большинстве случаев для чтения на коммуникаторах и КПК.

AZW - коммерческий формат электронных книг с защиой от копирования и конвертирования. Используется только в ридерах от компании Amazon Kindle. Amazon следит за книгами на устройствах Kindle и при нарушении авторских прав может массово удалять книги с устройств через интернет.

PDF - формат электронных документов, созданный компанией Adobe. Неудобен для использования на ридера из-за того, что файлы этого формата очень громоздкие, так как рассчитаны под мощности компьютера. Если файл специально не сверстан под экран 6-дюймового ридера, имеющий формат аналогичный бумажному листу размера A6, то читать на нем PDF формата A4 (а большинство PDF-файлов представлены именно в размере стандартного бумажного листа), будет очень неудобно. В PDF можно увеличить только масштаб, но нельзя увеличить размер шрифта, а значит, на экране ридера вы увидите либо очень мелкий текст, либо вообще только фрагмент страницы. Поэтому данный формат не рекомендуется выбирать для чтения электронных книг.

DJVU - формат, разработанный для хранения сканированных документов. Книга в формате DJVU фактически представляет собой набор сканированных страниц. Как правило, имеет низкое качество. Так же, как и PDF, не рекомендуется выбирать для чтения электронных книг.

DOC или DOCX - форматы электронных документов Microsoft Office. Эти форматы поддерживают достаточно много ридеров, но именно для чтения документов, а не книг. Файлы большого объема в этом формате могут быть велики по размеру, и не все ридеры смогут открыть такие «тяжелые» файлы.

Данные форматы электронных книг могут быть открыты на компьютере. Но не все электронные читалки смогут их распознать.

Какой формат выбрать для чтения электронных книг?

Давайте определимся, какой формат лучше использовать для чтения электронных книг!

Если у вас современный ридер, современное устройство для чтения электронных книг, то вероятнее всего вы откроете на нём все перечисленные выше форматы.

Но с точки зрения удобства рекомендуем вам остановить свой выбор на форматах FB2 или EPUB. Форматы FB2 и EPUB, а также MOBI изначально создавались для электронных книг. Они занимают небольшой объём памяти и поддерживаются всеми устройствами для чтения электронных книг.

А какие ещё форматы вы знаете? Пишите в комментариях к статье, а также задавайте свои вопросы.

Устройства для чтения электронных книг (так называемые ридеры ) уже давно превратились из чего-то очень экзотического в такое же привычное бытовое устройство, как и смартфон. Пользователи очень быстро поняли, в чем прелесть ридеров: в них можно закачать сотни (если не тысячи) книг в электронном виде, глаза при чтении не портятся (электронные чернила не светятся), можно настраивать любые параметры текста, включая гарнитуру шрифта и его размер, книга сама запоминает страницу, на которой вы остановились, ну и так далее - перечислять всякие удобства по сравнению с использованием бумажных книг можно очень долго. Однако у пользователей (особенно начинающих) есть при этом одна проблема: по Сети книги гуляют в различных форматах, коих немало: FB2, EPUB, MOBI, PDF, RTF, TXT и так далее.Хорошо еще, когда на сайте предлагают на выбор разные форматы - например, на сайте Litres.ru , где этот выбор очень широк.


Виды форматов

Однако для начинающих пользователей все эти EPUB, FB2 и прочие DjVu - темный лес,поэтому давайте разберемся, что они собой представляют, чем отличаются и в каких устройствах используются. Итак, форматы электронных книг (документов).1. FB2 (FictionBook) - формат (стандарт), разработанный Дмитрием Грибовым и группой энтузиастов. Отлично подходит для создания структурированных книг, занимает небольшой объем, отлично архивируется, хорошо конвертируется в другие форматы. Представляет собой XML-файл, структурно похожий на письмо электронной почты. Главный недостаток - так как это фактически российская разработка, в мире этот формат совершенно неизвестен и почти не поддерживается ни одним из брендовых ридеров - Sony , Amazon , Barnes&Noble , Kobo .На "Литресе" написано, что FB2 "поддерживается всеми российскими ридерами", но это не совсем точно. FB2 поддерживается почти всеми китайскими ридерами с украинским или российским программным обеспечением. Также FB2 может поддерживаться и известными западными ридерами (например, Sony), в которые установлена специальная российская прошивка. (Ну и недавно для последнего ридера Sony PRS-T1 вышла официальная прошивка, поддерживающая FB2.) 2. EPUB (Electronic PUBlishing) - наиболее распространенный в мире (и уже очень распространенный в России) формат электронных книг. По структуре он похож на веб-сайт, упакованный в архив, и если FB2 может распространяться как в раскрытом виде, так и в архиве ZIP (многие ридеры умеют читать FB2 в ZIP), то EPUB - это по определению книга, упакованная архиватором. EPUB поддерживается практически любыми ридерами - как западными, так и китайскими (российско-украинскими). Поэтому это наиболее предпочтительный формат. (За редкими исключениями.) 3. MOBI - специализированный формат, созданный специально для ридера Amazon Kindle и, соответственно, поддерживаемый только этим ридером. Причем Kindle никакие другие форматы электронных книг (кроме PDF и TXT, но это разговор особый) не поддерживает. 4. TXT - обычный формат текстового документа. Поддерживается всеми ридерами, но читать книги в TXT - это для законченных мазохистов. Ни разметки, ни нормальных переносов, ни выравнивания по формату, но зато есть обрывы строк и прочие прелести. В топку! 5. PDF (Adobe Portable Document Format) - один из наиболее распространенных форматов электронных документов (как правило, не книг). PDF не особенно удобно читать на ридерах, кроме того, он очень громоздкий, поэтому в PDF для ридеров, как правило, записывают только документы со всякими формулами, иллюстрациями и прочим. 6. LRF - специальный формат для электронных книг от Sony. Однако уже практически вытеснен форматом EPUB, который Sony поддерживает. 7. DjVu (произносится «дежавю́») - формат для хранения плотно сжатых отсканированных документов - например, старых книг. В ридерах используется очень редко, потому что читать отсканированные книги на ридере почти невозможно из-за плохого качество отображения и маленького размера экрана. 8. RTF (Rich Text Format) - универсальный формат для хранения текстовых документов. В ридерах используется очень редко - так, для совместимости. 9. DOC - формат документов Microsoft Office. Некоторые ридеры его поддерживают, но читать документы на ридере обычно мало кому нужно. Вот как-то не для того они сделаны. Правда, в DOC по Сети до сих пор гуляют некоторые книги, но уж проще их переконвертировать в тот же EPUB. Существуют и всякие другие форматы, однако этим можно не забивать себе голову - вряд ли они вообще когда-нибудь пригодятся. Большинству пользователей, за редкими исключениями, обычно вполне достаточно формата EPUB. Его поддерживают почти все ридеры (кроме Kindle), книги в этом формате имеют небольшой размер, хорошую структуру, позволяют включать оглавление, иллюстрации и так далее. Многие онлайновые библиотеки хранят книги в этом формате, также в торрентах можно найти огромные коллекции книг формата EPUB. Какие выводы? EPUB - ваш выбор, будь то у вас западный ридер (Sony, Barnes&Noble, Kobo) или китайско-российско-украинский. А вот для Kindle нужно будет искать книги в формате MOBI или, что намного проще, просто переконвертировать тот же EPUB или FB2 в этот формат. Подобная процедура производится легко и быстро с помощью специальной программы. Как это делается - рассмотрим в отдельной статье.

Наша страна традиционно считается самой читающей и потому полезно разобраться с вопросом – в каком формате лучше читать электронные книги на смартфонах?

Задачу можно рассмотреть разных сторон.

  • Какой тип устройства, его процессорная мощность, операционная система, объем памяти.
  • Какого рода книги предполагается читать? С какими целями? Какой пользовательский опыт желателен?
Если мобильник старенький или простенький – то особенного выбора-то и нет. Скорее всего, аппарат сможет читать книги только в обычном текстовом формате TXT.

Это будет выглядеть как "портянка текста", с минимальными возможностями перелистывания строк, страниц и небольшими настройками размера шрифта.

Десктопные текстовые форматы на мобильных расстройствах

Смартфоны с достаточно мощными процессорами отлично справляются с привычными всем пользователям стационарных компьютеров и ноутбуков форматами DOC, DOCX, RTF.

Тут есть некоторые моменты.

  • Многостраничные книги в DOC имеют большой вес файлов и будут переполнять ограниченную внутреннюю память мобильного гаджета.
  • Возможна несовместимость с аппаратным ресурсом телефона, вместо текста на экране появятся "кракозябры".
  • Для чтения нужны специальные приложения.
Ну и главное – сам офисный формат не приспособлен для приятного чтения. Скорее, DOC и другие подобные предназначены для работы с документацией – подготовка справок, счетов-фактур, бухгалтерской отчетности для распечатки.

Совет: немного забегая вперед, можно упомянуть, что некоторые современные офисные приложения имеют встроенную функцию для преобразования текстовых документов DOC в формат электронных книг EPUB.

Полиграфические форматы PDF и DJVU, TIFF


Термин "полиграфические" как бы намекает, что эти форматы специально предназначены для сохранения визуальных образов, а собственно текстовой информации уделяется второстепенное внимание.

  • PDF – формат для подготовки к печати многоцветных листовок, рекламных буклетов, постеров, календарей и тому подобных вещей. На маленьком экране смартфона вам придется рассматривать либо сильно уменьшенное изображение целиком, либо увеличенные отдельные части. Примерно, как музейные грабители ночью, в полной темноте, ищут заказанное полотно при помощи фонарика, осторожно освещая малюсенькие участки картины.
  • DJVU . Примечательно происхождение термина от слова "дежавю". По смыслу примерно "то, что когда-то раньше виделось". По сути, этот тип электронных книг представляет собой альбомы отсканированных изображений. Применяется для хранения инженерных схем, карт, конструкторских проектов. Или когда важно сохранить фактуру оригинала. Например, ученый историк хочет поработать с древней рукописью, но в библиотеке такие раритеты на руки не выдают. Тогда остается сфотографировать все страницы как есть и изучать на компьютере в формате DJVU.
  • TIFF – формат для сохранения многоцветной, высококачественной растровой график. Подойдет для любителей рассматривать фотоальбомы или иллюстрированные сборники живописного искусства.


Ну вот, наконец-то добрались до форматов, которые изначально предназначены для чтения электронных книг на компьютерных мониторах и сенсорных дисплеях.

Технологически FB2 и EPUB основаны на использовании языков разметки гипертекста. Похоже на то, как создаются веб-сайты и HTML-страницы, но с учетом особенностей электронной литературы и обеспечения удобства именно чтения, а не серфинга в интернете.

В грубом приближении электронные книги в этих форматах можно сравнить с привычными всем веб-сайтами, разве что с ограничениями по свободе переходов на сторонние документы.

  • FB2 – чисто отечественная разработка, адаптированная под кириллические шрифты и ментальность нашего человека. На мобильных устройствах, купленных за границей и не имеющих локализации системы, могут быть проблемы с кодировками.
  • EPUB – международный стандарт электронных книг, причем, с поддержкой видео контента.

Совет. Если ваш смартфон приобретен в отечественном магазине и читать вы собираетесь русскоязычную литературу – смело выбирайте формат FB2. К его преимуществам относятся широкие возможности для пользовательской настройки просмотра, удобная навигация, поддержка форматирования стилей текста.

Оба описанных в этом разделе формата сохраняю данные в сжатых форматах. Поэтому электронные книги весят мало и не занимают много места на диске. Так что даже при ограниченной памяти сотового телефона можно носить в кармане целую библиотеку.

Обратите внимание, FB2 – это сокращение от Fiction Book, беллетристика. Этот формат удобен для "криминального чтива", карманных книжечек в мягкой обложке со скромными иллюстрациями.

Что делать, если книга в неподдерживаемом формате?

Если электронная книга не читается на устройстве, можно предложить два варианта решения проблемы.

  • Скачать и установить мобильное приложение для чтения такого формата.

Очевидно, что заведомо неподходящие для e-Book форматы типа DOC и PDF в любом случае нужно конвертировать.

Коротко о главном
Если вы хотите составить себе адекватное представление о epub, представьте, что вы сохранили на диск какую-нибудь (например, эту) веб-страницу вместе с используемой на ней графикой и стилями. Для всех современных браузеров это стандартная функция, например в FireFox это делается через меню «Файл → Сохранить как → Веб-страница полностью». Можно сохранить рядом не одну, а несколько страниц. Затем вы кладете рядом с вашими страницами два служебных XML-файла. Один просто метка «это epub» (container.xml), второй содержит перечень всех файлов - .html, .css, .jpg, etc (обычно это файл content.opf).
Осталось поместить всё это в zip-архив и сменить ему расширение с.zip на.epub.
Всё.
Книга готова, а вы уже знаете, что такое epub. Это не шутка и не преувеличение - epub это просто архивированный в zip html. Ни больше, ни меньше.

Про формат подробно
Размещение содержимого в epub-архиве

Как мы уже выяснили, epub - это zip-архив с несколькими файлами. Когда вы архивируете файлы ZIP-архиватором и вкладываете в архив XML-файл container.xml, вы говорите прозой создаете файл в формате «Open Container». Несмотря на убийственно-пафосное название этого мероприятия (IDPF стоило знать, что есть ISO-стандарт OPC и не изобретать велосипед), за «Open Container Format» (OCF) вполне можно поставить IDPF «зачот» (почему - выясним ниже).
Помимо файл container.xml (должен лежать в META-INF) epub обязательно содержит еще один служебный файл, где перечислены все прочие файлы, размещенные в архиве, и указан их тип, как правило называется content.opf.
Вся конструкция для знающего человека сильно напоминает java-пакеты вообще и OpenDocument в частности. И в самом, деле IDPF ищет пути объединения с OpenDocument. Не очень понятно, что мешало стартовать с клоном OD, ведь OpenDocument на два года старше OCF, но, видимо, велосипеды - неизбежный удел дилетантов, вовремя доки почитать не удосужились. Вот и xpointer IDPF так же, по всем судя, твердо намерены реизобрести в рамках EPUB3 . Версии к 5-й догадаются использовать стандартизованный w3c формат для ссылок и тоже будут искать пути объединения.

Какие данные хранятся в epub
epub обычно содержит следующую информацию:

  • Мета-данные: название, язык, авторы, etc.
  • Средства навигации: порядок листания для xhtml-файлов и « карта сайта содержание»
  • Собственно текст в виде нескольких xhtml-файлов, которые могут использовать стили css, картинки в jpg, gif и png а так же векторную графику svg и шрифты. Последняя версия epub декларирует поддержку MathML.
  • Помимо этого epub может включать ряд дополнительных узкоспециализированных файлов разметки, PDF-версию книги для печати и т. п. экзотику, реально не используемую, не поддерживаемую читалками и среднему читателю неинтересную.
Мета-информация в epub
Минимальная мета-информация epub включает название, ID документа и язык. Помимо этого можно указать авторов, переводчиков и других участников создания книги, дату публикации/написания, тему книги (в свободной форме), plain-text описание и данные об издательстве.
Ключевая мета-информация хранится в стандартной схеме Doublin Core , немного расширенной. Описание авторов, тематики и всех других полей (за исключением дат и языка) дается в свободной текстовой форме, что, фактически, исключает эффективную автоматическую каталогизацию epub из разных источников.

Средства навигации
epub, как мы помним, может включать множество html-файлов. И файлов будет множество. Не потому, что этого требует IDPF, а потому, что от больших файлов epub-читалки падают и все делают много маленьких. И вот для того, чтобы привычное читателю «пролистывание» работало, создатель epub указывает порядок, в котором файлы следует предъявлять. «При открытии показываем 3.html, когда читатель пролистает его до конца открываем 1.html, затем 8.html. А файл footnotes.html при прямом пролистывании недостижим, туда читатель будет попадать по сноскам», что-то в таком роде. Содержится обычно в файле content.opf.
Еще одно средство навигации внутри книги - содержание. Если присутствует, то, как правило хранится в toc.ncx. Технически это более аналог функции «карта сайта», чем привычного «содержания». Cодержание в бумажной книге (или электронном документе) повторяет структуру текста, а.ncx не связан с общим порядком следования текстовых фрагментов и может прямо им противоречить. Впрочем, в реальности файл как правило используется именно в качестве содержания и оформляется «штатно», повторяя порядок, заданный для листания.
Вообще, повторное хранение и переписывание на разные лады одних и тех же данных - фирменный знак epub. Мета-данные храняться в четырех местах: в описании OPF контейнера container.xml, в описании epub-пакета content.opf, в файле содержания toc.ncx и в html-файлах (в тегах meta). Содержание описывается трижды - «карта книги» из toc.ncx спорит с перечислением фрагментов в content.opf кто из них главнее, а заголовки h1-h6 в html смотрят на все это, и думают о реванше.

Текст книги
Разумеется, в epub присутствуют и собственно html-файлы с текстом книги. Так же в архиве хранятся используемые в тексте элементы - графика, стили, скрипты, шрифты.
Никаких существенных «надстроек» или «ограничений» в отношении html, css и т.п. epub не задает. Берем современный Web-контент, ставший уже даже не «динамическим», а «текучим» (epub декларирует поддержку html5, больше смахивающего на ОС , чем на язык разметки, его и браузеры-то пока поддерживают ограниченно), сохраняем на диск, архивируем - и вуаля, электронная книга готова.
«Дорогой, я сохранила интернет на диск, что дальше?»

История вопроса
Чтобы лучше понять основную силу и основную слабость epub, вернемся на 12 лет назад. В 2000-м году, когда ваш покорный слуга только-только приобщился к электронному чтению (если быть точным, был коварно подсажен на оное небезызвестным the-ebook), в сети уже существовали «Библиотека Мошкова », «Альдебаран », «Литпортал » и бог знает сколько еще мелких библиотек. Довольно много текстов было, в принципе, доступно. В основном именно в виде HTML.
HTML уже тогда давал широчайшие возможности для оформления. Благодаря этому люди, готовившие тексты, создавали иногда подлинные шедевры верстки. Достаточно вспомнить, что абзацы в библиотеке Мошкова были (и сейчас Мошков жжет в таком же роде, по-моему) оформлены миксом из тегов

и
Однако, реально существовавшие читалки (iSilo , Microsoft Reader , Mobipocket , устройства типа REB и т.п.) понимали только ограниченный диалект HTML и еще более ограниченное подмножество CSS. Конечно же, каждая читалка строила «расширения» над форматом, но никто не верстал под конкретную читалку.
В финале, после соединения творческих прорывов создателей текстов, вдохновленных мощью HTML+CSS и ничем не ограниченных в полете своей фантазии, с реальными читалками, на экране пользователя получалась, как правило, ерунда. В лучшем случае книга была неказиста, но читаема. В худшем - текст вообще превращался в месиво.
Моим первым ответом на это стала программа ClearTXT , убирающая из текста «творчество». Однако, достаточно быстро стало ясно, что никакой эвристический анализ не угонится за фантазией создателей html-книг. В итоге все равно приходилось работать руками, больше или меньше.

Проблемы с диалектом были не единственными. Программы-читалки имели не только индивидуальные «выразительные средства» и «языковые предпочтения». Ни одна не читала HTML напрямую (в этом плане мало, что изменилось, кстати, предлагаю поразмышлять - почему). Каждая программа использовала свой, обычно закрытый, метод подготовки и упаковки данных. lit, rb, lrf, chm - каждый создатель читалки и разработчик устройства считал своим долгом «изобрести» новый закрытый «формат» и своё, личное, DRM-решение. Средства для конвертации в этот закрытый формат часто были либо недоступны, либо выпускались в виде приложений и/или библиотек под конкретную платформу, с ограниченной документацией или вовсе без нее.

Две проблемы в 2000-м, одна проблема в 2012
Итак, в 2000-м году взять произвольный html и скормить его читалке нам мешали две вещи:

  1. Необходимость использовать громоздкие сторонние средства для упаковки HTML в понятный читалке формат
  2. Несовместимость читалки с используемой разметкой и стилями
epub предлагает решения для обеих проблем:
  1. Средства упаковки стандартизированы и технологичны - можно даже вручную, минут за 20, собрать весьма сложную книгу используя OCF, notepad и zip-архиватор.
  2. Как мы уже видели, epub совместим со всеми и всяческими диалектами, стилями и методами разметки. Сохраняй из web, архивируй и читай.
Казалось бы, все хорошо.
И по поводу упаковки к epub претензий, помимо эстетических, нет. Используется, пусть нестандартное и не самое удачное, но адекватное задаче решение, к тому же простое, как палка.
А вот относительно отображения текста в читалках нас ждут плохие новости. Сам «формат» совместим со всем и всяческим HTML, это да. Куда как просто было написать в стандарте «см. спецификацию html». Соблазн был велик и IDPF не устоял. Но вот мы открываем наш «какой угодно» HTML в «какой угодно читалке» и...
И обнаруживаем, что мы ни на йоту не сдвинулись относительно 2000-го года. Как и в конце прошлого века, каждая конкретная читалка понимает только свой, ограниченный, диалект html+css. Как и в прошлом веке, диалект обычно недокументирован. По-прежнему в каждой читалке для решения даже таких стандартных проблем, как сноски, вводятся свои, ни с чем не совместимые, расширения (поищите epub footnotes в google , методики создания, помимо превращения сносок в ссылки, варьируют от совершенно кислотного CSS до javascript). Простейшие вещи сделать практически невозможно, сложные вещи либо не работают, либо роняют читалки.

Вот вам домашнее задание: не подглядывая в epub от ЛитРес, сделайте epub с пустой строкой между двумя абзацами (текст, пустая строка, снова текст, как перед этим абзацем), одинаково отображаемый в iBooks , ADE , Sony и Nook . Китайские чудо-читалки и прочую экзотику оставим в стороне, чтобы задача оставалась выполнимой. И даже выравнивания по ширине и переносов со сносками не попросим. Просто пустая строка, тег в fb2. Время пошло.

Вердикт по делу epub
Явные плюсы формата - простота и технологичность zip-пакета, открытость.
Так же как плюс можно рассматривать единое DRM-решение. IDPF стыдливо делает вид, что DRM в epub типа открыт и типа любой может сделать свой. Все типа верят. И ясно понимают, что epub существует на 99% благодаря тому, что Adobe поддерживает для него DRM-инфраструктуру. DRM-зло, но один DRM на всех это меньшее зло, чем по DRM на магазин.
Да, глупо, когда архивированный HTML с взламываемым за одну минуту DRM выдается за невесть какую инновацию. Но zip и прочая стандартизация это какой ни на есть, а прогресс.
Касаемо плюсов это все.

А вот в области создания сложной разметки epub совсем никуда не годится и дальше будут только минусы. Формат не дает создателю книги ни гарантий относительно того, что увидит конечный читатель на экране, ни надежных средств контроля, которые позволят отсечь хотя бы заведомо «нерабочие» варианты, ни готовых решений для стандартных задач. Мой первый epub, только что прошедший валидацию, уронил две читалки из трех, на которых я его тестировал (слишком большой html - 2Мб, и слишком много ссылок, как я потом установил). Создатели документов вынуждены либо игнорировать «фичи» отдельных epub-читалок, либо предлагать несколько epub, чтобы читатель мог взять файл, совместимый именно с его устройством. Ради такого финала и огород городить не стоило - что толку верстать html5 зная, что читать его будут в IE3?

Чего нам ждать от epub в будущем
Наиболее благоприятный для epub сценарий - вытеснение из ниши программ-читалок мелких разработчиков несколькими крупным игроками. Сделать полнофункциональный html5-парсер с постраничной разбивкой как минимум не проще, чем сделать современный браузер, а отдача несопоставимо меньше, и случайных людей тут не будет. Однако ни google, ни Мicrosoft, ни Opera пока что не бегут делать новые движки epub-читалок чтобы Adobe мог как следует поднять бабла на своем чудо-DRM. И сама Adobe вполне ясно свой потенциал по развитию ридеров показала - ADE до сих пор не имеет ни поддержки сносок, ни нормально типографики, ни переносов.
Так что гораздо вероятнее, что лет за пять вокруг epub сформируется некий «неписанный IDPF» неформальный свод правил верстки, рабочих решений по оформлению, опробованных на ведущих читалках «хаков» и «фокусов». Сетевое сообщество уже формирует «истинный» epub-стандарт поверх всепрощающего «html5+css3+все_чего_хочется_еще». Описываются реальные решения для реальных проблем в реальных ридерах. Потом эти «фокусы», будучи стандартом де-факто, станут обязательными и для разработчиков новых читалок. Те, кто в IT достаточно давно, чтобы успеть наглотаться дыма браузерных войн и поработать с IE4, NN4 и Opera 3, отлично представляют себе, что именно нас ждет - по этим граблям сетевое сообщество уже ходило и икается эта прогулка до сих пор. Поэтому когда я вижу «этот epub оптимизирован под iBooks» я испытываю не просто де-жа-вю, а острый рвотный рефлекс.

И вот за то, что нас пытаются выпихнуть «назад в 90-е» я ставлю epub незачет. Нам не нужны хаки, становящиеся неработоспособными в новой версии софта. Нам не нужны неписанные правила, по крупицам отлавливаемые методом тыка. Не нужны узаконенные баги. Не нужна «валидация тестированием» по всем читалкам - «покажет или не покажет». Всё это мы проходили.
Нам нужна надежная и удобная технология, четкий стандарт и рабочие средства контроля качества. И epub этого нам дать не смог, к сожалению.

Чего от epub ждать бесполезно
Среди недостатков epub есть и еще один, который мы пока не затрагивали - принципиальная несовместимость с другими форматами. epub рожден быть монополистом. Извлечение данных из epub и конвертация в другой формат даже для нехитрого html является непростой задачей. Когда же epub заматереет, обрастет хаками под устройства и замысловатыми решениями, типа подстраничных сносок на CSS, извлечь из него что-либо будет задачей практически неразрешимой. Какой бы формат Adobe не разрабатывала, получается PDF - вход рубль, а выход пять.
А ведь нам все еще нужна поддержка разных (в т.ч. старых) читалок и устройств. Нужна полноценная поддержка альтернативных форматов, которые уже приобрели вес (mobipocket на Kindle) и будут еще появляться на рынке.

В добавок нам нужны средства каталогизации, обмена цитатами и заметками и прочая и прочая, чего epub даже на декларативном уровне пока что не обещает. Иными словами, нам нужен fb3, которому и будет посвящена следующая статья.