TIKOOOOOOO GALSTYAN
Мастер
(1254)
16 лет назад
DjVu (от фр. déjà vu «уже виденное») — технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов — книг, журналов, рукописей и пр., где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознавание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов, где важное значение имеет не только содержание, но и цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами.
DjVu стал основой для нескольких библиотек научных книг. Огромное количество книг в этом формате доступно в файлообменных сетях.
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.
Содержание [убрать]
1 Используемые технологии
2 Текстовое представление изображений DjVu
3 Лицензионная информация
4 Примечания
5 См. также
6 Ссылки
[править]Используемые технологии
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. Однако, при этом не стоит забывать, что в DjVu используется сжатие данных с потерями. Для особо важных документов, возможно, будет разумнее использовать более «надёжные» форматы: PNG, JPEG 2000, TIFF и т. п. Выигрыш объёма в этом случае составит всего 4—10 раз.
В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:
алгоритм отделения текста от фона на отсканированном изображении;
вейвлетный алгоритм сжатия фона IW44;
алгоритм сжатия чёрно-белых изображений JB2;
универсальный алгоритм сжатия ZP;
алгоритм распаковки «по запросу»;
алгоритм «маскировки» изображений;
[править]Текстовое представление изображений DjVu
Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для лёгкого копирования текста из документа при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста — выполнение оптического распознавания (в сторонних программах).
[править]Лицензионная информация
Быстрая и компактная программа для просмотра файлов формата DjVu под Windows с режимом непрерывной прокрутки и расширенными возможности печати.
http://www.bestfree.ru/soft/office/WinDjView.zip
Интерфейс: Русский
Платформа: Windows 2000/XP/Vista
Посмотреть: скриншот
Обновлено: 5.02.2009
Сайт разработчиков: http://windjview.sourceforge.net/ru/index.html
Платный аналог: неизвестно
BaGiRaМудрец (13658)
16 лет назад
DjVu Reader есть, я его просматриваю, но мне надо оттуда текст перенести в текстовый редактор
bel
Ученик
(212)
6 лет назад
Для чтения djvu-файлов можно воспользоваться любой программой-просмотрщиком, в качестве примера будет использована утилита DjVu Editor. Для качественного отображения только текста воспользуйтесь опцией «Черно-белый режим отображения» в настройках программы. Теперь вам необходимо произвести экспорт нужных страниц для последующего распознавания.
Нажмите верхнее меню «Печать» и в открывшемся окне выберите принтер Microsoft Office Document Image Writer. С его помощью вы можете создать виртуальную книгу с нужными для вас страницами. Другими словами, вам необходимо создать многостраничный tiff-файл. В открывшемся окне перейдите к вкладке «Дополнительно», выберите соответствующий формат и дважды нажмите кнопку «ОК».
Распознавание получившегося графического файла можно осуществить через стандартную утилиту Document Imaging внутри комплекта Microsoft Office. Для быстрого запуска файла необходимо нажать правой кнопкой мыши на нем в окне «Проводника Windows», выбрать раздел «Открыть с помощью» и щелкнуть мышкой по пункту Microsoft Office Document Imaging.
После автоматического распознавания содержимого загруженного изображения вам необходимо скопировать нужный текст. Для этого левой кнопкой мыши выделите область нужного размера и в контекстном меню выберите пункт «Копировать». Теперь откройте MS Word и вставьте текст из буфера обмена. Вам осталось привести его к читаемому виду и начать им пользоваться.