Кирилл Мартынов ([info]kmartynov) wrote,
@ 2005-08-21 11:47:00

Current music:Mercedes Sosa - Los Mareados

Как сканировать книги
Довольно долго передо мной стояла следующая проблема: как отсканировать любую книгу, так чтобы были выполнены следующие условия:

а) минимальные затраты времени
б) удобный формат, сохраняющий оригинальную книжную страницу, иллюстрации и т.п.
в) возможность поиска по тексту
г) небольшой размер.

В общем, любой текстовый формат делает эти условия невыполнимыми, т.к. ни одна OCR-программа не способна работать без участия человека. Случаются, конечно, исключения, когда книга отсканирована очень хорошо и можно переводить в текст, особенно не проверяя качество. Однако для целого ряда книг это было в принципе невозможно. Кроме того, вставал вопрос о том, какой текстовый формат использовать. Ни один из существующих не удовлетворяет всем условиям сразу. Html не сохраняет оригинальных страниц, pdf крайне громоздок, если в книге много иллюстраций, chm в общем, тоже, не панацея.


Одним словом, ясно было, что ставку нужно делать на формат djvu. Чтобы понять, почему, достаточно взглянуть на библиотеку мехмата МГУ. Я думаю, что это вообще самое полезное место в Рунете - для математиков, конечно.

Однако с djvu у меня постоянно возникали какие-то проблемы. Главная из них состояла в следующем: невозможность пакетной обработки файлов, полученных из FineReader, для их конвертации в djvu. Для меня это сводило все преимущества формата к нулю. И вот, решившись на последний мозговой штурм, я выяснил, что и как нужно делать. Теперь можно получать электронную книгу, размером в несколько мегабайт, с сохранением всего оформления, с возможностью поиска (т.е. с встроенным в графический формат распознанного текста), легко читаемую, масштабируемую и прекрасно поддающуюся печати (и даже последующей конвертации в любой текстовый формат) - затрачивая на это времени не больше, чем на ксерокопирование.

Итак, как это делается. Для начала здесь берется Document Express Editor v5.0.0 (можно, очевидно использовать и версию 5.0.1, я пишу о том, что делал сам). Оригинальная программа занимает 168 Мб, но можно ограничится урезанной версией в 53,9 Мб, и даже совсем минималистской - 1,72 Мб (последняя не поддерживает распознавание текстов).

Дальше в FineReader-е сканируется книга. Сканировать нужно в 300-600 DPI в зависимости от качества шрифтов и наличия мелких деталей. Я часто сканирую в 400 DPI, этого обычно вполне достаточно. Сканировать лучше всего в сером, хотя в зависимости от книги используется и ч/б. Если книга меньше, чем A4, имеет смысл выставить размеры области сканирования в окне "Настройки сканера" - это экономит время и делает готовую книгу более аккуратной без дополнительной обработки. Разворот книги, на мой взгляд, лучше делить. Когда все настройки сделаны, для сканирования удобно использовать кнопку сканера, а не интерфейс FineReader-а - это позволяет сканировать, не переключаясь между окнами, и не отвлекаясь от основной работы за компьютером.
После того как вы сделали копию книги в FineReader, нужно сохранить изображения (меню "Файл"). Если вся книга черно-белая, то сохранять нужно в один tiff-файл в формате ч/б Group 4. Если есть цветные картинки в общем ч/б тексте, то их нужно сохранять отдельно (впрочем, можно сохранить всю книгу в цветных tiff, если компьютер позволяет). Если сканировали в сером, то сохраняете все в сером tiff тоже одним файлом.

Дальше открываете чудовищную программу Workflow Manager из состава Document Express Editor. Программа, кстати, стоит 4 тысячи долларов, но на интерфейсе явно кто-то экономил. Добавляете изображение (если у вас один tiff, то, естественно, только его), если есть цветные картинки, то по очереди соответствующие файлы. Ставите галочку Perform OCR, если хотите включить возможность поиска по тексту, выбираете язык. Если файлов с изображениями несколько, во вкладке Output выбираете One document only. Потом ставите галочку в столбце Enable. Через некоторое время в папке, где лежали исходные tiff-файлы, появляется книга в формате djvu. Всё. Получается книга, которая удовлетворяет всем вышеперечисленным условиям.

Поклонники перфекционизма могут использовать специальные программы для удаления мусора на страницах после сканирования, или же удалять его вручную.

В общем, если у вас есть хорошая книга, ею очень просто поделиться с общественностью.

Comments | Comment on this



[ Home | Update Journal | Login/Logout | Search | Viewing Options | Site Map ]

Hosted by uCoz