Некоторые аспекты создания электронных копий печатных документов: от планшетных сканеров до документ-сканера DocExpress DX1460.

В настоящее время все большую актуальность приобретает задача создания электронных копий различных печатных документов. Раньше для решения данной задачи в основном использовались планшетные сканеры, но они имеют ряд очень существенных недостатков: от сложности в использовании, небольшой производительности, невозможности сканирования сброшюрованных документов и др. Одним из главных недостатков являются размеры устройства, что означает почти полную невозможность использования планшетного сканера вне основного рабочего места (на выезде к клиенту, в командировках).

В последнее время для сканирования документов большое распространение получают так называемые документ-сканеры или документ-камеры. Эти устройства, по сути, представляют собой цифровой фотоаппарат на штативе. Но если для современного цифрового фотоаппарата считается нормой матрица 16 МП (мегапикселей), то большинство предлагаемых документ-камер (документ-сканеров) редко оснащены матрицей более 3 - 5 МП. Принимая во внимание тот факт, что наиболее часто используемое при работе с обычными планшетными сканерами разрешение составляет 300 dpi (dot-per-inch – точек-на-дюйм), то стандартный лист А4 (300мм х 210мм) будет иметь около 8,5 МП (3400х2500). Учитывая это, можно сказать, что большинство предлагаемых на рынке документ-камер не являются адекватной заменой планшетному сканеру как по разрешению, так и по качеству получаемого изображения. Конечно, необходимо отметить, что для решения очень многих задач будет достаточно и матрицы в 3 МП, ведь не всегда при работе с планшетным сканером используется разрешение в 300 dpi, иногда вполне достаточно и 100 dpi.

Еще более "острой" ситуация становится, когда появляется потребность создания электронных копий документов формата А3 (420мм х 300мм). Это могут быть различные чертежи, рисунки, схемы, графики и большие таблицы. А если они входят в состав единых документов, например, законченных отчетов, из которых невозможно извлечь отдельную страницу, то ситуация вообще становится неразрешимой. Стоимость планшетных сканеров формата А3 совсем не радует, модели бюджетных устройств можно пересчитать по пальцам одной руки, а о том, чтобы взять его с собой на выезд речи вообще нет. Отметим, что при том же разрешении 300 dpi лист А3 будет имеет уже около 17 МП (4900х3500).

Поэтому практически единственным устройством, которое позволяет создавать электронные копии документов формата А3, остается документ-камера. Но разрешения большинства из них может не хватить для получения изображения требуемого качества, ведь нужна матрица с хотя бы 14 – 17 МП.

Подытоживая все вышеизложенное можно сформулировать требования, которым должна удовлетворять документ-камера, предназначенная для создания электронных копий практически любого типа документов как на рабочем месте, так и "на выезде":

  • область захвата не менее 420мм х 300мм (формат А3);

  • количество пикселей на матрице не менее 14 МП (мегапикселей);

  • функция автофокусировки;

  • встроенная подсветка;

  • небольшие размеры и масса.

Устройством, наиболее близко соответствующим данным требованиям, является документ-сканер DocExpress DX1460. Остановимся на нем более подробно.

Вот основные характеристики документ-сканера:

  • общее количество пикселей на матрице 14,6 МП

  • поддерживаемые разрешения 4416 x 3312, 2208 x 1656, 1920 x 1080, 1280 x 720, 640 x 480, 320 x 240

  • цветовое представление RGB 24 bit

  • сохраняемые форматы TIFF, BMP, PNG, GIF, JPEG (с настройкой качества)

  • штатив раздвижной с возможностью фиксации в 5-и положениях

  • зона съемки, мм 340 х 260 (в нижнем положении)
    460 х 340 (в верхнем положении)

  • фокусировка автоматическая с возможностью ручной подстройки

  • встроенная подсветка 6 светодиодов

  • подключение к компьютеру USB

  • поддерживаемые ОС Windows

  • масса 840 г

  • габаритные размеры (ДхШхВ), мм 190х80х280 (сложенное положение)
    355х80х280 (мин. рабочее положение)
    355х80х355 (макс. рабочее положение)

Раздвижной штатив и возможность складывания обеспечивает данному устройству компактность в "походном" положении, а в сочетании с небольшой массой выгодно отличает его от многих аналогов и позволяет взять с собой даже в самолет без риска перегруза багажа.

                                                в сложенном положении                                             в рабочем положении

При полностью выдвинутом штативе рабочее поле составляет 460мм х 340мм, что на 20% превышает площадь формата А3. При этом разрешение будет равно почти 250 dpi. Штатив имеет несколько фиксированных положений, но может быть установлен и в любом промежуточном, что позволяет выбрать наиболее оптимальное положение для конкретного документа с целью максимального использования возможностей документ-сканера для обеспечения максимального качества изображения. Так в нижнем положении штатива рабочее поле будет 340мм х 260мм (что больше А4) , а разрешение возрастет до 330 dpi.

В качестве примера ниже представлено изображение, полученное с данного документ-сканера (страница из альбома карт размером 280 мм х 390 мм), а также для сравнения эта же страница в формате А4 с документ-сканера и планшетного сканера с одинаковым разрешением (здесь и далее щелчок на изображении открывает оригинальный файл).

Устройство работает в цветовом представлении RGB 24 бит/пиксель, максимальный изображения равен 4416 х 3312 пикселей. Изображение может быть сохранено в форматах TIFF, BMP, PNG и JPEG (с компрессией). При сохранении в формате JPEG есть возможность регулировки степени сжатия, а значит и качества. Здесь необходимо заметить, что изображение максимального размера в оригинальном (несжатом) виде занимает около 42 МБ и передача такого количества данных от документ-сканера в компьютер может занимать довольно продолжительное время. Поэтому производитель оснастил данное устройство высокоскоростным интерфейсом USB 3.0 и задержка при сохранении файла с изображением (передача данных) практически не заметна. Но отсутствие USB 3.0 на компьютере вовсе не означает, что к нему нельзя подключить документ-сканер. Это устройство прекрасно работает и при подключении к USB 2.0, которым оснащены практически все современные компьютеры, включая и ноутбуки. Правда, в этом случае придется смириться с задержками в передаче данных, которые будут постоянно возникать в процессе работы. Так сохранение файла максимального разрешения может занимать около 4 секунд и довольно медленно будет обновляться изображение на экране компьютера.

Документ-сканер работает только под управлением ОС Windows. В состав ПО входят драйверы VFM, WDM и TWAIN, что делает возможным использование устройства в приложениях, поддерживающие данные драйверы.

Также в комплект поставки входит программное обеспечение ImageCenter (на DVD), позволяющее позволяет не только управлять параметрами устройства, выполнять оцифровку (сканирование) документов, но и предлагает несколько интересных функций, которые могут быть полезны при работе.

Одной из таких функций является автоматическое выделение объекта на темном фоне, удаляя поля по краям изображения и выравнивая объект по вертикали и горизонтали. Для реализации этой функции объект должен быть размещен на контрастном фоне, например, на специальном прорезиненном мате, одна сторона которого черная, другая белая. Такой мат входит в комплект поставки. На следующих рисунках представлены исходное изображение объекта и сохраненное изображение.

Данная возможность позволяет значительно уменьшить затраты времени при сканировании документов, т.к. получаемые изображения не будут требовать дополнительной обработки.

Другой полезной функцией может оказаться добавление в изображение средств защиты - "водяных знаков". Эта функция может применяться не только для идентификации или пометки документа, но может служить своеобразной защитой от несанкционированного копирования. В качестве "водяных знаков" может использоваться текст или изображение с регулируемой прозрачностью. Возможна автоматическая вставка даты/времени. Ниже представлены некоторые примеры (оригинал и три варианта).

Имеется также режим Автооцифровки: съемка серии изображений с заданным интервалом между кадрами (на смену или переворачивание страниц) и, при необходимости, в комбинации другими функциями программы, например, с автоматическим выделением объекта. Это может быть полезно при сканировании книг, отчетов других многостраничных документов. При этом выполняется автоматическая нумерация файлов в соответствии с заданным шаблоном, причем можно задать сначала оцифровку нечетных страниц, а затем четных (или наоборот).

Нельзя обойти вниманием такую функцию как одновременное сканирование нескольких документов с возможностью записи их изображений в отдельные файлы. Поясним это на следующем примере. Например, необходимо сделать электронные копии обложек DVD для включения в общую базу данных или библиотеку. Все объекты размещаются в поле зрения объектива документ-сканера DX1460 и настраивается тип фон (черный или белый).

После запуска процесса оцифровки получается три отдельных файла. Причем совершенно необязательно очень точно и аккуратно размещать объекты в поле зрения объектива сканера, поскольку во время сканирования группы объектов включается алгоритм отслеживания положения объекта и обрезки изображения в соответствии с его границами.

Справедливости ради необходимо отметить, что данная функция умеет правильно выделять только три объекта и не больше.

В программу ImageCenter также встроен модуль распознавания текстов, разработанный компанией Abbyy, который, как известно, позволяет при сканировании текстовых документов получать сразу текстовые файлы доступные для обработки в текстовых редакторах (в данном случае в формате Microsoft Word). Для правильной работы это функции сначала необходимо задать язык OCR. В процесс сканирования и распознавания текстовый файл отображается в окне редактирования и его можно при необходимости подправить. Обобщая опыт сканирования различных документов можно констатировать, что OCR достаточно хорошо работает только с одноязычными текстами, состоящими из одной колонки. Также нужно отметить, что если в тексте очень немного вставок другого языка, то этот текст легко отредактировать прямо в окне редактирования программы и сохранить в нужном виде, не прибегая к использованию других программных средств. Нельзя сказать, что результат распознавания идеален, но в большинстве случаев вполне приемлем.

С многоязычными или многоколоночными текстами программа распознавания не работает. Это же касается одновременного сканирования двух страниц книги на развороте. В этом случае текст воспринимается программой как в дух колонкач и данный алгоритм не работает. Что касается документов с табличными структурами, типа счетов или счетов-фактур, то из них можно извлекать текстовую составляющую, что в некоторых случаях может оказаться полезным.

Есть также возможность сканирования и распознавания штрих-кодов Barcode и QRCode. Комментировать это не будем, заметим только, что эта функция работает.

- 9785940743392          - www.mediavision-mag.ru

Ну в заключении надо предупредить и о возможных проблемах использования. Все заложенные в устройство возможности прекрасно работают пока сканируемые документы представляют собой достаточно «плоские» объекты (отдельные листы, тонкие брошюры, расшиваемые папки), то и качество получаемых цифровых копий (изображений) вполне приемлемое. Но ситуация меняется как только объект сканирования становится многостраничным – книги, толстые отчеты, где отдельные листы сброшюрованы в толстые папки. В случае с толстой книгой скан документа выглядит следующим образом:

На данном рисунке отчётливо видны все недостатки получаемых электронных копий таких документов. Толщина книги и наличие переплета не позволяют раскрыть документ на угол, необходимый для качественной съемки, в результате получаются изображения с искажением и даже частичным скрытием текста в области корешка книги. Символы, попавшие в эту область, труднодоступны для прочтения, а копии страниц толстых книг зачастую имеют трапециевидную форму. Кроме того характерным недостатком является возникновение затемнения/осветления в корешковых полях книги. Налицо падение качества создаваемых цифровых копий. Всё сказанное справедливо и для толстых многостраничных папок с документами. Можно, конечно, попробовать если не устранить совсем, то хотя бы уменьшить упомянутые выше недостатки, например, с помощью обычного стекла достаточного размера. Но здесь могут возникнуть другие трудности: увеличение времени на сканирование и привносимые стеклом блики, что потребует изменить систему освещения.

Вообще для сканирования толстых книг существуют специальные устройства, но, учитывая их очень высокую стоимость и значительные размеры, их применение оправдано только в архивах или крупных библиотеках, что выходит за рамки данного обзора.

С учётом всего вышеизложенного можно сказать, что применение документ-сканера DOKO CamScanner X510 в качестве альтернативы планшетному сканеру оправдано следующих случаях:

  • мобильная работа с документами на выезде;

  • оперативное получение цифровых копий рабочих документов;

  • оцифровка нерасшиваемых папок документов малых и средних объемов;

  • получение копий документов размером больше А3;