20. Сканирование текстов

Сканирование текстов

На практике часто приходиться вводить в компьютер информацию из текстовых документов, например, из книг; журналов и газет. Чтобы ускорить этот процесс, применяют сканеры. Однако результат сканирования, вообще говоря, есть просто графическое изображение (рисунок), хотя и содержащее буквы (нарисованные). Если вы сохранили его в файле графического формата, то сможете открыть потом лишь в редакторе или программе просмотра графики. Хотя редактировать тексты в графическом редакторе в принципе возможно, на практике, конечно, никто этого не делает (кроме того, изображение текста с точки зрения компьютера текстом не является, редактировать его придется как рисунок). К тому же хранить текстовую информацию в файлах графического формата — верх расточительности в использовании дискового пространства. Текстовая информация вместе с иллюстративной графикой сканируется, чтобы затем передать ее программе оптического распознавания символов (OCR), например, FineReader или CunieForm.

Рис. 130. Главное окно программы FineReader

С помошью программы OCR результат сканирования будет разделен на текст и рисунки (если они есть) и может быть сохранен в файле формата, доступного текстовым или табличным редакторам, например, MS Word или MS Excel.

Вы можете сначала отсканировать текстовый документ и сохранить результат в файле графического формата, например, JPEG или TIFF, а затем открыть его в программе OCR и выполнить распознавание (recognize) символов. Но можно поступить и иначе: выполнить сканирование прямо из программы OCR, а затем произвести распознавание. Мы предпочитаем именно этот путь. Кстати, многие программы OCR позволяют произвести сканирование и распознавание с помошью одной команды. Однако в случае, когда вы сканируете много фрагментов, а распознаете лишь некоторые из них, лучше разъединить эти процессы.

Современные программы OCR справляются с ситуацией, когда оригинал положен на рабочее поле сканера не очень прямо. Это удобно, поскольку можно просто небрежно бросать оригиналы на рабочее поле, не слишком заботясь об их выравнивании. Однако не советуем вам злоупотреблять этой возможностью.
Некоторые программы OCR требуют, чтобы текстовый документ был отсканирован в режиме Artline. Солидные и современные программы OCR не обременят вас этим ограничением.

Если оригинал представляет собой просто текст без графики, то сканировать его нужно в режимах Artline или Gray. Режим Artline обычно применяют к высококачественным отпечаткам текста без иллюстраций, полученным, например, с помошью лазерного или струйного принтера. Разрешение сканирования выбирается в зависимости от размера шрифта. Для шрифтов размеров 12 пт и менее разрешение в режиме Artline устанавливают около 400—450 ppi. Для более крупных шрифтов разрешение можно уменьшить до 200-300 ppi. В режиме Gray на один пиксел требуется в 8 раз больше памяти, чем в режиме Artline . Однако при сканировании текстов в этом режиме можно устанавливать меньшее разрешение, чем в режиме Artline , — примерно 150-300 ppi в зависимости от размера и гарнитуры шрифта. Если объем занимаемой памяти и время сканирования для вас не критичны, то советуем выбирать режим Gray. При сканировании документов, содержащих, кроме текста, картинки, следует выбирать режим Gray (или Color, если требуется получить цветные изображения картинок). В этих режимах сканирования удается получить больше графической информации об оригинале, которая важна для высококачественного распознавания символов.

Программа OCR при распознавании текста в графическом изображении использует словари разных языков, что позволяет ей исправлять дефекты сканирования. Тем не менее, ошибки распознавания текста все же остаются. Перед тем как инициировать собственно распознавание, просмотрите результат сканирования.

Прежде всего следует обратить внимание на качество отображения таких букв, как «е» и «с», «к» и «н», «л» и «п», «i» и «1», «r» и «г». Если случаев взаимной замены в перечисленных парах букв много, лучше повторить сканирование при большем разрешении. Если результат распознавания содержит слишком много ошибок, то также советуем повторить процедуру сканирования при большем разрешении.

Если вам предстоит сканировать множество страниц с текстовой информацией примерно одинакового качества, то целесообразно сначала не спеша правильно подобрать параметры сканирования. Это можно сделать с помощью экспериментов над небольшим фрагментом документа. Подобрав оптимальные значения параметров, можно затем поставить сканирование и распознавание на поток. Программное обеспечение сканеров и OCR обычно имеют специальную команду, задающую пакетный режим работы (Buth mode).

130.gif

Изображение: