Предлагается способ распознавания текстов с помощью ЦФК:
1. Для съемки лучше воспользоваться штативом, если он есть, и если съемка ведется в "домашних" условиях (или там, где штатив возможно использовать). Вспышку лучше не использовать, т.к. она обычно "выбеливает" буквы, и часть текста может просто пропасть. В любом случае, освещение она дает неравномерное. Кроме того, штатив позволяет максимально ровно и без перекосов установить камеру относительно текста.
2. Чтобы страница заняла максимально возможную площадь кадра, нужно воспользоваться зумом (оптическим, естественно). Это лучше делать еще и потому, что на многих ЦФК (особенно ультразумах и ультракомпактах) на широком угле присутствуют достаточно заметные бочкообразные искажения. На среднем зуме они обычно практически отсутствуют.
3. Переснять все страницы и скопировать их в компьютер. Если съемка велась так, что кадры оказались по-разному повернуты, привести их все к одной ориентации (чтобы можно было потом использовать пакетную обработку для всех кадров разом).
4. Перевести изображение в ч/б (цвет все равно обычно не нужен; и ч/б повышает скорость последующих обработок).
5. Сделать равномерным по якрости фон, применив фильтр Highpass.
5а. Можно также увеличить размер картинки в 2 раза (последующие этапы лучше отработают).
6. С помощью Levels разом убить несколько зайцев: убрать шумы (вообще), сделать абсолютно белым фон, поднять контраст, слишком жирные буквы сделать более тонкими и лучше различимыми.
7. С помощью Unsharp mask поднять краевую резкость и усилить четкость букв.
Вот и вся обработка. Можно один раз подобрать параметры каждого этапа для первой страницы, а все остальные обрабатывать на автомате с помощью actions/batch processing (для этого нужно все действия записать в Action в фотошопе). Все это, конечно, при условии, что в процессе съемки не менялось освещение (впрочем, обычно так оно и бывает).
Далее останется "загнать" все подготовленные страницы в ПО для распознавания текста.
С ЦФК гораздо быстрее делать пересъемку, чем работать со сканером. Пока засунешь страницу в сканер, пока он ее прочтет - на страницу минимум 2 минуты надо, и это на самых быстрых сканерах. С ЦФК один раз установил штатив над табуреткой, и только переворачивай страницы и жми спуск. На одну страницу уходит полминуты. ЦФК позволяет "справиться" с книгами, которые нельзя расшивать и "расплющивать" в сканере. Далее - настроив в фотошопе один раз обработку, сделать "action" на все файлы.
Кроме того, ЦФК поможет в тех случаях, когда пересъемку нужно производить там, где нет ни компьютера, ни сканера. В таком случае по-другому переснять текст просто не получится.
В некоторых последних моделях компактных ЦФК есть специальный режим пересъемки текстов. После съемки страницы камера автоматически устраняет перспективные искажения, возникающие в результате возможных перекосов камеры при пересъемке (особенно при съемке с рук).
Сообщение отредактировал АНТ: 29 Ноябрь 2007 - 19:12












