Выставляю свой первый и последний опыт сканирования книг. Файл получился в 28 мб. У кого-то была очекнь маленькая версия алтаса Крюкова в 2 мб. Но мой вариант по качеству на порядок выше. Я там все страницы с большим разрешением через сканер прогнал. Всё же атлас, живёт такое издание картинками. Текста минимально. Вот как такую книжку сжать и качество фотографий не потерять?
http://s161156143.onlinehome.us/boroda/Lit...tlasKryukov.pdf
Оцифровка текста
Автор Boroda, 02 Окт 2006 20:47
Сообщений в теме: 15
#1 Отправлено 02 Октябрь 2006 - 20:47
#2 Гость_Valera_* Отправлено 03 Октябрь 2006 - 08:20
Книжки сканирую в ABBYY FineReader 6.0 Corporate Edition, далее обрабатываю в DjVu Solo, Акробат не нравится, т.к. при распознавании текста, тот текст который не распознан, нужно либо править, либо оставлять так в виде картинок, и получается каша, шрифты и картинки прыгают. А в DjVu Solo сохраняется картинка как есть, и сжимает он лучше Акробата (картинки). Я сам попробую перевести Атлас Крюкова в электронный вид, а потом выложу подробное описание всех режимов.
#3 Отправлено 03 Октябрь 2006 - 08:25
ABBYY FineReader 8.0 + Acrobat 6.0 Картинки надо в фотошопе "дожимать". если размер большой очень, а качество сохранить хотите...
Оставлять текст в картинках не стоит, места много занимает...
Попозже изложу свое мнение...
Оставлять текст в картинках не стоит, места много занимает...
Попозже изложу свое мнение...
#4 Гость_Valera_* Отправлено 03 Октябрь 2006 - 14:20
Если не оставлять текст в картинках (в Акробате), то значит нужно полностью все распознавать и перепроверять, а представте себе уважаемый myt если вы сканируете допустим "Судмед баллистику" это около 600 страниц, проверь все, на это уйдут месяцы. Кстати были притензии где то к Диагностикумам в акробате, т.к. формулы неправильно отсканированы и распознаны. Мое мнение в акробате можно сохранять только маленькие книги, где можно все быстро перепроверить.
Сегодня провел эксперименты с Атласом Бороды. Скачал его по вышеизложенной ссылке, FineReader-ом открыл файл, сохранил все страницы как jpg файлы (серый), получилось 42,3 мб (в среднем файлы с разрешением 2135х2850). Затем DjVu Solo переконвертировал в DjVu формат предложеное программой разрешение при переконвертации оставил (оно влияет в последующем только на распечатку текста на листе проверял!), и галочку оставил в режиме СКАНИРОВАННОЕ, получился файл Атласа размером 5,23 мб. Читаемость текста такая же, качество картинок и фотографий то же как у Бороды.
Затем программой IrfanView (используя потоковые операции) уменьшил размеры всех jpg картинок до 50% от истинных, все файлы получились размером 25,2 мб (где то 1090х1440),
перекодировал в DjVu формат, при разных режимах у меня получилось:
Сканированное 9,29 мб -качество текста нормальное, картинки нормальные, фотографии нормальные
Фото 17,9 мб все в принципе то как и у Бороды
Чистый 2,16 мб текст нормальный, картинки нормальные, фотографии в темных местах черные участки, а в светлых белые все практически без полутонов
Двутональное 1,94 мб текст нормальный картинки то же а фото два тона черный и белый
Затем еще раз попробовал исходные картинки уменьшил до 25% общий размер 8,1 мб (около 550х750) и перекодировал в режиме сканированные. Получился файл размером 3,29 мб качество такое же как и 50% в режиме чистый.
Сегодня провел эксперименты с Атласом Бороды. Скачал его по вышеизложенной ссылке, FineReader-ом открыл файл, сохранил все страницы как jpg файлы (серый), получилось 42,3 мб (в среднем файлы с разрешением 2135х2850). Затем DjVu Solo переконвертировал в DjVu формат предложеное программой разрешение при переконвертации оставил (оно влияет в последующем только на распечатку текста на листе проверял!), и галочку оставил в режиме СКАНИРОВАННОЕ, получился файл Атласа размером 5,23 мб. Читаемость текста такая же, качество картинок и фотографий то же как у Бороды.
Затем программой IrfanView (используя потоковые операции) уменьшил размеры всех jpg картинок до 50% от истинных, все файлы получились размером 25,2 мб (где то 1090х1440),
перекодировал в DjVu формат, при разных режимах у меня получилось:
Сканированное 9,29 мб -качество текста нормальное, картинки нормальные, фотографии нормальные
Фото 17,9 мб все в принципе то как и у Бороды
Чистый 2,16 мб текст нормальный, картинки нормальные, фотографии в темных местах черные участки, а в светлых белые все практически без полутонов
Двутональное 1,94 мб текст нормальный картинки то же а фото два тона черный и белый
Затем еще раз попробовал исходные картинки уменьшил до 25% общий размер 8,1 мб (около 550х750) и перекодировал в режиме сканированные. Получился файл размером 3,29 мб качество такое же как и 50% в режиме чистый.
#5 Отправлено 03 Октябрь 2006 - 16:07
Уважаемый Valera!
Горю желанием посмотреть что получилось. 3 мб это приемлимый объём для интернета. Не могли бы Вы нам этот файл выставить, в крайнем случае можете послать его мне на адрес.
8.dogma@gmail.com
Я выставлю его опять на фтп сервере для всех, как и файл из первого топика.
DjVu к сожалению в интернете не распространён. Я теперь уже наверное лет как 10 в интернете торчу. Пережил несколько смен поколений техники и программ. Выживают не самые лучшие программы, а самые распространённые. Иногда это совпадает, но далеко не всегда. Так что на перспективу я бы не стал делать ставку на DjVu. Боюсь, что лет через пять и не вспомнит никто что это за формат был. pdf это уже классика. Все всё в этом формате в Европе и в Америке делают. Он останется и будет дальше развиваться.
Поэтому у меня вопрос. Можно DjVu быстро и без потерь качества в pdf переформатировать?
Горю желанием посмотреть что получилось. 3 мб это приемлимый объём для интернета. Не могли бы Вы нам этот файл выставить, в крайнем случае можете послать его мне на адрес.
8.dogma@gmail.com
Я выставлю его опять на фтп сервере для всех, как и файл из первого топика.
DjVu к сожалению в интернете не распространён. Я теперь уже наверное лет как 10 в интернете торчу. Пережил несколько смен поколений техники и программ. Выживают не самые лучшие программы, а самые распространённые. Иногда это совпадает, но далеко не всегда. Так что на перспективу я бы не стал делать ставку на DjVu. Боюсь, что лет через пять и не вспомнит никто что это за формат был. pdf это уже классика. Все всё в этом формате в Европе и в Америке делают. Он останется и будет дальше развиваться.
Поэтому у меня вопрос. Можно DjVu быстро и без потерь качества в pdf переформатировать?
#6 Отправлено 03 Октябрь 2006 - 17:28
Boroda сказал:
Можно DjVu быстро и без потерь качества в pdf переформатировать?
Например выложенный Valer`ой на фсм пятый том диагностикума, рисунок на стр.6. Распаковывается он из формата DjVu в bmp файл размером 9 мбайт, при этом содеожит всего 6 цветов, и то все - оттенки серого (RGB). Всего то в рисунке исходном 2 цвета - черный и белый, а в запакованной страничке - целых 6 цветов и формат (RGB, т.е. хошь ни хошь, но комп считает, что в рисунке 256 в кубе цветов = 16777216 цветов). Грузим файл в фотошоп, убираем данные о цвете (вместо RGB делаем градации серого). Размер картинки падает в 3 раза, до 3 мегабайт.
Затем переводим в битовый формат и получаем абсолютно то же изображение, пиксель в пиксель, но файл при этом размером 0,44 мегабайта.
Я бы перевел, но те самые места на рисунках, которые вместо черного и белого серым слегка размыты при пакетной обработке расплываются, а править все вручную - это уж увольте...
Понятно, что DjVu хорошо упаковывает, но, согласитесь, если ему вместо 9 метров 0,4 метра подсунуть упаковать, то размер конечного файла будет несколько отличаться :D .
Boroda сказал:
pdf это уже классика.
#7 Отправлено 03 Октябрь 2006 - 20:33
Valera сказал:
кробат не нравится, т.к. при распознавании текста, тот текст который не распознан, нужно либо править, либо оставлять так в виде картинок, и получается каша, шрифты и картинки прыгают.
Вот оно, то что я искал. Значит все-таки Акробат такие штуки делает.
Я бы еще хотел заострить внимание на программах, которые позволяют пакетно, т.е. скопом, обрабатывать большое количество картинок и т.д. Возиться с каждой страницей - смерть.
Валерап уже писал, но нельзя ли подробнее. Что есть, кто и что рекомендует.
#8 Гость_Valera_* Отправлено 04 Октябрь 2006 - 04:33
Да нераспознанный текст в Акробате остается в виде картинок.
Я как уже писал для пакетного изменения множества картинок использую IrfanView, простая бесплатная программа с множеством возможностей, а главное быстро.
Книги некоторые я запортил, т.к. стремясь уменьшить размер файла, применял двухтоновые или чистые режимы DjVu Solo, а надо было сканированные.
Уважаемый Борода, я по ссылке http://www.webfile.ru/1135606 разместил Ваш атлас, правда 5 Мб версию. А в предыдущем своем топике написал не совсем правильно, сдернули меня на вызов, и я не перепроверил свой текст. В 3 мб качество картинок такое же как и 50% в режиме чистый, текст почему то половина серый и половина нормальный , т.е. буквы пестрые, фотографии удовлетворительные.
На мой взгляд по отношению размер-качество оптимальный 5 мб.
Я как уже писал для пакетного изменения множества картинок использую IrfanView, простая бесплатная программа с множеством возможностей, а главное быстро.
Книги некоторые я запортил, т.к. стремясь уменьшить размер файла, применял двухтоновые или чистые режимы DjVu Solo, а надо было сканированные.
Уважаемый Борода, я по ссылке http://www.webfile.ru/1135606 разместил Ваш атлас, правда 5 Мб версию. А в предыдущем своем топике написал не совсем правильно, сдернули меня на вызов, и я не перепроверил свой текст. В 3 мб качество картинок такое же как и 50% в режиме чистый, текст почему то половина серый и половина нормальный , т.е. буквы пестрые, фотографии удовлетворительные.
На мой взгляд по отношению размер-качество оптимальный 5 мб.
#9 Гость_Valera_* Отправлено 04 Октябрь 2006 - 08:18
Цитата
Я бы еще хотел заострить внимание на программах, которые позволяют пакетно, т.е. скопом, обрабатывать большое количество картинок и т.д. Возиться с каждой страницей - смерть.
Я еще не знаю как в форуме прикрепить файл, но небольшой видеоролик по пакетному преобразованию файлов используя IrfanView я сбросил по ссылке:
http://www.webfile.ru/1135848
Имя файла clip0001.avi Размер 2010 кб
Файл будет доступен минимум до 04.10.2006 12:12
#10 Отправлено 04 Октябрь 2006 - 09:06
Andrey сказал:
Я бы еще хотел заострить внимание на программах, которые позволяют пакетно, т.е. скопом, обрабатывать большое количество картинок и т.д. Возиться с каждой страницей - смерть.
НАсчет распознавания текста. Взял текст в виде картинок из того же выложенного Valerой 5 тома диагностикума. Из многоцветного bmp перевел в битовый формат с разрешенем 72 пикс/дюйм. Ошибок распознавания - 1 на три страницы. При распознавании нередактированного исходника - по 10-20 нераспознанных символов на страницу, вот такая разница...
#11 Отправлено 05 Октябрь 2006 - 19:20
Сделал Filin(у) сегодня фотокопию вестника.
http://s161156143.onlinehome.us/boroda/Lit...Westnik05-1.pdf
http://s161156143.onlinehome.us/boroda/Lit...Westnik05-1.pdf
#12 Отправлено 05 Октябрь 2006 - 20:05
Boroda сказал:
Сделал Filin(у) сегодня фотокопию вестника
Не могу разобрать там выходные данные (на последней странице), но кажется, что копирайт толком не прописан.
Может можно выкладывать их тиражи на сайте?
Кто-нить имеет постоянный доступ к свежим тиражам?
#13 Отправлено 05 Октябрь 2006 - 20:44
Тиражи это круто сказано. Всего два номера вышло. В конце года третий планируется. Если бы они хотели это в интернете опубликовать, то давно бы на ФСМ выложили. Но не выложили. Они же этим изданием старичков своих подвязали типа Витера к сотрудничеству, а для старичков интернет дело не серьёзное, как игра в бирюльки. Не делают они этого. А вот печатное издание понимает каждый. Поэтому публиковать в интернете они это не будут. Тогда никто покупать не будет, а спонсировать такую газетку дороговато будет.
Не стал бы я выставлять без спросу. Андрей, а мою лицензию ты не стал в открытый раздел выставлять?
Не стал бы я выставлять без спросу. Андрей, а мою лицензию ты не стал в открытый раздел выставлять?
#14 Отправлено 06 Октябрь 2006 - 01:20
Так они продают эту газету или так распространяют?
Если продают, то, конечно, нельзя выкладывать.
Надо выложить, я просто не успеваю все делать. Выложу.
Если продают, то, конечно, нельзя выкладывать.
Boroda сказал:
Не стал бы я выставлять без спросу. Андрей, а мою лицензию ты не стал в открытый раздел выставлять?
Надо выложить, я просто не успеваю все делать. Выложу.
#15 Отправлено 06 Октябрь 2006 - 05:15
Andrey сказал:
Так они продают эту газету или так распространяют?
Нам этот вестник присылали бесплатно. Следующий выпуск, как я понял, планируется на хорошей полиграфии, стоить он будет около 194 тыс. руб. (спонсоры какие-то подключаются). Как будет распространятся 3-ий и последующие номера, не знаю.
#16 Отправлено 06 Октябрь 2006 - 09:55
Сделал Filin(у) сегодня фотокопию и второго вестника 14,5 мб.
http://s161156143.onlinehome.us/boroda/Lit...Westnik06-2.pdf
Если Вестник не продавали, то можно при публикации типа комментарий написать.
Как нам сообщили первые два номера "Вестника..." распространялись свободно и лишь начиная с 3-го номера издание становится коммерческим и его планируется распространять на платной основе. Мы поддерживаем это интересное начинание и выставляем в свободном доступе два первых рекламных выпуска.
Предупреждаем, что из соображений маркетинга издания его авторы могут в любой момент прекратить свободный доступ к нему.
Андрей я за выставление обоих номеров с этим или подобным комментарием, но тебе, как админу решать. Тогда может и моя рецензия сгодится.
http://s161156143.onlinehome.us/boroda/Lit...Westnik06-2.pdf
Если Вестник не продавали, то можно при публикации типа комментарий написать.
Как нам сообщили первые два номера "Вестника..." распространялись свободно и лишь начиная с 3-го номера издание становится коммерческим и его планируется распространять на платной основе. Мы поддерживаем это интересное начинание и выставляем в свободном доступе два первых рекламных выпуска.
Предупреждаем, что из соображений маркетинга издания его авторы могут в любой момент прекратить свободный доступ к нему.
Андрей я за выставление обоих номеров с этим или подобным комментарием, но тебе, как админу решать. Тогда может и моя рецензия сгодится.












