Перейти к содержимому

Forens.Ru — сообщество русскоговорящих судебно-медицинских экспертов

Оцифровка текста


Сообщений в теме: 15

#1 Boroda Отправлено 02 Октябрь 2006 - 20:47

  • tеаm
  • 3 817 сообщений
  • бл-я Евразия
Выставляю свой первый и последний опыт сканирования книг. Файл получился в 28 мб. У кого-то была очекнь маленькая версия алтаса Крюкова в 2 мб. Но мой вариант по качеству на порядок выше. Я там все страницы с большим разрешением через сканер прогнал. Всё же атлас, живёт такое издание картинками. Текста минимально. Вот как такую книжку сжать и качество фотографий не потерять?

http://s161156143.onlinehome.us/boroda/Lit...tlasKryukov.pdf

#2 Гость_Valera_* Отправлено 03 Октябрь 2006 - 08:20

  • Гости
Книжки сканирую в ABBYY FineReader 6.0 Corporate Edition, далее обрабатываю в DjVu Solo, Акробат не нравится, т.к. при распознавании текста, тот текст который не распознан, нужно либо править, либо оставлять так в виде картинок, и получается каша, шрифты и картинки прыгают. А в DjVu Solo сохраняется картинка как есть, и сжимает он лучше Акробата (картинки). Я сам попробую перевести Атлас Крюкова в электронный вид, а потом выложу подробное описание всех режимов.

#3 myt Отправлено 03 Октябрь 2006 - 08:25

  • tеаm
  • 3 849 сообщений
ABBYY FineReader 8.0 + Acrobat 6.0 Картинки надо в фотошопе "дожимать". если размер большой очень, а качество сохранить хотите...
Оставлять текст в картинках не стоит, места много занимает...
Попозже изложу свое мнение...

#4 Гость_Valera_* Отправлено 03 Октябрь 2006 - 14:20

  • Гости
Если не оставлять текст в картинках (в Акробате), то значит нужно полностью все распознавать и перепроверять, а представте себе уважаемый myt если вы сканируете допустим "Судмед баллистику" это около 600 страниц, проверь все, на это уйдут месяцы. Кстати были притензии где то к Диагностикумам в акробате, т.к. формулы неправильно отсканированы и распознаны. Мое мнение в акробате можно сохранять только маленькие книги, где можно все быстро перепроверить.
Сегодня провел эксперименты с Атласом Бороды. Скачал его по вышеизложенной ссылке, FineReader-ом открыл файл, сохранил все страницы как jpg файлы (серый), получилось 42,3 мб (в среднем файлы с разрешением 2135х2850). Затем DjVu Solo переконвертировал в DjVu формат предложеное программой разрешение при переконвертации оставил (оно влияет в последующем только на распечатку текста на листе проверял!), и галочку оставил в режиме СКАНИРОВАННОЕ, получился файл Атласа размером 5,23 мб. Читаемость текста такая же, качество картинок и фотографий то же как у Бороды.
Затем программой IrfanView (используя потоковые операции) уменьшил размеры всех jpg картинок до 50% от истинных, все файлы получились размером 25,2 мб (где то 1090х1440),
перекодировал в DjVu формат, при разных режимах у меня получилось:
Сканированное 9,29 мб -качество текста нормальное, картинки нормальные, фотографии нормальные
Фото 17,9 мб все в принципе то как и у Бороды
Чистый 2,16 мб текст нормальный, картинки нормальные, фотографии в темных местах черные участки, а в светлых белые все практически без полутонов
Двутональное 1,94 мб текст нормальный картинки то же а фото два тона черный и белый
Затем еще раз попробовал исходные картинки уменьшил до 25% общий размер 8,1 мб (около 550х750) и перекодировал в режиме сканированные. Получился файл размером 3,29 мб качество такое же как и 50% в режиме чистый.

#5 Boroda Отправлено 03 Октябрь 2006 - 16:07

  • tеаm
  • 3 817 сообщений
  • бл-я Евразия
Уважаемый Valera!

Горю желанием посмотреть что получилось. 3 мб это приемлимый объём для интернета. Не могли бы Вы нам этот файл выставить, в крайнем случае можете послать его мне на адрес.

8.dogma@gmail.com

Я выставлю его опять на фтп сервере для всех, как и файл из первого топика.

DjVu к сожалению в интернете не распространён. Я теперь уже наверное лет как 10 в интернете торчу. Пережил несколько смен поколений техники и программ. Выживают не самые лучшие программы, а самые распространённые. Иногда это совпадает, но далеко не всегда. Так что на перспективу я бы не стал делать ставку на DjVu. Боюсь, что лет через пять и не вспомнит никто что это за формат был. pdf это уже классика. Все всё в этом формате в Европе и в Америке делают. Он останется и будет дальше развиваться.

Поэтому у меня вопрос. Можно DjVu быстро и без потерь качества в pdf переформатировать?

#6 myt Отправлено 03 Октябрь 2006 - 17:28

  • tеаm
  • 3 849 сообщений

Boroda сказал:

Можно DjVu быстро и без потерь качества в pdf переформатировать?
Можно, если он сделан правильно. Например, зачем черно-белую картинку исходника сканировать с разрешением 300 dpi, я не понимаю? Если при печати самой книги такое разрешение не применялось? 300 dpi - это полиграфия дорогих журналов, а никак не офсетной печати наших дешевеньких редакций.


Например выложенный Valer`ой на фсм пятый том диагностикума, рисунок на стр.6. Распаковывается он из формата DjVu в bmp файл размером 9 мбайт, при этом содеожит всего 6 цветов, и то все - оттенки серого (RGB). Всего то в рисунке исходном 2 цвета - черный и белый, а в запакованной страничке - целых 6 цветов и формат (RGB, т.е. хошь ни хошь, но комп считает, что в рисунке 256 в кубе цветов = 16777216 цветов). Грузим файл в фотошоп, убираем данные о цвете (вместо RGB делаем градации серого). Размер картинки падает в 3 раза, до 3 мегабайт.
Затем переводим в битовый формат и получаем абсолютно то же изображение, пиксель в пиксель, но файл при этом размером 0,44 мегабайта.
Я бы перевел, но те самые места на рисунках, которые вместо черного и белого серым слегка размыты при пакетной обработке расплываются, а править все вручную - это уж увольте...

Понятно, что DjVu хорошо упаковывает, но, согласитесь, если ему вместо 9 метров 0,4 метра подсунуть упаковать, то размер конечного файла будет несколько отличаться :D .

Boroda сказал:

pdf это уже классика.
Совершенно верно, фишка еще в том, что он и на макинтошах идет, потому так распространен во всем мире, а для DjVu простому юзеру еще и дрова поискать придется (если он еще знает, что это такое - драйвер :D ).

#7 Andrey Отправлено 03 Октябрь 2006 - 20:33

    хун вен цвинь

  • teаm
  • 6 839 сообщений

Valera сказал:

кробат не нравится, т.к. при распознавании текста, тот текст который не распознан, нужно либо править, либо оставлять так в виде картинок, и получается каша, шрифты и картинки прыгают.


Вот оно, то что я искал. Значит все-таки Акробат такие штуки делает.

Я бы еще хотел заострить внимание на программах, которые позволяют пакетно, т.е. скопом, обрабатывать большое количество картинок и т.д. Возиться с каждой страницей - смерть.

Валерап уже писал, но нельзя ли подробнее. Что есть, кто и что рекомендует.

#8 Гость_Valera_* Отправлено 04 Октябрь 2006 - 04:33

  • Гости
Да нераспознанный текст в Акробате остается в виде картинок.
Я как уже писал для пакетного изменения множества картинок использую IrfanView, простая бесплатная программа с множеством возможностей, а главное быстро.
Книги некоторые я запортил, т.к. стремясь уменьшить размер файла, применял двухтоновые или чистые режимы DjVu Solo, а надо было сканированные.

Уважаемый Борода, я по ссылке http://www.webfile.ru/1135606 разместил Ваш атлас, правда 5 Мб версию. А в предыдущем своем топике написал не совсем правильно, сдернули меня на вызов, и я не перепроверил свой текст. В 3 мб качество картинок такое же как и 50% в режиме чистый, текст почему то половина серый и половина нормальный , т.е. буквы пестрые, фотографии удовлетворительные.
На мой взгляд по отношению размер-качество оптимальный 5 мб.

#9 Гость_Valera_* Отправлено 04 Октябрь 2006 - 08:18

  • Гости

Цитата

Я бы еще хотел заострить внимание на программах, которые позволяют пакетно, т.е. скопом, обрабатывать большое количество картинок и т.д. Возиться с каждой страницей - смерть.  

Я еще не знаю как в форуме прикрепить файл, но небольшой видеоролик по пакетному преобразованию файлов используя IrfanView я сбросил по ссылке:

http://www.webfile.ru/1135848
Имя файла clip0001.avi Размер 2010 кб
Файл будет доступен минимум до 04.10.2006 12:12

#10 myt Отправлено 04 Октябрь 2006 - 09:06

  • tеаm
  • 3 849 сообщений

Andrey сказал:

Я бы еще хотел заострить внимание на программах, которые позволяют пакетно, т.е. скопом, обрабатывать большое количество картинок и т.д. Возиться с каждой страницей - смерть.
Так ABBYY FineReader именно в пакетами и работает, затем это все пакетом передается в Акробат. Все автоматизировано.

НАсчет распознавания текста. Взял текст в виде картинок из того же выложенного Valerой 5 тома диагностикума. Из многоцветного bmp перевел в битовый формат с разрешенем 72 пикс/дюйм. Ошибок распознавания - 1 на три страницы. При распознавании нередактированного исходника - по 10-20 нераспознанных символов на страницу, вот такая разница...

#11 Boroda Отправлено 05 Октябрь 2006 - 19:20

  • tеаm
  • 3 817 сообщений
  • бл-я Евразия
Сделал Filin(у) сегодня фотокопию вестника.

http://s161156143.onlinehome.us/boroda/Lit...Westnik05-1.pdf

#12 Andrey Отправлено 05 Октябрь 2006 - 20:05

    хун вен цвинь

  • teаm
  • 6 839 сообщений

Boroda сказал:

Сделал Filin(у) сегодня фотокопию вестника

Не могу разобрать там выходные данные (на последней странице), но кажется, что копирайт толком не прописан.

Может можно выкладывать их тиражи на сайте?
Кто-нить имеет постоянный доступ к свежим тиражам?

#13 Boroda Отправлено 05 Октябрь 2006 - 20:44

  • tеаm
  • 3 817 сообщений
  • бл-я Евразия
Тиражи это круто сказано. Всего два номера вышло. В конце года третий планируется. Если бы они хотели это в интернете опубликовать, то давно бы на ФСМ выложили. Но не выложили. Они же этим изданием старичков своих подвязали типа Витера к сотрудничеству, а для старичков интернет дело не серьёзное, как игра в бирюльки. Не делают они этого. А вот печатное издание понимает каждый. Поэтому публиковать в интернете они это не будут. Тогда никто покупать не будет, а спонсировать такую газетку дороговато будет.

Не стал бы я выставлять без спросу. Андрей, а мою лицензию ты не стал в открытый раздел выставлять?

#14 Andrey Отправлено 06 Октябрь 2006 - 01:20

    хун вен цвинь

  • teаm
  • 6 839 сообщений
Так они продают эту газету или так распространяют?
Если продают, то, конечно, нельзя выкладывать.

Boroda сказал:

Не стал бы я выставлять без спросу. Андрей, а мою лицензию ты не стал в открытый раздел выставлять?

Надо выложить, я просто не успеваю все делать. Выложу.

#15 Valerich Отправлено 06 Октябрь 2006 - 05:15

  • team
  • 4 209 сообщений

Andrey сказал:

Так они продают эту газету или так распространяют?

Нам этот вестник присылали бесплатно. Следующий выпуск, как я понял, планируется на хорошей полиграфии, стоить он будет около 194 тыс. руб. (спонсоры какие-то подключаются). Как будет распространятся 3-ий и последующие номера, не знаю.

#16 Boroda Отправлено 06 Октябрь 2006 - 09:55

  • tеаm
  • 3 817 сообщений
  • бл-я Евразия
Сделал Filin(у) сегодня фотокопию и второго вестника 14,5 мб.

http://s161156143.onlinehome.us/boroda/Lit...Westnik06-2.pdf

Если Вестник не продавали, то можно при публикации типа комментарий написать.

Как нам сообщили первые два номера "Вестника..." распространялись свободно и лишь начиная с 3-го номера издание становится коммерческим и его планируется распространять на платной основе. Мы поддерживаем это интересное начинание и выставляем в свободном доступе два первых рекламных выпуска.
Предупреждаем, что из соображений маркетинга издания его авторы могут в любой момент прекратить свободный доступ к нему.


Андрей я за выставление обоих номеров с этим или подобным комментарием, но тебе, как админу решать. Тогда может и моя рецензия сгодится.





карта форума