Как сканировать книги. И выкладывать их в сеть. • Узнай-правду! (com)
Список форумов Узнай правду! com
Здравствуй, друг! Тебе крупно повезло! Ты попал на сайт, который может изменить твоё представление о мире, если твой мозг еще функционирует. А может и не изменить, если ты - "долбоёб". Это не оскорбление, это жизнь, это статистика. Большинство читающих эти строки и есть самые натуральные . И с помощью этого сайта вы это ясно увидите. Не хочется? Тогда лучше сразу ползите отсюда подобру поздорову. Чтение этого форума может вызвать отрицательные эмоции. А.Райкин говорил:"Зритель хлопает не тому, что ты, артист, талантливый, а тому что ОН ,зритель, умный!". Здесь вы точно хлопать не будете потому, что в зеркале увидите .Осознание своего долбоёбизма, - это первый шаг, чтобы перестать быть мудаком.
Здесь просыпаются, протирают глаза, поднимаются с колен, сбрасывают цепи, расправляют крылья.

Вы впервые на этом форуме? Тогда зайдите сюда, узнаете о чем он.
Но Системе проснувшиеся не нужны, а нужны именно "долбоёбы", поэтому копируйте этот форум себе, пока его не зогбанили.
как скачать себе и зачем?    Зеркало для мобильных uznai-pravdu.com/m     Копия
Новые сообщения
* Вход   * Регистрация   * FAQ     * Поиск перевод он-лайн
 

Архив страницы: (com)

Начать новую тему Ответить на тему  [ Сообщений: 3 ] 
Автор Сообщение
 Заголовок сообщения: Как сканировать книги. И выкладывать их в сеть.
Одно из самых толковых обьяснений как правильно сканировать текст и картинки, и потом это красиво и удобочитаемо оформлять.
Фак по сканированию с картинками.
http://yanko.lib.ru/scan/
Распознавание текста.
Посмотрите как легко и приятно читать сделанные им книги. Это надо сохранять.


Вернуться к началу
 не видно картинки-здесь uznai-pravdu.com/1/(архивная копия с картинками)
 Прочитал сам - поделись с другом, размести ссылку на других ресурсах
 Но форум снова закроют, и ссылка никуда не приведёт -> Копируйте ссылку вместе с текстом.
 Или Распечатай и дай почитать у кого нет компьютера. Будь активнее!  
 
 Заголовок сообщения: дело совсем не в dpi
для хорошего распознавания достаточно и 150 dpi, дело совсем не в dpi (точек на дюйм)


Цитата:
Если материал представлен в виде качественной (желательно высокой)
печати шрифтом 10 и более пунктов, то сканирование в разрешении 300 точек с
ручной установкой яркости дает более чем приемлемые результаты. Количество
ошибок на лист A4 стремится к нулю и колеблется в районе 1-5 неправильно
распознанных знаков. Установку яркости можно подобрать опытным путем, сводя
к минимуму помехи в виде рассыпанной по листу "сыпи", но в основном, яркость
на уровне 42-45% обеспечивает хорошее качество распознавания.


* РАБОТА С ТЕКСТОМ-"СЫРЦОМ" *
http://lib.ru/COMPULIB/ocr_bychkov.txt

Фотографии вполне нормальные для распознавания, надо поиграть с настройками - яркость, контрастность. Некоторые места могут получиться с ошибками в любом случае, при любом разрешении, это там где буквы не плотно были прижаты к стеклу во время сканирования.



Советы по сканированию:

1. Сканируйте и распознавайте за одну процедуру, используя любую программу OCR, понимающую русский язык, например, ABBYY FineReader.

2. Выставляйте разрешение 300dpi Grayscale (не black&white и не color)

3. Перед началом сканирования выполните гамма-коррекцию, чтобы настроить сканер на белизну бумаги и контрастность типографской краски. Пробная страница не должна иметь фон заметно темнее экранного белого (#FFFFFF), мусор на белом поле и разрывы в штрихах литер. Не жалейте времени на коррекцию, иначе потом придется потратить в десять раз больше на вычитку и ручное дописывание утраченных абзацев.

4. Обратите внимание, что переплет даже у средних по толщине изданий может создавать заметные тени на внутренней стороне разворота и нарушать геометрию текста, уводя его в перспективу. Поэтому нелишне будет прижимать книгу к стеклу сканера рукой или каким-нибудь грузом. Я обычно использую блин от штанги.

5. Из программы сканирования текст сохраняется в Word или plain txt, вычитывается, проходит корректуру, постраничные сноски преобразуются в концевой тезаурус, расставляется авторская разметка и курсив.

=====================
В свое время в частном письме один из форумчан задавал мне вопрос - а как избежать исчезновения знаков препинания и диакритики, если сканируется. к примеру, пиньинь.
Нужно сказать, что FineReader имеет вредную функцию Despeckle image/Очистить от мусора. Если надо, я пришлю картинку настроек для 6-й версии. См. Tools > Options > Scan/Open Image (Для пользователей русского интерфейса Сервис > Опции > Сканирование/Открытие). В 6-м снизу (он же 2-й сверху в группе Image processing/Обработка изхображений) чекбоксе галочки быть не должно!
Эта пакость должна быть ПРИНУДИТЕЛЬНО ОТКЛЮЧЕНА, в противном случае дополнительные проблемы с пунктуацией, буквами типа ё, й и любыми надстрочно-подстрочными знаками гарантированы.
Если у вас документ или книга с многочисленными рукописными помарками, полиграфической грязью или просо блеклой печатью на неважной бумаге - без контакта с фотошопом вам, увы, не обойтись.




Высокое разрешение влечет за собой больший размер файла, увеличивает
время обработки, размеры хранения и т.п. Для планшетного сканера
увеличение разрешения приводит к увеличению времени сканирования. Для
последующего распознавания нужно лишь 300 dpi, максимум не требуется.

http://www.atiz.ru/page.jsp?pk=node_1195748264247

Некоторые заметки по сканированию и распознаванию
http://yanko.lib.ru/scan/


Вернуться к началу
 не видно картинки-здесь uznai-pravdu.com/1/(архивная копия с картинками)
 Прочитал сам - поделись с другом, размести ссылку на других ресурсах
 Но форум снова закроют, и ссылка никуда не приведёт -> Копируйте ссылку вместе с текстом.
 Или Распечатай и дай почитать у кого нет компьютера. Будь активнее!  
 
 Заголовок сообщения: djvu формат не для текстов
Спасибо огромное за проделанную работу, только лучше перевести в текстовый формат.

А данный формат djvu достал тем, что его используют не по назначению.

Первоначально формат djvu предназначался для передачи графической информации (точнее электрических схем).

А потом некоторые придурки (по другому не скажешь), стали его использовать для текстовой информации (книги и т.д.),
и не подумали что полнотекстовый поиск для этого формата невозможны и поисковики его не индексируют (внутри djvu-файла нет текста, а только растровые картинки страниц).


Этот формат djvu совершенно не подходит для книг или текстов.
Только для детских книг с картинками.


Что можно сделать?

1. Экспорт из djvu в tif
2. распознавание в FineReader.
3. Экспорт в (txt, chm, pdf, html, doc и т.д.)

конвертор djvu -> pdf : http://www.print-driver.ru/howto/conver ... o_pdf.html rolleyes.gif

Еще один вариант: напечатать. Только перед печатью в качестве принтера выбрать Microsoft Office Document Image Writer и таким образом конвертировать в TIFF

Вот нормальная прога STDU Converter
Конвертирует Djvu и Tiff в PDF


Вернуться к началу
 не видно картинки-здесь uznai-pravdu.com/1/(архивная копия с картинками)
 Прочитал сам - поделись с другом, размести ссылку на других ресурсах
 Но форум снова закроют, и ссылка никуда не приведёт -> Копируйте ссылку вместе с текстом.
 Или Распечатай и дай почитать у кого нет компьютера. Будь активнее!  
 
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 


Перейти:  
 Тёмная сторона Америки. Самый большой антиамериканский сайт Рунета  Радио человеческого формата, круглосуточно, детям и взрослым, без рекламы и зомбирования. Гойские новости через ширму ЗАЗЕРКАЛЬЯ, профессор Столешников передаёт из Нью-Йорка  Аудиоверсия книги Юрия Козенкова Убийцы России. Проясняет мозги необыкновенно. 
Любые материалы с этого форума и форум целиком, можно свободно использовать и копировать без спросу.
В случае пропажи форума информация тут uznaipravdu.livejournal.com       зеркало    uznai-pravdu.ru  копия yz-p.ru/
tumblr hit counter