Дата зміни інформації:

Астрашенок М.О. ОЦИФРОВКА ДРУКОВАНИХ ДОКУМЕНТІВ

I курс, історичний факультет

Дяченко О.Ф., старший викладач
кафедри математичних методів та СА

Маріупольський державний університет

Маріуполь

Оцифровка друкованих документів – це переклад їх зображення, отриманого зазвичай через сканер або фотоапарат, в якій-небудь електронний формат. Розглянемо основні  практичні способи оцифровки, доступні широкому колу користувачів персональних комп’ютерів.

Найчастіше в оцифрованих файлах використовуються  формати для  DJVU та PDF. Формат DJVU дозволяє стискати растрове зображення дещо краще , ніж PDF , проглядається дещо швидше , а також більш зручний в технічній обробці. Файли DJVU стійкіші до збоїв , ніж PDF , і менш залежні від версії переглядача , оскільки формат DJVU набагато простіше. DJVU-файли ( по теперішньому стандарту ) дозволяють робити гіперлінкі на іншу сторінку того ж документа, але не на інший файл, не на сайт інтернету , і не на вибране місце на даній сторінці, однак це можна робити в PDF. Отже, формат DJVU нескладний , документований і містить гнучкий механізм додавання метаінформації.

Розглянемо найбіль розповсюджені програмні продукти Програмидля сканування зображень. Kofax Web Capture – забезпечує всеосяжний інструментарій для створення потужних веб -додатків з можливістю перегляду / сканування зображень.

Kofax Web Capture розширює можливості введення документів в точці їх отримання за допомогою мережі Інтернет, забезпечуючи більш швидке і ефективне рішення для виконання бізнес – процесів.

ScánKromsátor – програма для обробки зображень , отриманих при скануванні книг , журналів та іншої друкованої подукции. Результат обробки оптимізований для збереження в DjVu або PDF форматах. Розроблено для операційної системи Microsoft Windows , але може працювати і в операційній системі Linux (при використанні Wine).

Scan Tailor – це інтерактивний інструмент для пост – обробки сканованих сторінок. Він робить такі операції як розрізання сторінок , компенсація нахилу , додавання / видалення полів , та інші. Ви даєте йому необроблені скани , а в результаті отримуєте сторінки , готові для друку або збірки в PDF або DJVU файл. Сканування , оптичне розпізнавання символів , а також збірка багатосторінкових документів не входять в завдання проекту .

Можливості програми: виправлення орієнтації (поворот сторінок) , розрізування сторінок , компенсація нахилу ( для горизонтального вирівнювання рядків) , виділення корисної області , додавання полів. Мінуси: немає автоматичного визначення ширини книги і приведення розмірів всіх її сторінок до єдиного значення, немає конвертації формату та DPI зображень.

Автор програми поставив мету в максимальному ступені спростити використання програми, автоматизувати процеси обробки зображень. Цим пояснюється лаконічний інтерфейс і мінімальна кількість налаштувань. Як зазначив сам розробник на форумі Ru- Board .

LizardTech – компанія – виробник геоінформаційних програмних продуктів і технологій. Штаб – квартира – у м. Сіетл, штат Вашингтон. Компанія відома своїми технологіями кодування на основі вейвлет- перетворення – кодувальником і Просмотровщик MrSID , спочатку запропонованим для уряду США як стандарт для ринку геопросторових додатків.

Програма ABBYY Finereader може розпізнавати тексти високої якості і зберігати исходники. Існують три версії програми: Profesional , Home і Corporate Edition . Кожна з програм відрізняється зовнішнім виглядом , технічними можливостями і ціною. Розпізнати текст з книги і редагувати його можна за допомогою Home версії. Corporate підтримує спеціальні можливості і мережеві сканери для роботи одночасно декількох користувачів.

Таким чином, грамотний вибір програми для сканування є одним з головних кроків до оцифрування документів . Перетворення документа в електронний вигляд ділиться на два етапи : отримання графічного образу документа і переклад графічного образу в текстовий формат . Графічний образ документа є результатом сканування. Переклад графічного образу документа в текстовий формат може бути проведений вручну або за допомогою автоматичного розпізнавання. Вибір програм залежить від розміру документу, від його властивостей і функцій.

Литература:

  1. http://www.gpntb.ru/win/inter-events/crimea2012/disk/149.pdf
  2. http://www.novojonov.ru/content/soft-electronic-archive/08-scan-ocr.aspx#r2
  3. http://ru.wikibooks.org/wiki/%CE%F6%E8%F4%F0%EE%E2%EA%E0_%EF%E5%F7%E0%F2%ED%FB%F5_%F2%E5%EA%F1%F2%EE%E2
  4. http://www.archivarius.ru/page3.php?id=13

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Введіть цифри, що зображені у квадратах *