I курс, історичний факультет
Дяченко О.Ф., старший викладач
кафедри математичних методів та СА
Маріупольський державний університет
Маріуполь
Оцифровка друкованих документів – це переклад їх зображення, отриманого зазвичай через сканер або фотоапарат, в якій-небудь електронний формат. Розглянемо основні практичні способи оцифровки, доступні широкому колу користувачів персональних комп’ютерів.
Найчастіше в оцифрованих файлах використовуються формати для DJVU та PDF. Формат DJVU дозволяє стискати растрове зображення дещо краще , ніж PDF , проглядається дещо швидше , а також більш зручний в технічній обробці. Файли DJVU стійкіші до збоїв , ніж PDF , і менш залежні від версії переглядача , оскільки формат DJVU набагато простіше. DJVU-файли ( по теперішньому стандарту ) дозволяють робити гіперлінкі на іншу сторінку того ж документа, але не на інший файл, не на сайт інтернету , і не на вибране місце на даній сторінці, однак це можна робити в PDF. Отже, формат DJVU нескладний , документований і містить гнучкий механізм додавання метаінформації.
Розглянемо найбіль розповсюджені програмні продукти Програмидля сканування зображень. Kofax Web Capture – забезпечує всеосяжний інструментарій для створення потужних веб -додатків з можливістю перегляду / сканування зображень.
Kofax Web Capture розширює можливості введення документів в точці їх отримання за допомогою мережі Інтернет, забезпечуючи більш швидке і ефективне рішення для виконання бізнес – процесів.
ScánKromsátor – програма для обробки зображень , отриманих при скануванні книг , журналів та іншої друкованої подукции. Результат обробки оптимізований для збереження в DjVu або PDF форматах. Розроблено для операційної системи Microsoft Windows , але може працювати і в операційній системі Linux (при використанні Wine).
Scan Tailor – це інтерактивний інструмент для пост – обробки сканованих сторінок. Він робить такі операції як розрізання сторінок , компенсація нахилу , додавання / видалення полів , та інші. Ви даєте йому необроблені скани , а в результаті отримуєте сторінки , готові для друку або збірки в PDF або DJVU файл. Сканування , оптичне розпізнавання символів , а також збірка багатосторінкових документів не входять в завдання проекту .
Можливості програми: виправлення орієнтації (поворот сторінок) , розрізування сторінок , компенсація нахилу ( для горизонтального вирівнювання рядків) , виділення корисної області , додавання полів. Мінуси: немає автоматичного визначення ширини книги і приведення розмірів всіх її сторінок до єдиного значення, немає конвертації формату та DPI зображень.
Автор програми поставив мету в максимальному ступені спростити використання програми, автоматизувати процеси обробки зображень. Цим пояснюється лаконічний інтерфейс і мінімальна кількість налаштувань. Як зазначив сам розробник на форумі Ru- Board .
LizardTech – компанія – виробник геоінформаційних програмних продуктів і технологій. Штаб – квартира – у м. Сіетл, штат Вашингтон. Компанія відома своїми технологіями кодування на основі вейвлет- перетворення – кодувальником і Просмотровщик MrSID , спочатку запропонованим для уряду США як стандарт для ринку геопросторових додатків.
Програма ABBYY Finereader може розпізнавати тексти високої якості і зберігати исходники. Існують три версії програми: Profesional , Home і Corporate Edition . Кожна з програм відрізняється зовнішнім виглядом , технічними можливостями і ціною. Розпізнати текст з книги і редагувати його можна за допомогою Home версії. Corporate підтримує спеціальні можливості і мережеві сканери для роботи одночасно декількох користувачів.
Таким чином, грамотний вибір програми для сканування є одним з головних кроків до оцифрування документів . Перетворення документа в електронний вигляд ділиться на два етапи : отримання графічного образу документа і переклад графічного образу в текстовий формат . Графічний образ документа є результатом сканування. Переклад графічного образу документа в текстовий формат може бути проведений вручну або за допомогою автоматичного розпізнавання. Вибір програм залежить від розміру документу, від його властивостей і функцій.
Литература: