V курс, фізико-математичний факультет
Малежик П. М., канд. фіз.-мат. наук
Національний педагогічний університет імені М.П. Драгоманова
Київ
Для розпізнавання текстів, тобто перекладу з графічного зображення в текстовий формат, служать програми оптичного розпізнавання текстів (OCR). Оптичне розпізнавання тексту (англ. optical character recognition, OCR) – це механічне або електронне переведення збереженого рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі. Оптичне розпізнавання тексту дозволяє:
- редагувати текст;
- здійснюваті пошук по словах або фразах;
- зберігати його в компактнішій формі;
- демонструвати або роздруковувати матеріал, не втрачаючи якості;
- аналізувати інформацію;
- застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.[1]
FineReader — система оптичного розпізнавання символів, розроблена російською компанією ABBYY. Програма для розпізнавання тексту дозволяє швидко і точно переводити зображення документів і PDF-файли в електронні формати, придатні для редагування(Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV і текстові (plain text) файли). Інтуїтивно-зрозумілий інтерфейс програми дозволяє одним натисканням мишки розпізнати документи 189 мовами.[2]
FineReader – єдина в світі OCR-система, яка діє відповідно до принципів функціонування нашої зорової системи на всіх етапах обробки документа.
Цілісність (integrity) – об’єкт розглядається як сукупність своїх частин і просторових відносин між ними. Цілеспрямованість (purposefulness) – оскільки будь-яка інтерпретація даних переслідує певну мету, то і розпізнавання являє собою процес висунення гіпотез про об’єкт і цілеспрямованої їх перевірки. Адаптивність(adaptability) – система зберігає накопичену в процесі роботи інформацію і використовує її повторно, тобто відбувається самонавчання. Відповідна технологія носить назву IPA – за першими літерами англійських термінів.
ABBYY розробили спеціальний алгоритм MDA (multilevel document analysis, багаторівневий аналіз документа). Структура сторінки аналізується методом зверху-донизу (від складових елементів до окремих символів), а відтворення електронного документа після закінчення розпізнавання відбувається знизу-догори, проте на всіх рівнях додатково діє механізм зворотнього зв’язку.
Більшість сучасних OCR діють на трьох рівнях: символів, слів, сторінок. Однак ABBYY, відповідно до принципів IPA, ввела в FineReader ще один рівень – всього багатосторінкового документа. Перш за все це знадобилося для коректного відтворення логічної структури, яка в сучасних документах стає все складніше.
Саме для цього і була розроблена ADRT (Adaptive Document Recognition Technology) – технологія аналізу і синтезу документа на логічному рівні. В кінцевому підсумку вона допомагає зробити результат роботи FineReader максимально схожим на оригінал.[3]
Серед подібних до Abby FineReader систем можна назвати:
- SimpleOCR;
- OmniPage;
- Readiris;
- CuneiForm.
Окремо слід виділити Tesseract – це система розпізнавання текстів, що у 1985-1994 рр. розроблялася Hewlett-Packard, а з 2006 є вільною і поширюється компанією Google та дуже стрімко розвивається у останні роки.[4]
Отже, оптичне розпізнавання текстів є зручним інструментом для створення цифрових документів з паперових оригіналів. Текстове подання дозволяє здійснювати подальшу обробку інформації, отриману шляхом сканування або фотографування. Актуальність розпізнавання текстів зросла з набуттям поширення пристроїв для читання електронних книг, що дозволяє створити більш комфортні умови читання. Завдяки оптичному розпізнаванню, значно спростилося завдання пошуку інформації у електронних бібліотеках (можна знайти не лише том або розділ книги, а навіть конкретні речення або слова)[5].
Список використаних джерел:
- Оптичне розпізнавання текстів [Електронний ресурс]. – Режим доступу: http://uk.wikipedia.org/wiki/Оптичне_розпізнавання_символів
- FineReader [Електронний ресурс]. – Режим доступу: http://ru.wikipedia.org/wiki/ABBYY_FineReader.
- IXBT [Електронний ресурс]. – Режим доступу: http://www.ixbt.com/soft/finereader.shtml.
- Tesseract [Електронний ресурс]. – Режим доступу: http://uk.wikipedia.org/wiki/Tesseract.
- Система оптичного розпізнавання символів ABBYY FineReader. Версiя 9.0. Посiбник користувача. 2007 ABBYY.
В статті висвітлена корисна інформація про програми оптичного розпізнавання тексту. На мою думку, тема є дуже актуальною в даний час, особливо для студентів. Розглянуто деякі програми оптичного розпізнавання текстів, подана їх коротенька характеристика, можливості і мета створення.
Гарна стаття. Дякую. Інформація корисна, особливо для студентів та молодих спеціалістів. В повсякденному житті користуюсь цією програмою, тому можу засвідчити її необхідність. Щоправда, бажано періодично скачувати її нові версії для полегшення роботи.
Дійсно, FineReader є деже корисною та необхідною програмою, яка полегшує роботу при навчанні. За допомогою неї ми взагалі можемо не припереписувати тексти з помібників, готуючит до семінару чи практичного заняття, що значно зекономить час , а також не потрібно буде брати великих підручників. Деякі посібники знаходяться в дуже обмеженом екзимплярі, або взагалі зняті з виробництва. За допомогою цієї програми, ми можемо пересканувати такі підручники і користуватись ними в будь який час.