Задача распознавания печатных и рукопечатных (написанных от руки сходно с печатным начертанием) символов весьма актуальна для различных видов современных наукоемких технологий, использующих процесс оптического ввода (распознавания) документов, например для автоматической обработки платежных ведомостей в банках, результатов анкетирования или голосования, пенсионных форм и т.д. Область применения распознавания символов постоянно расширяется. Существенный прогресс в решении этой задачи наблюдается в последние годы благодаря развитию современных точных методов. Одним из них является регрессионный анализ, применению которого посвящена настоящая работа. В ней приведены частные, но, как показал опыт, весьма эффективные приложения полиномиальной регрессии к задаче распознавания. Постановка задачи осуществлялась с привлечением книги Шурмана [4]. Эта книга вызывает несомненный интерес, но содержит лишь общие сведения (формулы, рассуждения и т.д.) и никак не является практическим руководством по распознаванию на основе полиномиальной регрессии из-за отсутствия конкретных сведений о структуре используемых многочленов, а также ввиду рассмотрения растров 2х2, весьма далеких от реальных жизненных ситуаций. За прошедшее время разработанный метод был обучен и проверен на различных базах символов (печатные прямые буквы и цифры, печатные прямые и курсивные цифры, рукопечатные буквы и цифры, рукопечатная латиница). Практика показала, что он удовлетворяет высоким требованиям по качеству распознавания, быстродействию, монотонности оценок. Метод хорошо зарекомендовал себя при распознавании сильно зашумленных изображений (загрязненные и в значительной степени разрушенные вагонные номера). Разработанный алгоритм распознавания печатного и рукопечатного написания на базах графических символов с известными границами оформлен в виде библиотеки программ, состоящей из двух частей: обучения (с возможным дообучением) и распознавания для платформ Windows2000 / WindowsXP / Windows Vista / Windows 7. Библиотека готова к практическому использованию. Данный метод в течение ряда лет применяется в качестве одного из базовых методов распознавания рукопечатных цифровых реквизитов в одной из промышленных систем распознавания сложноструктурированных документов. Высочайшая монотонность оценок, генерируемых данным методом, позволяет использовать его в промышленной технологии стендирования распознавания печатных и рукопечатных документов как с известным заранее описанием структуры, так и без него. Вычислительная структура метода полиномиальной регрессии обеспечивает возможность глубокого мелкозернистого (fine gained) распараллеливания. С появлением и распространением технологий nVidia CUDA, ATI Stream, OpenCL и Microsoft DirectCompute это становится важным преимуществом метода при распараллеливании как средствами CPU (центрального процессора), так и с помощью GPU (средств графических карт). Относительное увеличение скорости для рассмотренного метода составляет 25–28 раз. Из вышесказанного становится очевидным, что за этим методом будущее, поскольку ускорение путем распараллеливания снимает ограничение на использование более сложных конструкций в рамках данного подхода. В гл.1 рассмотрены теоретические основы и аспекты практического применения метода распознавания образов печатных и рукопечатных символов, основанного на полиномиальной регрессии. Описываются характеристики качества программной реализации метода, определенные на базах графических образов символов с известными границами. Производится сопоставление с характеристиками известных алгоритмов распознавания символов, таких как нейронные сети и алгоритм сравнения с эталонными образами. В гл.2 показано наличие закономерностей в выставлении оценок распознавания. Введены понятия "среднестатистического" растра и вектора. Выявлены особенности распознавания их самих. Выполнен анализ характера распознавания в контексте этих величин. Изучено поведение оценки распознавания при увеличении "расстояния" между полиномиальным вектором/растром, построенным по изображению символа, и среднестатистическим вектором/растром этого символа по базе. Рассмотрен механизм формирования оценки как структуры из ряда случайных событий. Результаты получены на базе рукопечатных цифр, которая используется как для обучения, так и для распознавания. В гл.3 проведено сравнение закономерностей в выставлении оценок распознавания для печатных и рукопечатных цифр. Для каждого из символов найдено расположение правильно, неправильно распознанных его изображений, а также образов символов, отличных от данного. Введены понятия мелко-, средне- и крупномасштабных явлений при описании данного метода распознавания. Показано наличие структур на средне- и крупномасштабном уровнях. Разработан подход к исследованию зависимости качества распознавания от степени различия между базой обучения и полученной путем ее модификации базой распознавания. Изучена корреляция динамики среднестатистических величин (растров и полиномиальных векторов), а также качества распознавания в процессе изменения базы печатных и рукопечатных цифр. Инициатором издания данной книги был профессор Н.Е.Емельянов. К великому сожалению, этого достойнейшего человека уже нет с нами. Николай Евгеньевич проявлял искренний интерес к моим публикациям и высказал ряд рекомендаций по обобщению полученных результатов. Моральная поддержка в проведении исследований, обсуждения, советы и доброжелательное отношение к издательскому проекту со стороны чл.-корр. РАН проф. В.Л.Арлазарова и чл.-корр. РАН проф. Ю.С.Попкова сыграли важную роль в судьбе рукописи. Моя деятельность в области распознавания была начата благодаря дружескому участию А.В.Мисюрева. Следует подчеркнуть, что наиболее существенные основополагающие результаты были получены вместе с моим постоянным соавтором М.Б.Гавриковым. На различных этапах работы безусловно полезное влияние оказали сотрудники ИСА РАН Н.Е.Бузикашвили, А.Я.Подрабинович, А.В.Усков, В.В.Фарсобина. Я выражаю глубокую благодарность своим учителям, коллегам и друзьям, способствовавшим появлению этой книги. Я очень признательна Российскому фонду фундаментальных исследований, поддержавшему как издание книги (проект –07–07006-д), так и работы, определившие значительную часть содержания (проект –07–0700374-а). Надежда Владимировна ПЕСТРЯКОВА Кандидат физико-математических наук, старший научный сотрудник Института системного анализа РАН. Окончила Московский физико-технический институт. Область научных интересов – математическая физика, численные методы, машинное обучение, распознавание образов. Автор более 40 научных работ. |