Арлазаров В.Л., Емельянов Н.Е. (Ред.). Управление информационными потоками

URSS. 2002. 368 с. ISBN 5-354-00130-7. Букинист. Состояние: 4. На обложке незначительные загрязнения.

Серия: Труды Института системного анализа РАН

Белая офсетная бумага

Мягкая обложка

Аннотация

В сборнике представлены теоретические исследования и прикладные разработки по управлению потоками информации в сложных системах. Круг рассматриваемых вопросов включает общие представления об управлении информацией, о реализации и использовании хранилищ данных, а также обращении электронных документов в организациях.

Сборник адресован исследователям и разработчикам информационных систем.

This issue presents the articles on theoretical... (Подробнее)

Оглавление

Арлазаров В. Л., Емельянов Н. Е. Системы обработки документов. Основные компоненты
	1.	Классификация систем обработки документов
	2.	Основные компоненты систем обработки документов
	3.	Некоторые примеры использования компонент
Арлазаров В. В. Управление информационными потоками в системе автоматического ввода документов
Арлазаров В. В., Постников В. В., Шоломов Д. Л. Cognitive Forms – система массового ввода структурированных документов
Арсеньев С. Б., Бритков В. Б., Маленкова Н. А. Использование технологии анализа данных в интеллектуальных информационных системах
Богданов А. С., Емельянов Н. Е., Ерохин В. И. Индексация и поиск объектов в СУБД НИКА
	1.	Модель данных СУБД НИКА
	2.	Структура индекса. Процедуры автоматического создания и обновления индекса
	3.	Наследование характеристик объектов
	4.	Алгоритм выполнения запроса
	5.	Операции для работы с индексом
	6.	Предварительная обработка БД
	7.	Типовая организация запроса
Бритков В. Б., Смирницкий А. В. Системный анализ основных направлений разработки комплексных корпоративных систем управления
Бузикашвили Н. Е., Куратов П. А., Усков А. В. Задача построения базиса известного размера для разложения словаря
	1.	Постановка задачи
	2.	Предварительное обсуждение
	3.	Метод наичастого
	4.	Метод надбазиса
		4.1.	Выбор надбазиса
		4.2.	Выделение базиса из надбазиса
	5.	Строгие алгоритмы построения базиса, учитывающие зависимость строк
	6.	Сравнение методов
Бузикашвили Н. Е. Оценки величины среднего покрытия словаря
Даниленко А. Ю., Подрабинович А. А., Сургучев В. А., Хлюстов К. В. Распространение электронных документов в глобальных и локальных сетях с использованием клиент-серверной архитектуры
	1.	Описание модуля "Сервер Системы"
		1.1.	Формат запроса
		1.2.	Формат ответа на запрос
		1.3.	Основные операции
		1.3.1.	Список объектов.
		1.3.2.	Список реквизитов.
		1.3.3.	Создание документа.
		1.3.4.	Создание папки.
		1.3.5.	Запрос на поиск.
		1.3.6.	Работа со словарем.
		1.3.7.	Список групп доступа.
		1.3.8.	Содержимое папки.
		1.3.9.	Удаление объектов.
		1.3.10.	Редактирование документа.
		1.3.11.	Получение реквизитов документа.
	2.	Описание "Сервера приложений"
	3.	HTTP Сервер
		3.1.	Общая организация выполнения команд
		3.2.	Проверка доступности файла
		3.3.	Форматы принимаемых Url
		3.4.	Настройки системы
	4.	Рабочее место – "Клиентский Евфрат"
		4.1.	Работа с серверными документами
	5.	Защита и безопасность системы
		5.1.	Защита данных при нормальном функционировании системы
		5.2.	Защита от хакерских атак (некорректное функционирование системы)
Емельянов Н. Е., Ерохин В. И. Оперативный анализ данных СУБД НИКА
	1.	Модель данных
	2.	Задание аналитических функций
	3.	Реализация
Емельянов Н. Е., Рытикова Ю. В. Интеграция знаний и их представление в тренинговых системах
Ефимов П. А. Об устойчивости региональных фондовых рынков
	1.	Современное состояние рынка ценных бумаг
	2.	Влияние интернет-индустрии на фондовый рынок на примере США
	3.	Российский фондовый рынок
	4.	Региональные фондовые рынки
	5.	Ценные бумаги средних и мелких предприятий России
	6.	Западные инвесторы и региональный бизнес
	7.	Устойчивый фондовый рынок
Ключко Н. В. О понятии "управление информацией"
Кляцкин В. М., Котович Н. В. Применение методов вычислительной геометрии для поиска линейных объектов
	1.	Ассоциативная структура как основа быстрых алгоритмов автоматической классификации
	2.	Точечные ассоциативные структуры
	3.	Распределенные ассоциативные структуры
	4.	Линейные ассоциативные структуры
	5.	Применение АС в задачах поиска линейных объектов на изображениях
Кляцкин В. М., Котович Н. В., Славин О. А. Многопроходная схема распознавания документов с обучением
Кузык М. Г. Проблемы функционирования института государственных представителей в органах управления акционерных обществ с государственным участием в капитале
Макаров И. М., Ахрем А. А., Рахманкулов В. З. О некоторых математических задачах общей теории проектирования сложных технических систем
	1.	Введение
	2.	Геометрический критерий грубой диагонализуемости линейных динамических систем
Плискин Е. Л. Документный метод доступа к иерархической базе данных
	1.	Назначение
	2.	Источники
	3.	Отличительные особенности
	4.	Пример использования
		4.1.	Трансляция описания данных
		4.2.	Генерация кода C++
		4.3.	Сборка библиотеки Sample.dll из сгенерированных классов
		4.4.	Пример прикладной программы на C++
		4.5.	Пример программы на Visual Basic
	5.	Сервисная библиотека Database.dll
		5.1.	Типы вершин в БД Ника
		5.2.	Состояние вершины в памяти
		5.3.	Структурные вершины
		5.4.	Массивы
		5.5.	Итераторы
		5.6.	Терминальные вершины
		5.7.	Сохранение изменений
	6.	COM-надстройка DbCom.dll
		6.1.	Интерфейс IVertex
		6.2.	Срок жизни документа в памяти
		6.3.	Сборка мусора
		6.4.	Интерфейс IStructure
		6.5.	Интерфейс IArray
		6.6.	Интерфейс IIterator
		6.7.	Интерфейс ITerminal
Порай Д. С. Обработка документов как основа построения информационных систем
	1.	Жизненный цикл документа
	2.	Примеры преобразований
		2.1.	Входные преобразования
		2.2.	Выходные преобразования
	3.	Формальное определение документа
	4.	Унифицированный доступ к документам
	5.	Хранение документов в базах данных
		5.1.	Реляционные БД
		5.2.	Иерархические БД
		5.3.	Объектно-ориентированные БД
		5.4.	XML-файлы
	6.	Эффективность
	7.	База документов
	8.	Web-приложения
	9.	Сервер приложений
	10.	Интеграция с устаревшими системами
	11.	Проектирование и язык UML
	12.	Предыстория
Порай Д. С. Представление документов в формате XML
	1.	Цель данной работы
	2.	Предыстория
	3.	Терминология
	4.	Модель данных
	5.	Общие положения
	6.	Простые типы
	7.	Представление реквизитов и метаданных
	8.	Представление сущностей (объектов)
	9.	Преобразование недопустимых символов
	10.	Обозначение в схеме документов и коллекций документов
	11.	Ссылки
	12.	Эффективность
Рахманкулов В. З., Ахрем А. А. Об адекватности виртуальных компьютерных моделей процессов автоматизированного проектирования сложных технических систем
	1.	Введение
	2.	Понятие адекватности виртуальных и реальных процессов проектирования
Рахманкулов В. З., Ахрем А. А., Герасимов В. В. Алгоритм распознавания объемных образов на базе модифицированного метода максимальной клики
	1.	Введение
		1.1.	Формирование и ввод изображений в ЭВМ
		1.2.	Обработка бинарных изображений
		1.3.	Распознавание объектов и интерпретация сцен
	2.	Модифицированный метод максимальной клики
		2.1.	Составление назначений
		2.2.	Проверка совместимости назначений
	3.	Формирование матрицы смежности V_М
		3.1.	Поиск максимальной клики графа назначений G
		3.1.1.	Определения и основные свойства клик графа G
		3.1.2.	Алгоритм Брона-Кербоша нахождения наибольшего максимального независимого множества графа G
	4.	Примеры распознавания
	5.	Заключение
Романов Б. Л. Представление структурированных информационных объектов в виде электронных форм
Славин О. А., Федоров Г. О. Вопросы распознавания текста, оцифрованного с помощью видеокамер
	1.	Примеры программ видеорегистраторов
	2.	Распознавание автомобильных номеров
	3.	Распознавание номеров вагонов
Соловьев А. В., Логинов А. С. Анализ и прогнозирование тенденций развития научно-технических решений
	1.	Введение
	2.	Основные определения и базовые понятия
		2.1.	Динамические и статические ряды
		2.2.	Этапы исследования
	3.	Сбор информации
		3.1.	Патенты, как источник информации для анализа в НТС
		3.2.	Сбор информации для анализа
	4.	Процедуры первичного анализа
		4.1.	Системный анализ
		4.2.	Подготовка данных для построения временных рядов и их анализ
		4.2.1.	Динамический анализ
		4.2.2.	Статический анализ
		4.2.3.	Что же дальше?
	5.	Процедуры прогнозирования
		5.1.	Выбор модели
		5.2.	Процедура подбора параметров
		5.2.1.	Преобразование ряда к стационарному виду
		5.2.2.	Проверка стационарности ряда
		5.2.3.	Определение параметра $d$ с помощью конечных разностей
		5.2.4.	Работа со стационарными рядами или рядами, приведенными к стационарному виду
		5.2.5.	Малопредставительные ряды
	6.	Интерпретация результатов
	7.	Заключение
Шилов А. А. О систематизации безреберных и объединенных графов на основе разбиений
	1.	Введение
	2.	Способ систематизации графов на основе разбиений
	3.	Периодическая система реберных графов
	4.	Система безреберных графов
	5.	Периодическая система объединенных графов
	6.	Общая периодическая система графов
	7.	Заключение

Управление информационными потоками в системе автоматического ввода документов

Арлазаров В.В.

Статья посвящена организации ввода и распознавания документов известной структуры. Рассматриваются основные этапы технологии и методы управления потоком информации через множество рабочих мест. Показывается зависимость выбора метода управления потоком от его интенсивности.

В настоящее время все большее распространение получают системы, автоматизирующие процесс ввода и обработки документов. Основное внимание уделяется документам, имеющим жесткую структуру. Под такими документами понимаются деловые бумаги, в которых априорно задается структура, то есть определены топологические и геометрические соотношения всех элементов. К таким документам относятся различные платежные квитанции, анкеты, почтовые карточки и тому подобное. По существу, имеется следующая проблема: есть документ, на котором есть, с одной стороны, данные, которые присущи всем документам этого типа, и эти данные являются статическими, и, с другой стороны, данные, являющиеся переменными (например, надпись "Фамилия, Имя, Отчество", встречающаяся в большинстве документов, относится к статическим данным, а непосредственно фамилия, имя и отчество – к переменным). Обработка таких документов заключается в том, что необходимо выделить переменные данные и перевести их в электронный текстовый вид. Наличие жесткой структуры позволяет выделять из общего потока однотипные документы, а уже непосредственно в документе выделять отдельные места, в которых расположена искомая информация; модели описания таких документов обсуждаются в [1, 2, 3].

Создание систем потокового ввода документов предусматривает решение пяти основных задач.

Во-первых, создание технологической цепочки, позволяющей переводить в электронный вид большое число документов, представленных на бумаге. Здесь используются появившиеся в последнее время мощные сканеры, обрабатывающие до 150 страниц в минуту, или большое количество низко производительных сканеров (до 6–12 страниц в минуту), или несколько сканеров средней производительности (30–50 страниц в минуту). В процессе ввода документы проходят несколько этапов обработки, часть из которых полностью автоматизирована, часть выполняется с минимальным взаимодействием с пользователем.

Во-вторых, полученные графические образы документов необходимо отсортировать. В общем случае необходимо распределить получившуюся "кучу" (несортированный набор графических образов документов) по "корзинам". В каждой "корзине" должны находиться документы одного типа ("корзина" почтовых открыток, платежных поручений и т.д.). Здесь необходимо решить задачу формализации характеристик, определяющих тип документа. Таких характеристик должно быть достаточно, чтобы однозначно отделить один тип от другого. С другой стороны, излишняя детализация может привести как к существенному увеличению количества отбракованных документов, т.е. не подходящих ни к одному типу, так и к неоправданному усложнению решения задачи управления потоком. Алгоритмы идентификации и подходы к решению задачи формализации характеристик формы обсуждаются в работах [1–6].

В-третьих, на уже отсортированных графических представлениях документов необходимо определить те места, на которых расположены искомые переменные данные, используя при этом заранее известную структуру документа.

В-четвертых, данные, расположенные в местах, определенных в предыдущей задаче, необходимо перевести из графического вида в текстовый. При решении этой задачи используются системы оптического распознавания текстов, представляющие собой интенсивно развивающийся сектор рынка программного обеспечения. Наиболее известными российским пользователям являются такие системы, как "Cuneiform", "Tiger", "Fine Reader".

В-пятых, полученные и распознанные данные необходимо записать в соответствующую базу данных или информационную систему.