Нашим женам – Наталье, Галине и Екатерине
Основная идея этой книги – показать связь двух активно развивающихся в настоящее время направлений – теорий информационного поиска и сложных сетей. Именно на стыке этих двух областей может лежать решение открытой проблемы эффективной навигации в современных информационных сетях. Самое подходящее название такой интеграции, нового научного направления – Интернетика. Во-первых, это направление является развитием информатики, и, что должно быть созвучно этому термину. Связь с теорией сложных сетей [116] обуславливает наличие корня "нет", однако подразумевается, что исследования в рамках данного направления выйдут за рамки конкретной сети Интернет, анализ которой, безусловно входит в сферу интернетики. Во-вторых, этот термин, хотя уже и встречается, но еще недостаточно устоялся. Известны по меньшей мере две трактовки термина "интернетика". В рамках первой интернетика рассматривается как прикладное научное направление, изучающее свойства и способы использования Интернет преимущественно в аспекте воздействия на социально-экономические процессы [35]. Эта трактовка, по нашему мнению, несколько сужает область исследований (хотя и способствует популярности). Вторая трактовка, автором которой является Дж. Фокс (G. Fox) из Сиракузского университета (США), заключается в том, что интернетика – это развитие информатики в направлении применения современных параллельных сетевых вычислений во всех областях науки, охватывая огромные ресурсы, распределенные в сетевой среде [91, 92]. Вторая трактовка понятия "интернетика", предполагающая использование методов точных наук гораздо ближе авторам, чем первая. Сегодня структура и объемы информационных потоков, в которых приходится выискивать крупицы необходимой, готовой к непосредственному использованию, обуславливают актуальность самого процесса поиска. Развитие Интернет породило ряд специфических проблем, связанных, в первую очередь, с возрастанием объемов данных в веб-пространстве, в том числе и бесполезных, шумовых. По-видимому, организация поиска необходимой информации в этом информационном хранилище требует новых подходов. Можно предположить, что современные информационные технологии готовы к подобному пересмотру принципов обеспечения доступа к сетевым данным. Многие подходы, излагаемые в этой книге, уже стали классическими и широко используются в практике информационного поиска и анализа информации. Авторы попытались дать систематический и вместе с тем достаточно популярный обзор основных моделей, рассматриваемых в рамках теории информационного поиска, научного направления, сформировавшегося в конце ХХ века. Кроме того, в книге также представлены процедурные основы фрактального анализа, который применяется для исследования информационных потоков. Сегодня в Интернет существует доступная для экспериментов динамичная информационная база такого объема, который ранее даже трудно было представить. При этом оказалось, что многие задачи, возникающие при работе с сетевым информационным пространством, имеют немало общего, например, с задачами теоретической физики. Это обстоятельство открывает широкие перспективы применения мощного аппарата естественных наук. Вместе с тем реальный прорыв в области информационного поиска возможен лишь в результате агрегирования различных научных направлений. Излагаемые в книге результаты исследований современного сетевого информационного пространства с нескольких, ранее порой конфликтующих точек зрения, могут представлять интерес как для специалистов в области компьютерной лингвистики, так и для прикладных математиков и физиков, например, в плане аналогового моделирования статистических процессов, в том числе систем с элементами самоорганизации. Книга ориентирована на достаточно широкий круг читателей: специалистов в области информационного поиска, прикладных лингвистов, студентов, аспирантов; хочется верить, что она будет также полезна и аналитикам, которые при решении задач в различных областях хотят учитывать особенности современного сетевого информационного пространства. Надеемся, что эта книга окажется также полезной при подготовке учебных курсов по теоретическим и практическим вопросам информационного поиска. Авторы выражают искреннюю благодарность Сергею Брайчевскому и Александру Дармохвалу за конструктивное обсуждение содержания книги, Александру Снарскому за помощь в обсуждении и редактировании разделов, связанных с технологиями реальных сетей, и Алексею Новикову за конструктивные замечания. Дмитрий Ландэ, Андрей Снарский, Игорь Безсуднов
9 мая 2008 г.
Nothing`s gonna change my world...
J. Lennon, P. McCartney
Эта книга посвящена новому научному направлению – интернетике. Сегодня в информационных хранилищах, распределенных в сетях, собраны террабайты текстовых данных. Эти данные можно рассматривать, с одной стороны, как сетевую среду реального информационного поиска, а с другой, как объект и полигон для исследований. Учет этих факторов привел к необходимости представить краткий обзор истории и современного состояния инфраструктуры Интернет, остановиться на особенностях гипертекстовых технологий, сети WWW, а также обозначить перспективы. Именно этим аспектам посвящена первая глава книги. Для обеспечения поиска размещенной в сети информации в настоящее время необходима разработка новых подходов. При этом, безусловно, должны учитываться достоинства и недостатки существующих моделей и алгоритмов информационного поиска, которым посвящена вторая глава. В этой главе уделено внимание также моделям поиска в пиринговых сетях – крупнейших по ресурсам и порождаемому интернет-трафику. В таких сетях отсутствуют выделенные серверы, а каждый узел является как клиентом, так и сервером. Пиринговые сети состоят из узлов, каждый из которых взаимодействует лишь с некоторым подмножеством других узлов. При освещении этой тематики учитывались то, что проблемы поиска и уязвимости в таких сетях до сих пор остаются открытыми. Рассмотрены основные модели поиска, все более широко применяемые в пиринговых сетях, а также проблемы, связанные с распространением подобных сетей. В третьей главе рассматривается концепция глубинного анализа текстов – Text Mining, которая включила в себя технологические и методологические подходы контент-анализа, компьютерной лингвистики. В частности, в этой главе освещены подходы к решению таких задач, как автоматическое реферирование, анализ взаимосвязей понятий, построение поисковых образов документов. Классификация информации – это традиционная компонента теории и технологии информационного поиска, лежащая на стыке двух областей – машинного обучения и информационного поиска. При классификации текстов, методы которой детально рассматриваются в четвертой главе, используются различные критерии для построения правил их размещения в заранее определенные категории. Пятая глава посвящена вопросам кластерного анализа массивов текстовых документов. В отличие от классификации, при кластеризации заранее не фиксируются определенные категории. Результатом кластеризации является автоматическая группировка информации в компактные подгруппы. Алгоритмы кластеризации позволяют автоматически находить "скрытые" признаки и разделять объекты по подгруппам. Кластеризация, как правило, предшествует классификации, поскольку помогает экспертам определять группы объектов – классы. В этой же главе подробно рассмотрены основные алгоритмы ранжирования выдачи информационно-поисковых-систем. В шестой главе приводятся основные закономерности, присущие документальным потокам в современной сетевой среде. При этом уделяется внимание таким необходимым для понимания этих закономерностей математическим понятиям, как степенные распределения, однородные функции и скейлинг. Теория информации, которая ранее находила свое основное применение в области передачи данных, становится полезной и для анализа текстовых массивов, динамически порождаемых в сетях. Седьмая глава посвящена таким понятиям, как энтропия и количество информации, которые сегодня находят все большее применение в технологиях информационного поиска. Восьмая глава посвящена теории сложных сетей (complex networks), в рамках которой рассматриваются характеристики, учитывающие не только их топологию, но и статистические распределения характеристик узлов и связей. Сегодня эта теория особо актуальна в задачах выявления и визуализации различных сетевых кластеров, их внутренних корреляций. Явления, происходящие в сложных сетях, близки к изучаемым в рамках теории перколяции (протекания), элементы которой излагаются в девятой главе. К задачам теории перколяции и анализа сложных сетей относятся такие, как определение предельного уровня проводимости (пропускной способности), изменения длины пути между узлами и его траектории (извилистости, параллельности) при приближении к порогу протекания, количества узлов, которые необходимо удалить, чтобы нарушить связанность сети. Математическому моделированию информационных потоков посвящена десятая глава, в которой рассматриваются модели, учитывающие "конкуренцию" реальных тематик. При моделировании этих процессов используются методы нелинейной динамики, теории клеточных автоматов и самоорганизованной критичности. При моделировании информационных потоков изучаются структурные связи между входящими в них массивами документов. Сегодня при этом все чаще применяется фрактальный анализ, подход, базирующийся на свойствах сохранения внутренней структуры массивов документов при изменениях их размеров или масштабов рассмотрения. Этому посвящена одиннадцатая глава. Хочется подчеркнуть, что традиционно используемый математический аппарат и инструментальные средства информационного поиска сегодня уже не способны в полной мере удовлетворять потребности пользователей. Изначальная парадигма поисковых систем, сформированная несколько десятилетий тому назад, уже не отвечает реальной ситуации – объемам и динамике информационных потоков, сетевой топологии. Необходим поиск новых принципов, в рамках которых оказалось бы возможным проектирование качественно новых систем обработки больших и динамичных массивов данных. Цель этой книги – систематически изложить состояние существующих теоретических и технологических возможностей, представить читателю возможные перспективы развития, дать импульс новым идеям в области сетевого информационного поиска. Снарский Андрей Александрович Доктор физико-математических наук, профессор кафедры общей и теоретической физики Национального технического университета Украины «КПИ». Научные интересы: теория протекания, кинетические явления в случайно-неоднородных средах, термоэлектричество, фракталы, детерминированный хаос, теория сложных сетей.
|