URSS.ru - Издательская группа URSS. Научная и учебная литература
Об издательстве Интернет-магазин Контакты Оптовикам и библиотекам Вакансии Пишите нам
КНИГИ НА РУССКОМ ЯЗЫКЕ


 
Вернуться в: Каталог  
Обложка Орлов Ю.Н., Осминин К.П. Методы статистического анализа литературных текстов
Id: 124801
 
499 руб. Бестселлер!

Методы статистического анализа литературных текстов

URSS. 2012. 312 с. Твердый переплет. ISBN 978-5-397-02314-6.

 Аннотация

В настоящей книге излагается новый подход к решению некоторых задач математической лингвистики, основанный на использовании кинетических уравнений, описывающих эволюцию выборочных функций распределения текста по буквам. Этот подход сочетает в себе методы традиционной математической статистики и статистической механики, модифицированные для применения их к нестационарным временным рядам, каковыми являются последовательности букв в тексте.

Центральной задачей, решаемой в данной работе, является идентификация автора и жанра "условно неизвестного" литературного текста в библиотеке известных текстов. Построен высокоточный метод идентификации, использующий функционал близости текстов как распределений пар букв в определенной норме.

Анализируются также статистические свойства распространенных европейских языков. Для них установлено полуэмпирическое распределение алфавитных символов по частоте встречаемости, которое оказалось зависящим от двух параметров --- количества букв в алфавите данного языка и их соответствия звуковому ряду. Рассмотрены конкретные примеры статистического решения некоторых спорных вопросов об авторстве того или иного текста.

Книга будет полезна лингвистам и литературоведам, а также математикам, специализирующимся в области прикладной математической статистики.


 Оглавление

От редакции
Междисциплинарность -- динамика, статистика, язык
Предисловие
Введение
Глава I. Математический аппарат статистического анализа
 1.1.Основные понятия теории вероятностей и математической статистики
  1.1.1.Вероятность и функции распределения
  1.1.2.Случайные процессы
  1.1.3.Асимптотические свойства стационарных распределений
  1.1.4.Выборочные функции распределения и моменты
  1.1.5.Классические задачи математической статистики
  1.1.6.Некоторые методы анализа стационарных временных рядов
 1.2.Нестационарные временные ряды
  1.2.1.Проблемы анализа нестационарных временных рядов
  1.2.2.Оптимизация объема выборки
  1.2.3.Горизонтный ряд
  1.2.4.Свойства горизонтного ряда для стационарного процесса
 1.3.Динамические системы и кинетические уравнения
  1.3.1.Динамические системы
  1.3.2.Уравнение Лиувилля
  1.3.3.Динамический хаос
  1.3.4.Зацепление частичных функций распределения
 1.4.Эволюция выборочных распределений нестационарных процессов
  1.4.1.Эмпирическое уравнение Лиувилля
  1.4.2.Замыкание уравнения эволюции ВПФР
  1.4.3.Кинетический подход к выводу моделей временных рядов
  Литература к главе I
Глава II. Некоторые статистические свойства европейских языков
 2.1.Упорядоченность букв по частоте встречаемости в русском языке
  2.1.1.Предварительные соображения
  2.1.2.Иллюстративный пример
  2.1.3.Упорядочение букв в литературных произведениях
  2.1.4.Специальные тексты
  2.1.5.Старославянские тексты
  2.1.6.О языках индоевропейской семьи
 2.2.Славянская группа языков
  2.2.1.Болгарский язык
  2.2.2.Чешский язык
  2.2.3.Польский язык
 2.3.Германская группа языков
  2.3.1.Шведский язык
  2.3.2.Датский язык
  2.3.3.Немецкий язык
  2.3.4.Английский язык
 2.4.Романская группа языков
  2.4.1.Итальянский язык
  2.4.2.Испанский язык
  2.4.3.Французский язык
  2.4.4.Выводы
 2.5.Информационная энтропия литературных текстов
  2.5.1.Информационная избыточность языков
  2.5.2.Упорядочение пар букв в русском языке
  2.5.3.Идентификационные свойства информационной энтропии
  Литература к главе II
Глава III. Идентификация автора литературного текста
 3.1.Достаточные выборки для анализа литературных текстов
  3.1.1.Постановка статистических задач в литературе
  3.1.2.Общая концепция метода статистической идентификации автора
  3.1.3.Оценка достаточного объема выборки для построения ВПФР
  3.1.4.Авторская длина стационарности
 3.2.Близость между текстами в смысле вероятностных распределений
  3.2.1.Основная вероятностная гипотеза
  3.2.2.Функционалы близости между текстами
 3.3.Кластеризация текстов одного автора
  3.3.1.Типовые авторские 1-ПФР
  3.3.2.Отделимость разных авторов
  3.3.3.Алгоритм кластеризации текстов одного автора
 3.4.Статистический эксперимент идентификации автора
  3.4.1.Близость между ПФР текстов для некоторых авторов
  3.4.2.Анализируемая библиотека
  3.4.3.Сравнительная эффективность разных методов
  Литература к главе III
Глава IV. Спектральный анализ оператора эволюции вероятностных распределений букв в тексте
 4.1.Книга как линейное пространство
  4.1.1.Свойства оператора трансляций
  4.1.2.Примеры операторных норм
 4.2.Понятие спектрального портрета матрицы
  4.2.1.Приближенное вычисление спектра матрицы
  4.2.2.Дихотомия спектра
  4.2.3.Хаусдорфово множество
 4.3.Спектральный портрет оператора трансляций
  4.3.1.Точность определения элементов матрицы
  4.3.2.Характерные группы собственных значений
  4.3.3.Идентификационные свойства операторных норм
 4.4.Вектор "подсознания"
  4.4.1.Главные направления оператора трансляций
  4.4.2.Эффект переводчика: переводы Шекспира
  Литература к главе IV
Глава V. Текст как динамическая система
 5.1.Распределения расстояний между одинаковыми буквами
  5.1.1.Построение распределения расстояний между буквами
  5.1.2.Примеры распределений расстояний между буквами
  5.1.3.Функциональная аппроксимация ПФР-Б
 5.2.Текст -- это многомерный белый шум
  5.2.1.Корреляция между ПФР-Б
  5.2.2.Автокорреляция ПФР-Б
 5.3.Горизонтный ряд и нелинейные корреляции
  5.3.1.Горизонтный ряд ВПФР-Б
  5.3.2.Примеры горизонтных распределений
  5.3.3.Авторские особенности горизонтных рядов
 5.4.Эмпирическое кинетическое уравнение эволюции ВПФР текста
  5.4.1.Уравнение Лиувилля для ВПФР-Б
  5.4.2.Моментная система для ВПФР-Б
  5.4.3.Эволюция ПФР текстов
  Литература к главе V
Глава VI. Жанровая и иная кластеризация текстов
 6.1.Близость между текстами как критерий кластеризации
  6.1.1.Агрегирование с помощью эталонного распределения
  6.1.2.Идентификация методом попарной близости
  6.1.3.Структура фазового пространства текстов
 6.2.Отличие мужчин от женщин
  6.2.1.Тексты русскоязычных авторов
  6.2.2.Переводы "мужских" и "женских" текстов
 6.3.Статистический эксперимент жанровой кластеризации
  6.3.1.Постановка задачи определения жанра
  6.3.2.Описание библиотеки
  6.3.3.Метод средней жанровой ПФР
  6.3.4.Жанровая кластеризация посредством попарной близости
  6.3.5.Контрпример к статистическому методу идентификации
  Литература к главе VI
Глава VII. Примеры решения спорных вопросов
 7.1.Проверка соответствия текста автору
  7.1.1.М. Шолохов -- автор "Тихого Дона"
  7.1.2.А. Пушкин -- не автор "Конька-Горбунка"
 7.2.Писал ли Шекспир шекспировские пьесы?
  7.2.1.Кластеризация пьес В. Шекспира
  7.2.2.Кластеризация пьес К. Марло
  7.2.3.Шекспир -- автор "Эдуарда III" и "Тита Андроника"
 7.3.Два автора: кто истинный писатель?
  7.3.1.Братья Вайнеры
  7.3.2.Братья Стругацкие
  7.3.3.Н. Перумов и С. Лукьяненко
  7.3.4.М. и С. Дяченко
  7.3.5.И. Ильф и Е. Петров
 7.4.Политические деятели, старые и новые
  7.4.1.В. И. Ленин
  7.4.2.И. В. Сталин
  7.4.3.Л. И. Брежнев
  Литература к главе VII
Заключение

 Предисловие

Настоящая монография представляет собой обобщение результатов работы авторов в области статистического анализа литературных текстов. "Литературное" приложение математических методов имеет целью получить корректно обоснованные утверждения относительно, например, частоты употребления определенных букв (буквосочетаний), или о точности методов статистического сравнения текстов. Новизна предпринятого исследования по сравнению с традиционным приложением математических методов в теории информации и математической лингвистике состоит в привнесении в них элементов нестационарности. Именно, текст, т. е. последовательность символов, трактуется как нестационарный случайный процесс, что имеет под собой серьезные практические основания. Вследствие этого методы, развитые в кинетической теории, такие, как уравнение Лиувилля или метод зацепляющихся моментов, могут быть весьма плодотворно применены и в этой сфере.

Дадим краткий обзор содержания книги по главам.

Первая глава носит справочный характер. Ее назначение состоит в том, чтобы дать замкнутое изложение материала и по ходу исследования в последующих главах не углубляться в техническую часть математического инструмента, которым это исследование проводится. Поскольку результаты нашего анализа, как мы надеемся, представляют интерес для литературоведов и лингвистов, то перегружать работу математическими выкладками было бы нецелесообразно. Тем не менее книга ориентирована в том числе и на математиков, специализирующихся в области прикладной математической статистики. Поэтому математическая строгость получаемых выводов должна быть соблюдена, для чего в основных главах делаются отсылки на соответствующие разделы первой главы, где даны формулировки используемых утверждений, но без их вывода. Подчеркнем, что мы ограничивались в основном теми сведениями из классической математической статистики и теории нестационарных временных рядов, которые будут применяться в последующих главах. Все же следует отметить, что в вводной части теоретический материал дан с некоторой избыточностью. С одной стороны, это отражает интересы авторов, а с другой -- способствует связности изложения.

Во второй главе дается сравнение двух способов упорядочения букв -- по алфавиту и по частоте встречаемости в текстах. Оказалось, что второй способ упорядочения позволяет обнаружить универсальную зависимость ранга (номера) буквы от частоты ее использования. Эта зависимость справедлива для всех широко распространенных языков индоевропейской языковой семьи. Возможно, что найденная универсальность выражает общность мышления и связанную с ним кодировку информационных сообщений.

В третьей главе формулируется метод идентификации автора неизвестного литературного текста посредством близости плотности функции распределения пар букв данного текста и набора эталонов, характерных для определенных авторов. Расстояния между текстами определялись в самых разных нормах. Оказалось, что норма в пространстве суммируемых функций, а также квазинорма Кульбака--Лейблера (так называемая относительная энтропия), которая применяется в теории информации, дают наиболее точные результаты такой идентификации.

Четвертая глава посвящена применению нового и достаточно сложного математического аппарата спектрального анализа несамосопряженных операторов, к каковым относится, в частности, оператор эволюции локальной (по тексту) выборочной плотности функции распределения букв. Оказалось, что спектральный портрет авторов текстов, т. е. расположение собственных значений соответствующих операторов, имеет сохраняющуюся авторскую специфику и позволяет корректно оперировать такими понятиями, как проекция инвариантных подпространств одного автора на подпространства другого. Авторы считают здесь своим приятным долгом поблагодарить канд. физ.-мат. наук О. Б. Феодоритову за проведение расчетов спектральных портретов матриц, часть которых приведена в этой главе.

В пятой главе развивается подход к тексту как к многомерной динамической системе, порождающей случайный процесс, близкий к белому шуму. Случайным процессом здесь является последовательность расстояний между одинаковыми буквами. Оказалось, что эта последовательность для всех букв русского алфавита образует белый шум с одинаковым гамма-распределением, которое генерируется многомерной нелинейной динамической системой, каковой, собственно, и является автор. В этой главе мы формулируем метод построения такой динамической системы, в общем случае неавтономной, на основе анализа уравнения Лиувилля для плотности функции распределения расстояний между одинаковыми буквами, а также с использованием специальной статистики для анализа нестационарных процессов -- горизонтного ряда.

В шестой главе описывается метод попарной близости текстов в подходящем функциональном пространстве для задачи жанровой кластеризации. Ставится задача о вероятностной идентификации текста в многомерном фазовом пространстве "язык -- эпоха -- жанр -- автор" и даются примеры такой идентификации.

Седьмая глава показывает, как практически применять развитую в книге методику для решения конкретных задач. Рассматриваются, в частности, следующие задачи. Во-первых, дается пример проверки того, что определенный писатель является (или не является) автором определенного текста. Во-вторых, решается задача указания наиболее вероятного автора определенного анонимного произведения среди нескольких конкретных вариантов. Кроме того, метод нестационарных индикаторов применяется для такой сложной задачи, как анализ творчества писательских тандемов.

В заключении формулируются некоторые интересные, на взгляд авторов, задачи, которые могли бы быть решены развитой в книге методикой.

Отметим, что примеры, рассмотренные нами в этой книге, в основном были подобраны с расчетом продемонстрировать эффективность новых методов, однако надо иметь в виду, что к любому статистическому методу существует контрпример, показывающий ограниченность этого метода. Такие контрпримеры также приведены, чтобы не было неоправданных иллюзий относительно всемогущества статистики.

Авторы надеются, что книга послужит полезным дополнением к методам, которые применяются специалистами по математической лингвистике, и будет востребована как профессионалами в области прикладной математической статистики, так и студентами и аспирантами соответствующих специальностей.


 Об авторах

Юрий Николаевич ОРЛОВ

Доктор физико-математических наук, заведующий сектором кинетических уравнений отдела вычислительной физики и кинетических уравнений Института прикладной математики им.М.В.Келдыша РАН, профессор Московского физико-технического института (МФТИ). Окончил МФТИ в 1987 г., специалист в области математической статистики, а также классической и квантовой статистической механики.

Константин Павлович ОСМИНИН

Кандидат физико-математических наук. Окончил механико-математический факультет Московского государственного университета им. М. В. Ломоносова в 2005 г. Специалист в области геометрии, топологии и теории особенностей, математической статистики и математического моделирования.

 
© URSS 2016.

Информация о Продавце