URSS.ru Магазин научной книги
Id: 338859
669

Вероятностное тематическое моделирование:
Теория регуляризации ARTM и библиотека с открытым кодом BigARTM

2025. 224 с.
  • Онлайн-книга

Аннотация

Вероятностное тематическое моделирование — это технология автоматической обработки текстов, активно развивающаяся последние два десятилетия.

Тематические модели используются для разведочного анализа больших текстовых коллекций, информационного поиска и решения разнообразных задач текстовой аналитики. Книга охватывает основные типы тематических моделей.

Математический аппарат классической не-байесовской регуляризации позволяет существенно... (Подробнее)


Цветные иллюстрации
top

PDF


Оглавление
top
Глава 1. Введение9
Глава 2. Основы тематического моделирования13
Предварительная обработка текста13
Исходные данные и гипотезы14
Вероятностная тематическая модель16
Задача тематического моделирования17
Интерпретируемость19
Частотные оценки условных вероятностей20
ЕМ-алгоритм20
Рациональный ЕМ-алгоритм21
Выводы по главе 222
Глава 3. Оптимизация на единичных симплексах23
Необходимые условия максимума23
Максимизация гладкой функции на единичных симплексах24
Связь с градиентными методами26
Связь с нейронными сетями26
Сходимость итерационного процесса27
Выводы по главе 328
Глава 4. Аддитивная регуляризация29
Принцип максимума правдоподобия29
Регуляризация некорректно поставленных задач30
Основная теорема ARTM30
Вероятностный латентный семантический анализ32
Рациональный ЕМ-алгоритм для ARTM33
Условия вырожденности34
Улучшение сходимости34
Стратегии регуляризации35
Относительные коэффициенты регуляризации36
Выводы по главе 438
Глава 5. Вероятностная регуляризация и модель LDA39
Принцип максимума апостериорной вероятности39
Априорные распределения Дирихле40
He-байесовская интерпретация и обобщение модели LDA43
Дивергенция Кульбака-Лейблера44
Выводы по главе 546
Глава 6. Теория ЕМ-алгоритма47
Общий ЕМ-алгоритм с регуляризацией47
Общий ЕМ-алгоритм для ARTM50
Выводы по главе 651
Глава 7. Байесовское обучение модели LDA53
Концепция байесовского обучения54
Свойства распределения Дирихле55
Вариационный байесовский вывод55
Сэмплирование Гиббса58
Оптимизация гиперпараметров в модели LDA62
Графическая нотация62
Сравнение ARTM и байесовского подхода64
Выводы по главе 766
Глава 8. Разреживание, сглаживание, декоррелирование67
Частичное обучение68
Предметные и фоновые темы68
Сфокусированный тематический поиск69
Декоррелирование тем70
Комбинирование регуляризаторов71
Выводы по главе 872
Глава 9. Мультимодальные тематические модели73
Мультимодальная ARTM73
Мультиязычные тематические модели75
Модальности категорий и авторов78
Модальность времени и темпоральные модели79
Выводы по главе 982
Глава 10. Транзакционные тематические модели83
Тематические модели на гиперграфах84
Гиперграфовый ЕМ-алгоритм86
Типы транзакций и их весовые коэффициенты87
Гиперграфовые модели для рекомендательных систем88
Симметризованные гиперграфовые модели89
Транзакции с главными и подчинёнными термами90
Гиперграфовые языковые модели92
Выводы по главе 1092
Глава 11. Тематические модели зависимостей93
Классификация93
Регрессия95
Корреляции тем96
Числовые модальности97
Выводы по главе 11100
Глава 12. Тематические модели связей и цитирования101
Ссылки и цитирование101
Геолокации102
Графы и социальные сети103
Выводы по главе 12104
Глава 13. Тематические иерархии и выбор числа тем105
Определение числа тем по внешним критериям106
Энтропийное разреживание для отбора тем106
Иерархическое тематическое моделирование107
Вероятностная модель межуровневых связей108
Разреживание межуровневых связей109
Тематическая модель мнений110
Спектр тем и визуализация иерархий110
Выводы по главе 13112
Глава 14. Тематические модели сочетаемости слов113
Модели контактной сочетаемости114
Модель битермов116
Модель сети слов117
Когерентность118
Модели векторных представлений слов119
Выводы по главе 14121
Глава 15. Тематические модели непрерывного текста123
Однопроходный Е-шаг124
Линейная тематизация текста126
Эксперименты с линейной тематизацией128
Локализованный Е-шаг128
Локализованный Е-шаг со скользящими средними131
Аналогия со свёрточной нейросетевой моделью языка132
Аналогия с моделью внимания133
ЕМ-алгоритм с локализованным Е-шагом135
Выводы по главе 15136
Глава 16. Модели сегментации и регуляризация Е-шага137
Тематическая модель предложений138
Гиперграфовые модели связного текста139
Тематическая сегментация139
Регуляризатор Е-шага140
Разреживание распределений p(t | d,w)144
Разреживающий регуляризатор Е-шага для сегментации145
Пост-обработка Е-шага — это регуляризация146
Выводы по главе 16147
Глава 17. Критерии качества тематических моделей149
Внешние критерии149
Перплексия150
Интерпретируемость темы151
Когерентность темы152
Текстовая когерентность темы153
Разреженность и семантические ядра тем154
Доля фоновой лексики155
Различность тем156
Выводы по главе 17157
Глава 18. Критерии условной независимости159
Критерии согласия для дискретных распределений159
Гипотеза условной независимости160
Средневзвешенные статистики несогласованности163
Перплексия темы163
Меры несогласованности, толерантные к повторяемости слов164
Дивергенция Кресси-Рида164
Проверка статистических гипотез165
Выводы по главе 18166
Глава 19. Особенности реализации ЕМ-алгоритма167
Пакетный алгоритм167
Оффлайновый алгоритм168
Онлайновый алгоритм169
Параллельный алгоритм169
Другие функции потерь и Е-шаг без нормировки170
Выводы по главе 19172
Глава 20. Библиотека BigARTM173
Подготовка данных174
Словари BigARTM175
Регуляризаторы176
Многопоточный пакетный ЕМ-алгоритм178
Метрики качества178
Выгрузка параметров модели180
Выводы по главе 20180
Глава 21. Тематический поиск и другие приложения181
Тематический поиск182
Оценивание качества тематического поиска183
Тематические модели в социо-гуманитарных исследованиях187
Требования к тематическим моделям190
Визуализация191
Выводы по главе 21192
Глава 22. Заключение193
Замена теоретического фундамента193
Мифы о тематическом моделировании195
Открытые проблемы196
Благодарности198
Литература199
Предметный указатель215

Об авторе
top
photoВоронцов Константин Вячеславович
Доктор физико-математических наук, профессор РАН, специалист в области машинного обучения и анализа данных. Выпускник Московского физико-технического института (МФТИ) 1994 года. Заведующий кафедрой математических методов прогнозирования факультета вычислительной математики и кибернетики Московского государственного университета (ВМК МГУ), руководитель лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ, заведующий кафедрой машинного обучения и цифровой гуманитаристики МФТИ, профессор кафедры интеллектуальных систем МФТИ, главный научный сотрудник отдела «Интеллектуальные системы» Вычислительного центра Федерального исследовательского центра «Информатика и управление» РАН (ФИЦ ИУ РАН).