| Глава 1. Введение | 9
|
| Глава 2. Основы тематического моделирования | 13
|
| Предварительная обработка текста | 13
|
| Исходные данные и гипотезы | 14
|
| Вероятностная тематическая модель | 16
|
| Задача тематического моделирования | 17
|
| Интерпретируемость | 19
|
| Частотные оценки условных вероятностей | 20
|
| ЕМ-алгоритм | 20
|
| Рациональный ЕМ-алгоритм | 21
|
| Выводы по главе 2 | 22
|
| Глава 3. Оптимизация на единичных симплексах | 23
|
| Необходимые условия максимума | 23
|
| Максимизация гладкой функции на единичных симплексах | 24
|
| Связь с градиентными методами | 26
|
| Связь с нейронными сетями | 26
|
| Сходимость итерационного процесса | 27
|
| Выводы по главе 3 | 28
|
| Глава 4. Аддитивная регуляризация | 29
|
| Принцип максимума правдоподобия | 29
|
| Регуляризация некорректно поставленных задач | 30
|
| Основная теорема ARTM | 30
|
| Вероятностный латентный семантический анализ | 32
|
| Рациональный ЕМ-алгоритм для ARTM | 33
|
| Условия вырожденности | 34
|
| Улучшение сходимости | 34
|
| Стратегии регуляризации | 35
|
| Относительные коэффициенты регуляризации | 36
|
| Выводы по главе 4 | 38
|
| Глава 5. Вероятностная регуляризация и модель LDA | 39
|
| Принцип максимума апостериорной вероятности | 39
|
| Априорные распределения Дирихле | 40
|
| He-байесовская интерпретация и обобщение модели LDA | 43
|
| Дивергенция Кульбака-Лейблера | 44
|
| Выводы по главе 5 | 46
|
| Глава 6. Теория ЕМ-алгоритма | 47
|
| Общий ЕМ-алгоритм с регуляризацией | 47
|
| Общий ЕМ-алгоритм для ARTM | 50
|
| Выводы по главе 6 | 51
|
| Глава 7. Байесовское обучение модели LDA | 53
|
| Концепция байесовского обучения | 54
|
| Свойства распределения Дирихле | 55
|
| Вариационный байесовский вывод | 55
|
| Сэмплирование Гиббса | 58
|
| Оптимизация гиперпараметров в модели LDA | 62
|
| Графическая нотация | 62
|
| Сравнение ARTM и байесовского подхода | 64
|
| Выводы по главе 7 | 66
|
| Глава 8. Разреживание, сглаживание, декоррелирование | 67
|
| Частичное обучение | 68
|
| Предметные и фоновые темы | 68
|
| Сфокусированный тематический поиск | 69
|
| Декоррелирование тем | 70
|
| Комбинирование регуляризаторов | 71
|
| Выводы по главе 8 | 72
|
| Глава 9. Мультимодальные тематические модели | 73
|
| Мультимодальная ARTM | 73
|
| Мультиязычные тематические модели | 75
|
| Модальности категорий и авторов | 78
|
| Модальность времени и темпоральные модели | 79
|
| Выводы по главе 9 | 82
|
| Глава 10. Транзакционные тематические модели | 83
|
| Тематические модели на гиперграфах | 84
|
| Гиперграфовый ЕМ-алгоритм | 86
|
| Типы транзакций и их весовые коэффициенты | 87
|
| Гиперграфовые модели для рекомендательных систем | 88
|
| Симметризованные гиперграфовые модели | 89
|
| Транзакции с главными и подчинёнными термами | 90
|
| Гиперграфовые языковые модели | 92
|
| Выводы по главе 10 | 92
|
| Глава 11. Тематические модели зависимостей | 93
|
| Классификация | 93
|
| Регрессия | 95
|
| Корреляции тем | 96
|
| Числовые модальности | 97
|
| Выводы по главе 11 | 100
|
| Глава 12. Тематические модели связей и цитирования | 101
|
| Ссылки и цитирование | 101
|
| Геолокации | 102
|
| Графы и социальные сети | 103
|
| Выводы по главе 12 | 104
|
| Глава 13. Тематические иерархии и выбор числа тем | 105
|
| Определение числа тем по внешним критериям | 106
|
| Энтропийное разреживание для отбора тем | 106
|
| Иерархическое тематическое моделирование | 107
|
| Вероятностная модель межуровневых связей | 108
|
| Разреживание межуровневых связей | 109
|
| Тематическая модель мнений | 110
|
| Спектр тем и визуализация иерархий | 110
|
| Выводы по главе 13 | 112
|
| Глава 14. Тематические модели сочетаемости слов | 113
|
| Модели контактной сочетаемости | 114
|
| Модель битермов | 116
|
| Модель сети слов | 117
|
| Когерентность | 118
|
| Модели векторных представлений слов | 119
|
| Выводы по главе 14 | 121
|
| Глава 15. Тематические модели непрерывного текста | 123
|
| Однопроходный Е-шаг | 124
|
| Линейная тематизация текста | 126
|
| Эксперименты с линейной тематизацией | 128
|
| Локализованный Е-шаг | 128
|
| Локализованный Е-шаг со скользящими средними | 131
|
| Аналогия со свёрточной нейросетевой моделью языка | 132
|
| Аналогия с моделью внимания | 133
|
| ЕМ-алгоритм с локализованным Е-шагом | 135
|
| Выводы по главе 15 | 136
|
| Глава 16. Модели сегментации и регуляризация Е-шага | 137
|
| Тематическая модель предложений | 138
|
| Гиперграфовые модели связного текста | 139
|
| Тематическая сегментация | 139
|
| Регуляризатор Е-шага | 140
|
| Разреживание распределений p(t | d,w) | 144
|
| Разреживающий регуляризатор Е-шага для сегментации | 145
|
| Пост-обработка Е-шага — это регуляризация | 146
|
| Выводы по главе 16 | 147
|
| Глава 17. Критерии качества тематических моделей | 149
|
| Внешние критерии | 149
|
| Перплексия | 150
|
| Интерпретируемость темы | 151
|
| Когерентность темы | 152
|
| Текстовая когерентность темы | 153
|
| Разреженность и семантические ядра тем | 154
|
| Доля фоновой лексики | 155
|
| Различность тем | 156
|
| Выводы по главе 17 | 157
|
| Глава 18. Критерии условной независимости | 159
|
| Критерии согласия для дискретных распределений | 159
|
| Гипотеза условной независимости | 160
|
| Средневзвешенные статистики несогласованности | 163
|
| Перплексия темы | 163
|
| Меры несогласованности, толерантные к повторяемости слов | 164
|
| Дивергенция Кресси-Рида | 164
|
| Проверка статистических гипотез | 165
|
| Выводы по главе 18 | 166
|
| Глава 19. Особенности реализации ЕМ-алгоритма | 167
|
| Пакетный алгоритм | 167
|
| Оффлайновый алгоритм | 168
|
| Онлайновый алгоритм | 169
|
| Параллельный алгоритм | 169
|
| Другие функции потерь и Е-шаг без нормировки | 170
|
| Выводы по главе 19 | 172
|
| Глава 20. Библиотека BigARTM | 173
|
| Подготовка данных | 174
|
| Словари BigARTM | 175
|
| Регуляризаторы | 176
|
| Многопоточный пакетный ЕМ-алгоритм | 178
|
| Метрики качества | 178
|
| Выгрузка параметров модели | 180
|
| Выводы по главе 20 | 180
|
| Глава 21. Тематический поиск и другие приложения | 181
|
| Тематический поиск | 182
|
| Оценивание качества тематического поиска | 183
|
| Тематические модели в социо-гуманитарных исследованиях | 187
|
| Требования к тематическим моделям | 190
|
| Визуализация | 191
|
| Выводы по главе 21 | 192
|
| Глава 22. Заключение | 193
|
| Замена теоретического фундамента | 193
|
| Мифы о тематическом моделировании | 195
|
| Открытые проблемы | 196
|
| Благодарности | 198
|
| Литература | 199
|
| Предметный указатель | 215
|