URSS.ru Магазин научной книги
Обложка Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика Обложка Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика
Id: 330260
919 р.

Прикладная и компьютерная лингвистика Изд. стереотип.

2025. 320 с.
Типографская бумага

Аннотация

Вниманию читателей предлагается первое на русском языке практическое введение в современные лингвистические технологии. Из книги можно узнать о применении знаний о языке для решения прикладных задач. Монография позволяет найти ответы на базовые вопросы, возникающие у начинающего исследователя: как работают современные лингвистические технологии, где взять основные компоненты программ и что читать дальше для углубленного понимания.

Многие... (Подробнее)


Содержание
top
Содержание5
Введение12
Часть 1. Компоненты14
Глава 1. Компьютерная морфология14
1. Как найти слова14
2. Каким может быть анализ слов16
3. Лексическая неоднозначность18
4. Анализ морфологии на основе правил20
4.1. Что хранить в словарях?20
4.2. Морфологические модули АОТ22
4.3. Морфологический анализатор Pymorphy2 и словарь проекта OpenCorpora24
4.4. Анализатор mystem26
5. Статистические методы анализа слов27
5.1. Статистическая частеречная разметка27
5.2. Триграммная скрытая Марковская модель29
5.3. Частеречная разметка незнакомых слов32
Литература32
Электронные ресурсы33
Глава 2. Компьютерный синтаксис35
1. Разные подходы к анализу синтаксических структур35
1.1. Что такое парсинг35
1.2. Грамматики зависимостей36
1.3. Грамматики непосредственных составляющих40
1.4. Комбинированные теории анализа предложения43
2. Неоднозначность и проблема комбинаторного взрыва44
3. Статистический парсинг47
4. Современные синтаксические анализаторы: семь глаз и типы в цехе48
4.1. Лингвистический процессор ЭТАП48
4.2. DictaScope и АОТ50
4.3. Stanford NLP, RASP, OpenNLP52
4.4. Link Grammar Parser53
4.5. NLTK55
5. Дальнейшие задачи56
Литература57
Электронные ресурсы58
Глава 3. Компьютерное представление значений59
1. О семантическом модуле59
2. Модели представления знаний в компьютерной семантике60
2.1. Виды семантических представлений60
2.2. Сетевые модели60
2.3. Концептуальные графы62
2.4. Фреймы и сценарии63
2.5. Современные разновидности семантических представлений66
3. Формальные онтологии67
3.1. Структура формальных онтологий67
3.2. Классификация формальных онтологий68
3.3. Особенности создания формальных онтологий70
3.4. Языки представления и редакторы формальных онтологий71
3.5. Методы автоматического построения формальных онтологий72
3.6. Современные онтологические ресурсы73
3.7. Применение формальных онтологий75
3.8. Стандартизация и оценка качества формальных онтологий77
4. Компьютерные тезаурусы78
4.1. Какие бывают тезаурусы78
4.2. Компьютерные тезаурусы типа WordNet80
4.3. Компьютерные тезаурусы для русского языка82
4.4. Надстройки к компьютерным тезаурусам86
4.5. Прикладное использование компьютерных тезаурусов87
5. Настоящее и будущее компьютерной семантики88
Литература89
Электронные ресурсы92
Глава 4. Распознавание и синтез речи94
1. Навстречу эпохе говорящих машин94
2. Синтез речи96
2.1. Методы синтеза97
2.2. Устройство TTS-синтезатора речи101
2.3. Модуль лингвистической обработки текста102
3. Распознавание речи105
3.1. Вариативность речи — главное препятствие для разработчиков систем распознавания речи107
3.2. Основные типы современных систем распознавания речи110
3.3. Лингвистический и статистический подходы к распознаванию речи112
3.4. Скрытые Марковские модели113
3.5. Как работает статистическая система распознавания речи?114
4. Новые горизонты117
Литература118
Электронные ресурсы119
Глава 5. Машинное обучение в лингвистике121
1. Введение: Формализация задач машинного обучения121
2. Методы машинного обучения124
2.1. Метрические методы классификации126
2.2. Статистические методы классификации127
2.3. Линейные методы классификации129
2.4. Регрессионные методы130
2.5. Искусственные нейронные сети131
2.6. Кластеризация133
3. Заключение135
Литература136
Электронные ресурсы137
Глава 6. Корпусная лингвистика138
1. Корпусы вчера и сегодня138
2. Основные свойства корпуса139
2.1. Электронный139
2.2. Репрезентативный139
2.3. Размеченный140
2.4. Прагматически ориентированный141
3. Какие бывают корпусы141
3.1. Параллельные корпусы142
3.2. Корпусы устной речи143
4. Разметка корпусов143
4.1. Средства разметки143
4.2. Лингвистическая разметка144
5. Интернет как корпус146
6. Сервис корпусного менеджера148
7. Как сделать корпус самому150
8. Корпусы как инструмент будущего151
Литература152
Электронные ресурсы154
Часть 2. Направления156
Глава 1. Машинный перевод156
1. Три подхода к машинному переводу156
2. Перевод на основе правил158
2.1. Три способа перевода с помощью правил158
2.2. Трансферный подход159
2.3. Пример словарей и грамматик компании PROMT160
3. Статистический машинный перевод162
3.1. Главная формула перевода162
3.2. Модель языка и цепи Маркова163
3.3. Оценка максимального правдоподобия166
3.4. Методы сглаживания168
3.5. Модель перевода170
4. Гибридный перевод182
5. Методы оценки качества перевода183
6. Некоторые современные системы машинного перевода184
Литература188
Электронные ресурсы188
Глава 2. Информационный поиск190
1. Где ищем?190
2. Что ищем?191
3. Как ищем?192
3.1. Индекс192
3.2. В идеальном мире194
3.3. Тем временем в реальности194
4. Что такое хорошо?196
4.1. Релевантность, полнота, точность196
4.2. Фильтрация и ранжирование197
4.3. Факторы ранжирования198
4.4. Оценки релевантности199
4.5. Не все слова одинаково полезны199
5. А где же лингвистика?203
5.1. Стандартные запчасти203
5.2. Расширения204
5.3. Расстояния206
5.4. Еще немного поисковой лингвистики207
Литература209
Электронные ресурсы210
Глава 3. Извлечение информации211
1. Какую информацию извлекаем?211
2. Распознавание сущностей214
2.1. Какие сущности извлекаем214
2.2. Зависимость категории от контекста215
2.3. Неоднозначность идентификации216
2.4. Концептуальные сложности216
2.5. Разрешение анафоры и кореферентности217
2.6. Установление референта218
2.7. Автоматические подходы218
2.8. Использование экстратекстуальных сигналов220
3. Извлечение отношений222
3.1. Какие отношения извлекаем222
3.2. Обучение моделей на размеченных текстах223
3.3. Полуавтоматическое создание размеченного корпуса224
3.4. Временнóе измерение225
4. Извлечение событий226
5. Для тех, кто хочет попробовать сам230
Литература231
Электронные ресурсы232
Глава 4. Диалоги и чат-боты233
1. Компьютер притворяется человеком233
2. Особенности диалога на естественном языке234
3. Архитектура диалоговых систем235
3.1. Модуль понимания естественного языка236
3.2. Диалоговый менеджер236
3.3. Модуль генерации естественного языка237
4. Как работают чат-боты238
4.1. Имитация беседы238
4.2. Язык AIML и другие подходы239
5. Обучение диалоговых систем на реальных диалогах241
6. Углубление диалога242
Литература243
Электронные ресурсы244
Глава 5. Анализ тональности245
1. Компьютер отслеживает чувства245
2. С чего начинается оценка?246
3. Как измерить тональность текста248
3.1. Подход с использованием правил и словарей248
3.2. Подход с использованием машинного обучения253
4. Как это выглядит на практике254
5. Оценка качества работы алгоритмов255
Литература256
Электронные ресурсы258
Глава 6. Компьютерная текстология259
1. Что такое текстология259
2. Этапы текстологического исследования рукописной традиции260
3. Компьютер в работе текстолога265
3.1. Автоматическое сравнение рукописей265
3.2. Компьютерная классификация рукописей266
Литература271
Электронные ресурсы272
Глава 7. Квантитативная лингвистика: что можно сосчитать в языке и речи?273
1. Буквы и звуки: как определить, на каком языке написан текст? — Дешифровка273
2. Морфемы: как оценить сложность языка? — Типология275
3. Части речи: можно ли определить, о чем текст? — Стилеметрия277
4. Сто слов: как определить возраст языков? — Глоттохронология279
5. Слова, слова, слова: сколько слов мы знаем и сколько нам нужно знать? — Частотные словари283
6. Порядок, строй, парадигма: насколько стройна грамматика? — Квантитативная морфология289
Литература291
Электронные ресурсы292
Глава 8. Речевое воздействие и манипулирование294
1. Что такое речевое воздействие?294
2. Кто и зачем изучает речевое воздействие?296
3. Разновидности речевого воздействия297
4. Языковое манипулирование: приемы и ресурсы301
Литература307
Электронные ресурсы308
Указатель терминов309
стр. 19, 16 строка снизу: вместо "Вот некоторые их них" следует читать "Вот некоторые из них"; стр. 21, 3 строка сверху: вместо "…для упоминавшийся псевдоосновы" — "…для упоминавшейся псевдоосновы"
О редакторах
top
photoНиколаев Иван Сергеевич
Выдающийся архитектор советского авангарда, доктор архитектуры, профессор. Ректор Московского архитектурного института (1958–1970), действительный член Академии строительства и архитектуры СССР, заслуженный деятель науки и техники РСФСР, почетный доктор Дрезденского технического университета и Пражской высшей технической школы. Лауреат международной премии Жана Чуми (Le Prix Jean Tschumi, 1969), крупный деятель в области архитектуры и архитектурной школы.
photoМитренина Ольга Владимировна
Кандидат филологических наук. Преподает на кафедре математической лингвистики Санкт-Петербургского государственного университета. Диссертацию о синтаксической неоднозначности защитила в 2005 году. Сфера научных интересов: генеративный синтаксис, большие языковые модели, искусственный интеллект.
Ландо Татьяна Михайловна
Окончила кафедру математической лингвистики СПбГУ в 2007 году. С тех пор работает в области прикладной и компьютерной лингвистики. Занималась проектами по извлечению именованных сущностей и фактов из текстов и поисковых запросов в компании «Яндекс». Является одним из основателей конференции AINL: Artificial Intelligence & Natural Language. Область научных интересов: автоматическая обработка естественного языка, диалоговые системы, чат-боты, извлечение фактов, применение методов машинного обучения в лингвистике и создание гибридных систем.