URSS.ru - Издательская группа URSS. Научная и учебная литература
Об издательстве Интернет-магазин Контакты Оптовикам и библиотекам Вакансии Пишите нам
КНИГИ НА РУССКОМ ЯЗЫКЕ


 
Вернуться в: Каталог  
Обложка Ветров Д.П., Кропотов Д.А. Алгоритмы выбора моделей и построения коллективных решений в задачах классификации, основанные на принципе устойчивости
Id: 48522
 
186 руб.

Алгоритмы выбора моделей и построения коллективных решений в задачах классификации, основанные на принципе устойчивости

URSS. 2006. 112 с. Мягкая обложка. ISBN 5-484-00920-0.

 Аннотация

В настоящей книге излагаются современные методы решения задач классификации и основные проблемы, возникающие при их применении на практике. Большое внимание уделено методам и алгоритмам, описание которых трудно найти в русскоязычной литературе. Подробно рассмотрены так называемые ядровые методы решения задач классификации и восстановления регрессии, а также методы объединения различных классификаторов. Основной упор сделан на применение тех или иных понятий устойчивости получаемого решения. Часть результатов, изложенных в работе, получена авторами.

Данная книга будет полезна студентам и аспирантам, занимающимся распознаванием образов, а также может представлять интерес для специалистов в области машинного обучения по прецедентам.


 Оглавление

Введение
1 Метод опорных векторов
 1.1Метод опорных векторов для задачи классификации
  1.1.1Случай линейно разделимых данных
  1.1.2Случай линейно неразделимых данных
  1.1.3Нелинейная разделяющая поверхность
  1.1.4Связь со статистической теорией обучения Вапника--Червоненкиса
  1.1.5Заключительные замечания
 1.2Метод опорных векторов для задачи восстановления регрессии
  1.2.1Линейная регрессия
  1.2.1.1Случай линейной функции потерь
  1.2.1.2Случай квадратичной функции потерь
  1.2.2Нелинейная регрессия
  1.2.3Заключительные замечания
 1.3nu-SVM
  1.3.1Задача восстановления регрессии
  1.3.2Задача классификации
2 Задачи выбора модели
 2.1Проблема выбора модели
 2.2Общие методы выбора модели
  2.2.1Структурная минимизация риска
  2.2.2Принцип минимальной длины описания
  2.2.3Байесовское обучение
3 Метод релевантных векторов
 3.1Метод релевантных векторов для задачи восстановления регрессии
 3.2Метод релевантных векторов для задачи классификации
 3.3Выводы
4 Использование идеи устойчивости для выбора ядровой функции
 4.1Ядровой индекс валидности
 4.2Результаты экспериментов
 4.3Обсуждение и выводы
5 Выпуклая стабилизация коллективов алгоритмов
 5.1Особенности построения коллективных решений
 5.2Методы получения коллективных решений
 5.3Выпуклый стабилизатор
 5.4Выпуклая кластерная стабилизация
 5.5Результаты экспериментов
 5.6Выводы
А Вывод формул для RVM

 Из введения

На протяжении последних 50 лет теория машинного обучения является одним из направлений вычислительной математики. Являясь разделом теории искусственного интеллекта она включает в себя разработку методов решения задач распознавания образов (классификации), восстановления регрессии, выделения кластеров, идентификации объектов, анализа изображений, нахождения скрытых закономерностей в данных и др. Необходимость в обучении ЭВМ возникает при отсутствии адекватных математических моделей исследуемой задачи. В основе теории лежит так называемый прецедентный подход к обучению. Предполагается, что имеется некоторый набор данных (прецедентов), характеризующий решаемую задачу, например, совокупность пациентов с известным диагнозом при решении задачи медицинской диагностики. Требуется извлечь из этих данных объективные закономерности, которые будут использованы (машиной или человеком) для принятия решений при обработке новых данных. Заметим, что задачи такого рода часто возникают в плохоформализованных областях знаний таких как биология, социология, медицина, геология, химия и др. В последнее время методы машинного обучения находят применение также и в таких относительно формализованных областях как экономика (особенно банковское дело, кредитование, анализ рынков ценных бумаг) и физика. Методы data-mining, составляющие основу теории машинного обучения, являются одними из наиболее активно используемых средств извлечения знаний в генной инженерии.

В дальнейшем будут рассматриваться преимущественно задачи классификации с учителем. Необходимо отметить, что к ним сводятся многие задачи анализа данных (нахождение закономерностей, прогнозирование дискретных состояний, идентификация, прогноз исходов).

* * *

Для большинства представляющих интерес задач с реальными данными характерно наличие т.н. ложных закономерностей, которые связаны с конкретным видом обучающей совокупности, содержащей, вообще говоря, зашумленную информацию. Наиболее интригующей задачей машинного обучения является построение общих методов, позволяющих добиться максимальной обобщающей способности алгоритма, т.е. способности выявить как можно больше объективных закономерностей, присущих генеральной совокупности, при минимальном количестве ложных закономерностей. Следует отметить, что до сих пор не существует единого общего метода контроля обобщающей способности алгоритмов распознавания. Проблема связана с тем, что понятие обобщающей способности требует рассмотрения всей генеральной совокупности объектов, которая, естественно, недоступна. Различные методы косвенного оценивания обобщающей способности путем анализа используемого алгоритма и обучающей выборки пока не привели к общепринятому решению.

За последние 15 лет большую популярность завоевали т.н. ядровые методы машинного обучения. Первой по-настоящему удачной концепцией ядрового подхода стал метод опорных векторов (Support Vector machine, SVM), предложенный В.Н.Вапником в 1992 году. В течение короткого времени он получил широкое распространение, найдя применение в целом ряде задач анализа изображений, восстановления регрессии, идентификации, постепенно вытесняя традиционные нейронные сети. По сравнению с существовавшими аналогами метод опорных векторов обладал целым рядом преимуществ, в частности, глобальной оптимальностью решения; линейностью по настраиваемым параметрам и нелинейностью получаемого при этом решающего правила, что позволило сократить время обучения метода, сделав его при этом более гибким; возможностями контроля за разреженностью получаемого решения и пр. Метод опорных векторов и его приложения изложены в главе 1.

Появление метода опорных векторов и его успешное применение в целом ряде задач вызвало бум ядровых методов, которые позволяли получать нелинейные обобщения известных классических линейных методов обработки информации, таких как, например, дискриминантный анализ, анализ главных компонент, линейная регрессия и т.д. При этом оказалось, что использование различных ядровых функций приводит к непохожим решениям с разным качеством. Появилась серьезная проблема выбора ядровой функции, наиболее подходящей для решения конкретной задачи. Полностью эта проблема не решена и к настоящему времени. Некоторые общие методы выбора моделей, которые могут быть использованы (и используются) для выбора ядровой функции, изложены в главе 2.

В течение 90-ых гг. прошлого века получил активное развитие т.н. Байесовский подход к машинному обучению. Оказалось, что последовательное применение байесовского оценивания к параметрам алгоритмов и моделей позволяет решить (или во всяком случае предложить теоретическую схему решения) многие традиционные проблемы, с которыми сталкивалась теория машинного обучения. В 2000 году появилась альтернатива методу опорных векторов, получившая сходное название -- метод релевантных векторов (Relevance Vector Machine, RVM), использующая идеи байесовского обучения для построения ядровых методов. Описание метода приводится в главе 3.

Метод релевантных векторов позволил автоматически находить значения параметров регуляризации, отделяя, таким образом, полезные закономерности от помех. Тем не менее, проблема выбора ядровой функции не была полностью решена. В главе 4 приводится обобщение Байесовского подхода, позволяющее проводить подбор ядровой функции и коэффициентов регуляризации в рамках единой парадигмы. Главным отличием от Байесовского подхода является замена голосования по всему множеству алгоритмов (чрезвычайно тяжелого с вычислительной точки зрения) на единственный алгоритм, обладающий наряду с хорошей точностью на обучающей выборке высокой устойчивостью по отношению к изменению параметров алгоритма и ядровой функции.

В том случае, если не удается построить хороший алгоритм для решения конкретной задачи, можно попытаться построить коллективное решение на базе нескольких различных обученных алгоритмов. Эта мысль, впервые высказанная и воплощенная в жизнь Ю.И.Журавлевым, легла в основу концепции построения коллективных решений и, ставшего классическим, алгебраического подхода. В главе 5 излагаются некоторые популярные способы построения коллективных решений. Также изложена идея выпуклой стабилизации множества исходных алгоритмов, позволяющая во многих случаях улучшить обобщающую способность коллективного решения.

Авторы хотели бы выразить глубокую признательность акад. РАН Ю.И.Журавлеву и своему научному руководителю В.В.Рязанову, неизменно поощрявшим исследования по данной теме. Также отдельных теплых слов заслуживают аспиранты факультета ВМиК МГУ, активно участвовавшие в проведении научных исследований: Н.О.Пташко и О.М.Васильев.


 Из введения

На протяжении последних 50 лет теория машинного обучения является одним из направлений вычислительной математики. Являясь разделом теории искусственного интеллекта она включает в себя разработку методов решения задач распознавания образов (классификации), восстановления регрессии, выделения кластеров, идентификации объектов, анализа изображений, нахождения скрытых закономерностей в данных и др. Необходимость в обучении ЭВМ возникает при отсутствии адекватных математических моделей исследуемой задачи. В основе теории лежит так называемый прецедентный подход к обучению. Предполагается, что имеется некоторый набор данных (прецедентов), характеризующий решаемую задачу, например, совокупность пациентов с известным диагнозом при решении задачи медицинской диагностики. Требуется извлечь из этих данных объективные закономерности, которые будут использованы (машиной или человеком) для принятия решений при обработке новых данных. Заметим, что задачи такого рода часто возникают в плохоформализованных областях знаний таких как биология, социология, медицина, геология, химия и др. В последнее время методы машинного обучения находят применение также и в таких относительно формализованных областях как экономика (особенно банковское дело, кредитование, анализ рынков ценных бумаг) и физика. Методы data-mining, составляющие основу теории машинного обучения, являются одними из наиболее активно используемых средств извлечения знаний в генной инженерии.

В дальнейшем будут рассматриваться преимущественно задачи классификации с учителем. Необходимо отметить, что к ним сводятся многие задачи анализа данных (нахождение закономерностей, прогнозирование дискретных состояний, идентификация, прогноз исходов).

* * *

Для большинства представляющих интерес задач с реальными данными характерно наличие т.н. ложных закономерностей, которые связаны с конкретным видом обучающей совокупности, содержащей, вообще говоря, зашумленную информацию. Наиболее интригующей задачей машинного обучения является построение общих методов, позволяющих добиться максимальной обобщающей способности алгоритма, т.е. способности выявить как можно больше объективных закономерностей, присущих генеральной совокупности, при минимальном количестве ложных закономерностей. Следует отметить, что до сих пор не существует единого общего метода контроля обобщающей способности алгоритмов распознавания. Проблема связана с тем, что понятие обобщающей способности требует рассмотрения всей генеральной совокупности объектов, которая, естественно, недоступна. Различные методы косвенного оценивания обобщающей способности путем анализа используемого алгоритма и обучающей выборки пока не привели к общепринятому решению.

За последние 15 лет большую популярность завоевали т.н. ядровые методы машинного обучения. Первой по-настоящему удачной концепцией ядрового подхода стал метод опорных векторов (Support Vector machine, SVM), предложенный В.Н.Вапником в 1992 году. В течение короткого времени он получил широкое распространение, найдя применение в целом ряде задач анализа изображений, восстановления регрессии, идентификации, постепенно вытесняя традиционные нейронные сети. По сравнению с существовавшими аналогами метод опорных векторов обладал целым рядом преимуществ, в частности, глобальной оптимальностью решения; линейностью по настраиваемым параметрам и нелинейностью получаемого при этом решающего правила, что позволило сократить время обучения метода, сделав его при этом более гибким; возможностями контроля за разреженностью получаемого решения и пр. Метод опорных векторов и его приложения изложены в главе 1.

Появление метода опорных векторов и его успешное применение в целом ряде задач вызвало бум ядровых методов, которые позволяли получать нелинейные обобщения известных классических линейных методов обработки информации, таких как, например, дискриминантный анализ, анализ главных компонент, линейная регрессия и т.д. При этом оказалось, что использование различных ядровых функций приводит к непохожим решениям с разным качеством. Появилась серьезная проблема выбора ядровой функции, наиболее подходящей для решения конкретной задачи. Полностью эта проблема не решена и к настоящему времени. Некоторые общие методы выбора моделей, которые могут быть использованы (и используются) для выбора ядровой функции, изложены в главе 2.

В течение 90-ых гг. прошлого века получил активное развитие т.н. Байесовский подход к машинному обучению. Оказалось, что последовательное применение байесовского оценивания к параметрам алгоритмов и моделей позволяет решить (или во всяком случае предложить теоретическую схему решения) многие традиционные проблемы, с которыми сталкивалась теория машинного обучения. В 2000 году появилась альтернатива методу опорных векторов, получившая сходное название -- метод релевантных векторов (Relevance Vector Machine, RVM), использующая идеи байесовского обучения для построения ядровых методов. Описание метода приводится в главе 3.

Метод релевантных векторов позволил автоматически находить значения параметров регуляризации, отделяя, таким образом, полезные закономерности от помех. Тем не менее, проблема выбора ядровой функции не была полностью решена. В главе 4 приводится обобщение Байесовского подхода, позволяющее проводить подбор ядровой функции и коэффициентов регуляризации в рамках единой парадигмы. Главным отличием от Байесовского подхода является замена голосования по всему множеству алгоритмов (чрезвычайно тяжелого с вычислительной точки зрения) на единственный алгоритм, обладающий наряду с хорошей точностью на обучающей выборке высокой устойчивостью по отношению к изменению параметров алгоритма и ядровой функции.

В том случае, если не удается построить хороший алгоритм для решения конкретной задачи, можно попытаться построить коллективное решение на базе нескольких различных обученных алгоритмов. Эта мысль, впервые высказанная и воплощенная в жизнь Ю.И.Журавлевым, легла в основу концепции построения коллективных решений и, ставшего классическим, алгебраического подхода. В главе 5 излагаются некоторые популярные способы построения коллективных решений. Также изложена идея выпуклой стабилизации множества исходных алгоритмов, позволяющая во многих случаях улучшить обобщающую способность коллективного решения.

Авторы хотели бы выразить глубокую признательность акад. РАН Ю.И.Журавлеву и своему научному руководителю В.В.Рязанову, неизменно поощрявшим исследования по данной теме. Также отдельных теплых слов заслуживают аспиранты факультета ВМиК МГУ, активно участвовавшие в проведении научных исследований: Н.О.Пташко и О.М.Васильев.


 Об авторах

Дмитрий Петрович Ветров
Дмитрий Александрович Кропотов

Авторы являются аспирантами факультета вычислительной математики и кибернетики Московского государственного университета им. М.В.Ломоносова, а также математиками Вычислительного центра им. А.А.Дородницына Российской академии наук. В круг их научных интересов входят машинное обучение, распознавание образов, анализ данных, обработка сигналов, искусственный интеллект, прикладная лингвистика. В частности, они занимаются задачами повышения обобщающей способности алгоритмов классификации, автоматического понимания смысла текстов, созданием нечетких экспертных систем. В настоящий момент опубликовали более 40 научных работ. Лауреаты стипендии Президента РФ.

 
© URSS 2016.

Информация о Продавце