Предлагаемая вниманию читателя книга является вторым переработанным и дополненным изданием монографии, вышедшей в 1989 г. Следует заметить, что проблематика, связанная с речевым управлением робототехническими системами не только не устарела, но и существенно "омолодилась" в связи с развитием электронных информационно-коммуникационных технологий в конце XX и начале XXI вв. В частности, именно электронные технологии позволили изменить окружающее пространство. Миниатюризация электроники в сочетании с технологиями радиосвязи позволили развиться новым видам услуг в профессиональной и повседневной жизни, в сфере транспорта, здравоохранения, образования. Электронные устройства, снабженные микрочипами, сенсорами и средствами связи, активно используемые в настоящее время в робототехнике, способствуют превращению пассивных объектов в активные средства коммуникации. И здесь все большую роль играет лингвистическая "начинка" подобных систем, включая робототехнические системы. При этом одним из перспективных направлений является разработка адаптивных (самоприспосабливающихся) структур. Не менее значимым остается вопрос применения робото-технических устройств в космических программах (например, "Спирит" /США/, "Фобос-грунт" /Россия/, "Бигль" /Европейское космическое агентство/). США планируют массовую робототехническую акцию – высадку в ближайшее десятилетие на Луне и Марсе. Уже через четыре года планируется запустить принципиально новый космический аппарат для отправки на Луну роботов. В России набирает обороты проект, в рамках которого исследуется "поведение" антропоморфной роботообразной системы в условиях иных космических параметров. Таким образом, "космическая одиссея" находится на стадии активной подготовки и здесь немалая (если не определяющая) роль принадлежит развитию антропоморфных систем, разработка которых немыслима без их интеллектуализации, что имеет прямое отношение к результатам исследований, в частности, в области фундаментального и прикладного речеведения. Во втором издании переработаны материалы введения, первой, третьей и пятой глав, заключения. Исключены Приложения I–III, посвященные параметрам технических устройств 80-х гг. XX в., и заменены на Приложения I–III, включающие информацию о корректном подходе к анализу речевой мелодики, современных распознающих системах и алгоритмах "текст – речь". Обновлены библиографические источники. От автора
Посвящается
светлой памяти моих родителей
М.А.Ильиной и К.Х.Ильина
Непрерывное совершенствование форм диалогового общения между человеком-оператором и ЭВМ должно привести к оптимизации диалога между ними. Диалог "человек – машина" на естественном языке предполагает использование как новых технологий, так и определенных лингвистических знаний. Исследования показали, что необходимо тесное сотрудничество с лингвистами, так как разрабатываемые проекты автоматизированных систем, управляемых речью, выходят за рамки возможностей одной группы специалистов. Исследования в области взаимодействия "человек – машина" доказали необходимость экспериментов для изучения процессов обучения с использованием ЭВМ, формализации естественного языка, моделирования диалога "человек – машина" на естественном языке, разработки концепций ЭВМ, экспертных систем, баз данных, баз знаний. Под диалогом обычно понимается процесс непосредственного обмена сообщениями между двумя субъектами, при котором существует постоянная смена ролей говорящего и слушающего. Диалог между людьми подразумевает, как правило, наличие целенаправленного обмена сообщениями, взаимопонимания партнеров, определенной равноценности всей их деятельности в процессе обмена сообщениями, расширение профессиональной и языковой компетенции каждого из них. Подобное определение применяют как при рассмотрении речевого взаимодействия между людьми, так и при конструировании диалога между человеком и ЭВМ. Вместе с тем существуют и другие подходы к трактовке диалога "человек – ЭВМ ". Самая распространенная интерпретация заключается в следующем: человек и машина выполняют динамически меняющиеся функции, обеспечивая тем самым повышение эффективности всего процесса решения задачи, начиная от ее формулировки и кончая выполнением отлаженной программы. Взаимопонимание проявляется в знании каждым из партнеров системы языковых знаков или кодов, из которых строятся отдельные сообщения, а также в наличии хотя бы частично совпадающего представления о предмете (теме) беседы. Вместе с тем диалог "человек-ЭВМ" специфичен, так как ряд чисто "машинных" свойств (колоссальное быстродействие, отсутствие "усталости", опора на программируемые комбинации вариантов операций, а не на идеи и план действий и др.) ставит партнеров по виртуальной коммуникации a priori в неравные условия. Изучение проблемы роли языка общения между человеком и ЭВМ и разработка автоматизированных систем с естественным для человека языком общения находятся в стадии развития. Однако уже сейчас установлено, что распределение сходных функций между человеком и машиной должно осуществляться динамически в процессе взаимодействия на основании некоторых критериев эффективности (например, времени решения, стоимости). Рассматривая взаимодействие человека и машины, условимся считать диалогом такой режим распределения времени, при котором наблюдается хотя бы одна из следующих особенностей: наличие цели взаимодействия у обоих партнеров, определенная степень равноценности деятельности в процессе решения задачи, расширение и усовершенствование знаний (умений) одного партнера на базе знаний (умения) другого партнера, в частности обучение одного партнера другим, обмен сообщениями, направленный на установление понимания. Требования, предъявляемые к организации диалога: легкость обучения в использовании средств диалога, хорошее обнаружение ошибок, экономичность, согласованность, адаптивность, эффективность и т.д. Одной из форм взаимодействия человека и машины, считающейся перспективной и усиленно разрабатываемой в последнее время, является речевой диалог. Преимущества устной речи перед всеми другими способами общения следующие: остаются свободными руки, легко подать сигнал тревоги, не требуется никаких инструментов, оператор не должен занимать фиксированную позицию, не имеют значения условия освещения, механической вибрации и т.д., не нужны клавиатура и дисплей, проста методика наблюдения за реакцией на команду, можно пользоваться общим каналом для нескольких целей, в систему "человек – машина" могут быть включены люди с физическими недостатками, возможна защита от недозволенного доступа с помощью распознавания голоса, легко осуществляется сопряжение с телефонными системами. Однако связь с помощью голоса имеет и свои недостатки, к которым относят подверженность шумовым помехам, трудность выделения случайных включений из больших объемов информации, невозможность неограниченного ввода данных в ЭВМ в течение длительного времени. Использование естественного языка во взаимодействии "человек – машина" предполагает знание специфики его структуры. Прежде всего широко применяется подход к языку как к многоярусному явлению. Под лингвистическим ярусом (в языкознании "уровнем") понимается один из планов рассмотрения языка, определяемый свойствами единиц, вычленяемых исследователем. Обычно выделяют следующие ярусы: фонетический, фонологический, морфологический, лексический, синтаксический, семантический (точнее синтактико-семантический) и прагматический. Наименьшей единицей периферийного яруса языка является фонема (звукотип, репрезентант класса однотипных артикуляторно-акустических реализаций), служащая для образования и распознавания слов и их форм. Для каждого языка существует ограниченный набор гласных и согласных фонем. При написании слова фонемы передаются соответствующими графемами. Реализация фонемы в потоке речи, зависящая от ее позиции в слоге, слове, фразе, от конкретного звукового окружения (дистрибуции) и т.д., называется аллофоном (вариантом, оттенком) данной фонемы. Фонемы соотносятся с фонологическим ярусом, фоны (звуки) – с фонетическим. Правила фонемной классификации и комбинаторики в языке изучаются фонологией и фонотактикой. Фонетический ярус соотносится с изучением и описанием конкретных признаков реализации (артикуляционной, акустической, слуховой) фонем в потоке речи. Каждая фонема характеризуется определенным набором различных дифференциальных признаков, базирующихся на описании артикуляции (речеобразования), слуховой перцепции и акустических свойств данной фонемы. К числу таких признаков относят, например, глухость (отсутствие основного тона)-звонкость (наличие основного тона). Морфема – условно единица более высокого яруса, чем фонема. С помощью морфем может быть описана структура слова, состоящего, как правило, из корневой морфемы (корня), префиксальной и суффиксальной морфем (приставки, суффикса). Обычно рассматривается интегративный фономорфологический ярус. Лексический ярус охватывает словарь (слова и словоформы) того или иного языка. Синтаксический ярус включает такие единицы языка, как словосочетание, предложение. С помощью синтаксиса описываются и формализуются правила построения словосочетаний и предложений для каждого конкретного языка. К семантическому ярусу могут быть отнесены значения слов, различных грамматических форм. С помощью семантики устанавливается соотношение между предметами действительности (реального мира) и их языковыми обозначениями – словами. С помощью прагматического яруса устанавливается связь между единицами языка и пользователем. Правила построения слов, их изменения, структуры словосочетаний и предложений описываются в специальном разделе языкознания – грамматике. Для решения задач, связанных с автоматизацией перевода, реферированием, автоматическим распознаванием речи, необходимы точность и единообразие описания структуры предложений. Поэтому в последние годы широкое распространение получили так называемые бесконтекстные грамматики – математические модели синтаксической структуры предложения. Примером такой модели является "древесная" (сетевая) модель, или модель графов. Множество М с заданным бинарным отношением R называется графом и обозначается <М; R>. Элементы множества М называются узлами графа, конечный граф называется деревом. Любое предложение можно представить как конечное линейное упорядоченное множество. В рамках фонетического яруса изучают акустические характеристики речи, признаки слухового восприятия, артикуляцию, т.е. процесс речеобразования, коартикуляцию – процесс артикуляционного взаимовлияния звуков в потоке речи. Как правило, коартикуляция максимально выражена в пределах двухэлементного звукосочетания в рамках кратчайшей произносительной единицы – слога. Коартикуляция является следствием взаимного уподобления артикуляционных жестов соседних звуков, а следовательно, и их акустических свойств. Каждый язык характеризуется определенным набором основных типов слога (например, для русского языка основным типом слога является открытый слог СГ, состоящий из согласного (или нескольких согласных) и гласного. При изучении слогов в потоке речи особое внимание уделяется противопоставлению: "ударный слог", т.е. слог в сильной позиции, стоящий под ударением, и "безударный слог", т.е. слог, не несущий ударения. Безударные слоги для ряда языков (например, русского) характеризуется наличием редукции, т.е. ослаблением артикуляции, ведущим к менее отчетливому выражению качественных и количественных характеристик звуков. В современных алгоритмах сегментации при автоматическом распознавании речи часто используется термин "псевдослог", относящийся к различного рода звуковым комплексам типа ГСГ, СГСГ, СГС, ГС и т.д. и не передающий применительно к данному языку его типичной наименьшей произносительной структуры. К фонетическому ярусу относится также такая единица, как фонетическое слово (ритмическая структура, акцентная единица), объединяющее несколько слов (служебных и знаменательных) в единое структурное и произносительное целое. Центром фонетического слова является ударный слог. Безударные слоги, предшествующие ему, называются проклитикой, следующие за ним – энклитикой. Часть предложения (в потоке речи – фразы), выражающая относительно самостоятельное смысловое целое, оформленное синтаксически и интонационно, называется синтагмой. Синтагма может рассматриваться как наименьший интонационно-смысловой фрагмент сегментации потока речи. При изучении интонации обращаются к термину "просодия". Просодия включает частоту основного тона F0, интенсивность I и длительность t. Иногда просодические характеристики называют супрасегментными характеристиками в отличие от сегментных (звуковых). При изучении временной огибающей F0 учитывают локализацию главноударного слога во фразе (такт), изменение Fo на всех предшествующих слогах (предтакт) – и на последующих заударных слогах (затакт). Часть огибающей F0, соответствующая завершающему участку фразы, имеющему основное значение для распознавания типа сообщения, называется каденцией. Известно, что слушающий воспринимает не абсолютные, а относительные значения в огибающей F0 – частотные интервалы. Последние измеряются обычно в полутонах. Каждый полутон является наименьшим расстоянием по F0 (т.е. наименьшим высотным соотношением) согласно двенадцатиступенному (темперированному) музыкальному звуковому строю (звукоряду). Один полутон составляет одну двенадцатую часть октавы. Число полутонов определяет тот или иной музыкальный интервал (например, терция, кварта и пр.). Интервалы различают по их направлению: положительный (при возрастающей F0) и отрицательный (при понижающейся F0) (См. Приложение I). Интонация, как правило, рассматривается как комплексное понятие, охватывающее изменения просодических характеристик, ударение, ритм, темп, паузацию, тембр (окраску) звуков. При изучении акустики речеобразования одним из основных понятий является понятие форманты. В настоящее время существует по меньшей мере три основных определения частоты форманты: а) за частоты формант принимают частоты максимумов спектра; б) частотой форманты называют частоту полюса фильтрующей функции речевого тракта (частотой антиформанты – частоту нулевого значения фильтрующей функции); в) частотой форманты называют средневзвешенную (среднюю) частоту спектра в области соответствующей форманты. На практике существуют различные способы выделения формат. Одним из них является способ определения числа пересечений через нуль, основанный на измерении плотности нулевых переходов речевого сигнала в соответствующей формантной области. Измерения производят частотомером (амплитудным ограничителем, дифференциатором, двухполупериодным выпрямителем, интегратором), величина напряжения на выходе которого пропорциональна средней плотности нулевых переходов за время интеграции. Вариантом данного способа является дискриминантный метод, суть которого заключается в том, что спектр речевого сигнала транспонируют в область частот выше 20 кГц и преобразованный речевой сигнал подают на частотный дискриминатор. Показания последнего пропорциональны отклонению средневзвешенной частоты спектра (центроида) от граничной частоты формантного диапазона. В настоящее время существуют различные варианты реализации вышеуказанных методов. Соотношение формант спектра того или иного звука дает возможность выделять различительные признаки типа "компактный", "диффузный", "высокий" ("острый"), "низкий" ("тупой") и т.д. Например, сосредоточение частот формант в средней части спектра позволяет определять признак звука как компактный, рассредоточение – как диффузный; концентрацию энергии в низких частотах спектра – как тупой, в высоких частотах – острый. Локусом формант обычно называют характерные точки, в которых начинаются формантные переходы (изменения частоты форманты при переходе от одного звука к другому) или к которым примыкают последние. Широко распространено определение формант на основе кепстрального сглаживания, при котором сегменты речевого сигнала, умноженные на функцию временного окна, преобразуются в сглаженные спектры. В сглаженном спектре определяются пики в качестве потенциальных формант. Аппаратурно кепстральный метод реализуется следующим образом. Сегмент речевого сигнала (t приближенно равно 10 мс) подается на анализатор спектра последовательного типа и полосой пропускания не менее 200 Гц. На выходе получают развертку кратковременного спектра данного сегмента. Эта временная зависимость подается через логарифмический усилитель на второй анализатор спектра. Применение логарифмического усилителя дает возможность более точного определения формантной частоты. При автоматическом распознавании речи широко применяется математический метод линейного предсказания (ЛП), достоинством которого является относительная простота оценки параметров при условии линейных процедур обработки сигнала. Использование метода ЛП в автоматизированных системах [1; 2] позволяет получить ряд важнейших параметров: частоты формант, основную частоту, функцию поперечного сечения площади голосового тракта. Динамическое программирование, используемое в автоматизированных системах речевого управления, предполагает планирование, построение и объединение динамических объектов, создаваемых с помощью не описания переменной, а обращения к процедуре распределения памяти. При этом применяется механизм косвенных ссылок, предполагающий наличие указателей [3]. Схема манипулирования динамическими объектами позволяет строить произвольные структуры во время работы программы. Техника динамического программирования широко используется в системах автоматического распознавания речи с привлечением ограниченного словаря. Подобный метод распознавания дает хорошие результаты с коэффициентом ошибок, близким к 0, при соблюдении следующих условий: постоянной величины основного тона, слабого окружающего шума, наличия словаря средней сложности (например, словаря цифр). При преобразовании непрерывного сигнала в дискретный используется метод квантования. Если процесс характеризуется одним параметром, например приращениями мгновенного значения, то квантование происходит по одному признаку, т.е. в одномерном пространстве. Такое квантование называют скалярным. При преобразовании сложных речевых процессов, определяемых несколькими характеристиками, например частотами, амплитудами и шириной формант, квантование при переходе от непрерывного процесса к дискретному происходит в многомерном пространстве (например, для формант – в трехмерном). В этом случае каждый "квант" будет характеризоваться приращением в многомерном пространстве, т.е. вектором. Соответственно такое квантование называют векторным. При автоматическом распознавании речи используют, как правило, два основных метода: аналитический и глобальный. При аналитическом методе применяется предварительная сегментация речевого потока на единицы, более мелкие, чем слово (фонемы, слоги); при глобальном учитывается локализация и распознавание слов. К основным понятиям взаимодействия "человек – машина" могут быть отнесены также такие понятия, как база данных, база знаний, фрейм, скрипт. База данных определяется как информация, упорядоченная в виде набора элементов одинаковой структуры. База знаний включает всю рациональную информацию о действительности, ситуации, говорящем, об основных механизмах его поведения и т.д. Фрейм определяется как отрезок при сегментации речи и обработке речевого сигнала. Кроме того, фрейм в автоматизированных системах представляет собой структуру, образуемую утверждениями о понятиях и типовых ситуациях, ассоциируемых с данным понятием. Опора на скрипт предусматривает учет динамики событий. Сенсорные робототехнические устройства определяются как устройства, снабженные имитаторами органов чувств человека, т.е. как "очувствленные" системы. Локомоционные робототехнические системы характеризуются свойством активного перемещения в пространстве. Интерактивные робототехнические системы предполагают системы, взаимодействующие друг с другом и с оператором, осуществляющим, в частности, управление с голоса. Бионический подход к разработке робототехнических систем заключается в использовании данных бионики, изучающей особенности строения и жизнедеятельности организмов для создания новых приборов, механизмов, систем. Особую роль при этом играет использование ассоциативного принципа построения модели центральных механизмов обработки речевого сигнала, в основе которой лежат биологические факты о структуре и свойствах нейронов и их объединений. ![]() Доктор филологических наук, профессор, заслуженный работник высшей школы Российской Федерации, член общественной организации «Международная академия информатизации», почетный вице-президент Международного общества по фонетическим наукам (ISPhS). В настоящее время — директор Института прикладной и математической лингвистики Московского государственного лингвистического университета, заведующая кафедрой прикладной и экспериментальной лингвистики, руководитель Центра фундаментального и прикладного речеведения Московского государственного лингвистического университета. Широко известный специалист в области общего и романо-германского языкознания, прикладной, экспериментальной и математической лингвистики. Победитель конкурса преподавателей вузов «Золотые Имена Высшей Школы» 2018 года.
|