Необходимые условия оптимальности для непрерывных систем 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

Необходимые условия оптимальности для непрерывных систем



 

Как уже отмечалось ранее, на основании сформулированного принципа оптимальности Беллманом были получены условия, которым должно удовлетворять оптимальное управление для непрерывных динамических систем. В общем случае описание динамической системы представляется в форме описания в переменных состояния:

 

 

где -мерный вектор координат состояния;

-мерный вектор управления.

Величина управляющего воздействия имеет ограничения, определяемые характером и возможностями объекта. Это означает, что вектор управления принимает значения из некоторой области пространства управления . Задача оптимизации управления состоит в том, чтобы определить управляющее воздействие , которое переводит объект из начального состояния в точку , и минимизирует критерий оптимизации в виде функционала:

 

 

Допустим, что найдена оптимальная траектория , выходящая из начальной точки и проходящая через точку . Рассмотрим на траектории промежуточные точки и (рис. 3.7), соответствующие моменту времени и . Обозначим минимальное значение функционала через , где по аналогии с дискретным случаем и - состояние объекта и момент времени начала оптимального участка траектории. В научной литературе по динамическому программированию для обозначения введен термин "потенциал". Согласно принципу оптимальности участок траектории от точки до точки также является оптимальной траекторией и значение потенциала равно

 

(3.11)

 

Представим выражение (3.11) в виде двух слагаемых согласно разбиению траектории:

 

(3.12)

 

Если принять, что - мало, первое слагаемое можно определить

 

 

где малая величина, более высокого порядка малости, чем . Поскольку второе слагаемое в (3.12) представляет собой значение критерия оптимизации на втором участке рассматриваемой оптимальной траектории, то можно записать в виде:

 

(3.13)

 

Выражение (3.13) является исходным для вывода уравнения Беллмана, содержащего необходимые условия для решения задач оптимизации непрерывных процессов. Однако вывод уравнения требует непрерывности функции , что далеко не всегда выполняется, и до сих пор не существует методики, позволяющей ответить на этот вопрос до начала решения задачи оптимизации.

Допустим, что потенциал является гладкой функцией состояния и представим в виде ряда Тейлора:

 

(3.14)

 

В выражении (3.14) исключаем , делим все слагаемые на и переносим производную потенциала по времени влево. В итоге получаем дифференциальное уравнение, разрешенное относительно производной потенциала по времени, которое называется уравнением Беллмана:

 

(3.15)

 

Согласно выражению (3.11) краевое условие для правого конца траектории имеет вид:

 

 

При организации решения уравнения (3.15) необходимо, прежде всего провести операцию минимизации правой части по . Если оптимальное значение лежит внутри области допустимых значений , то можно использовать необходимые условия стационарности по и получить уравнение

 

(3.16)

 

Допустим, что уравнение (3.16) позволяет определить , тогда найденное подставляем в исходное уравнение (3.15), ликвидируем операцию минимизации, так как она уже выполнена, и получаем уравнение относительно . Полученное уравнение называется уравнением Гамильтона-Якоби и имеет вид:

 

(3.17)

 

Выражения (3.17) и (3.16) представляют собой необходимые условия оптимальности для определения и . Уравнение (3.17), как правило, является нелинейным и аналитическое решение системы (3.17). (3.16) возможно только в простейших случаях. Кроме того, если лежит внутри , то это означает, что ограничения на несущественны для решения задачи оптимизации, что не является характерным при решении задач оптимизации методом динамического программирования. Однако вышеописанные операции имеет смысл выполнить для получения результатов, которые интересно сравнить с результатами вариационного метода. Это сравнение интересно, если представить уравнение (3.17) в канонической форме. Для этого с учетом найденного оптимального решения определим скалярную функцию-гамильтониан:

 

(3.18)

 

здесь сомножитель в соответствии со своей формой называется градиентом потенциала. В последующем тексте обозначим . На основании выражения (3.18) можно от одного скалярного уравнения (3.17) перейти к двум векторным (или скалярным) обыкновенным дифференциальным уравнениям Гамильтона относительно состояния и градиента потенциала:

 

(3.19)

 

Первое уравнение в системе (3.19) очевидно, обоснованием второго уравнения могут служить следующие соотношения:

 

(3.20)

 

Дифференцируя уравнение (3.17) по , имеем:

 

(3.21)

 

Градиент потенциала называют также сопряженным состоянием, так как по форме уравнения для него имеют характер сопряженных уравнениям состояния, как видно из (3.19). В задаче без ограничений система (3.19) эквивалентна уравнениям (1.31), при этом вектор совпадает с вектором множителей Лагранжа . В [11] показано, что уравнения (3.19) остаются справедливыми и в случае, если условия гладкости функции не выполняются на некотором множестве состояний. Вариационные методы позволяют находить оптимальное управление как функцию времени. Достоинством метода динамического программирования является то, что он позволяет находить оптимальное управление как функцию фазовых координат, т.е. позволяет решать задачу синтеза оптимального регулятора. Недостатком метода динамического программирования является то, что он исходную задачу оптимального управления сводит к решению трудноразрешимого нелинейного уравнения в частных производных. Теперь рассмотрим решение задачи оптимального управления для некоторых частных случаев. При решении практических задач очень часто можно принять, что объект описывается стационарной системой дифференциальных уравнений

 

 

где по-прежнему -мерный вектор координат состояния, -мерный вектор управления, имеющий ограничения в виде . В этом случае подинтегральная функция минимизируемого функционала также не зависит явно от :

 

 

Рассмотрим задачу с закрепленными концами, когда и и время перехода из начального состояния в конечное не фиксируется. Если найдено оптимальное управление и соответствующая ему траектория , то минимальное значение функционала является функцией начального состояния системы .

 

 

Пусть - некоторая точка на оптимальной траектории (рис 3.7), тогда на основе принципа оптимальности можно записать:

 

 

Разобьем оптимальную траекторию от до на два участка, зафиксировав точку справа от , т.е , где - малая величина:

 

 

Тогда по аналогии с рассмотренным выше выражение для можно записать в виде двух слагаемых:

 

(3.22)

 

В связи с тем, что рассматривается стационарный случай, функции и не зависят явно от временили, и разложение функции в ряд Тейлора имеет вид:

 

(3.23)

 

где через обозначены члены разложения, имеющие более высокий порядок малости, чем . Поставив выражение (3.23) в правую часть равенства (3.22) и перейдя к пределу при , получим:

 

(3.24)

 

Это есть уравнение Беллмана для стационарной задачи с фиксированными границами и свободным временем перехода.

При рассмотрении задачи оптимальности по быстродействию подинтегральная функция функционала и уравнение Беллмана имеет вид:

 

(3.25)

 

Если решается задача быстродействия при условии и (перевод объекта из состояния в начало координат), то решение уравнения (3.29) должно удовлетворять граничному условию

 

 

Теперь рассмотрим несколько примеров.

 

Пример I. Задача оптимального управления для линейной стационарной САУ при произвольном критерии не зависящем от управления :

 

 

Описание САУ в пространстве состояний:

 

 

Ограничение на управление . Составляющие вектора градиента потенциала:

 

.

 

Определяем уравнение Беллмана:

 

 

Проведение операции минимизации в представленном уравнении позволяет записать выражения для оптимальных значений составляющих вектора управления:

 

 

Для САУ -го порядка оптимальное управление для составляющей вектора определяется выражением:

 

 

Необходимые функции определяются из решения системы уравнений (3.14) для конкретного математического описания САУ.

 

Пример II. Описание объекта управления [10]

 

 

Ограничение на управляющее воздействие , критерий оптимизации . Уравнение Беллмана для данной задачи:

 

 

Оптимальное управляющее воздействие задается соотношением:

 

 

На основании описания объекта функции определяется из системы уравнений:

 

 

Пример III. Исходные данные:

 

, , , и

 

Требуется определить управляющее воздействие, минимизирующее функционал . Составляем уравнение Беллмана:

 

 

На основании процедуры минимизации можно получить аналитическое выражение для определения оптимального управления без учета ограничения на :

 

 

С учетом ограничений

 

 

Функции и определяются из системы уравнений

 

,

 

и граничных условий.

 

Пример IV.

Определить оптимальное управление с обратной связью в следующей задаче [9]:

 

 

Для решения задачи запишем уравнение Беллмана

 

 

Проводим операцию минимизации и определяем оптимальное управляющее воздействие:

 

 

Подставляем в уравнение Беллмана, в котором отсутствует операция минимизации:

 

 

Нужно решить это уравнение при граничном условии .

Будем искать решение в виде квадратичной формы

,

 

Которая удовлетворяет указанному граничному условию. Подставив это выражение в уравнение Беллмана, получим

Или

Последнее равенство будет выполняться тождественно, если

Эта система имеет следующее решение:

Из исходных данных при всех , т.е. - положительно определенная функция, поэтому в качестве решения следует рассматривать

. Тогда выражение для определения значения критерия оптимизации и оптимального управления имеют вид

Последнее равенство представляет собой уравнение регулятора.


 



Поделиться:


Последнее изменение этой страницы: 2017-02-08; просмотров: 509; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 3.144.189.177 (0.078 с.)