Реферат: Синтез оптимальных уравнений
--PAGE_BREAK--Если мы будем рассматривать движение автомобиля по плоскости (а не по прямой), то фазовых координат будет четыре (две «географические» координаты и две компоненты скорости), а управляющих параметров – два (например, сила тяги двигателя и угол поворота руля). У летящего самолёта можно рассматривать шесть фазовых координат (три пространственные координаты и три компоненты скорости) и несколько управляющих параметров (тяга двигателя, величины, характеризующие положение рулей высоты и направления, элеронов).<img width=«193» height=«193» src=«ref-1_299949178-1391.coolpic» v:shapes="_x0000_s1073 _x0000_s1074 _x0000_s1075 _x0000_s1076 _x0000_s1077 _x0000_s1078 _x0000_s1079 _x0000_s1080 _x0000_s1081 _x0000_s1082 _x0000_s1083 _x0000_s1084 _x0000_s1088 _x0000_s1089 _x0000_s1090">Разумеется, в проводимом ниже математическом исследовании мы будем иметь дело не с самими реальными объектами, а с некоторой математической моделью. Сказанное выше делает естественным следующее математическое описание управляемого объекта. Состояние объекта задаётся (в каждый момент времени) n числами x1,
x2,…,
xn, которые называются фазовыми координатами объекта. Движение объекта заключается с математической точки зрения в том, что его состояние с течением времени изменяется, т. е. x1,
x2,…,
xn являются переменными величинами (функциями времени). Движение объекта происходит не самопроизвольно. Им можно управлять; для этого объект снабжён «рулями», положение которых характеризуется (в каждый момент времени) r числами u1,
u2,…,
ur; эти числа называются управляющими параметрами. Рулями можно «манипулировать», т. е. по своему желанию менять (конечно, в допустимых пределах) управляющие параметры u1,
u2,…,
ur. Иначе говоря, мы можем по желанию выбрать функции u1(
t),
u2(
t),…,
ur(
t), описывающие изменение управляющих параметров с течением времени. Мы будем предполагать (как это обычно и бывает), что, зная фазовое состояние объекта в начальный момент времени и выбрав управляющие функции u1(
t),
u2(
t),…,
ur(
t) (для t>
t0), мы можем точно и однозначно рассчитать поведение объекта для всех t>
t0, т. е. можем найти функции x1(
t),
x2(
t),…,
xn(
t), характеризующие изменение фазовых координат с течением времени. Таким образом, изменение фазовых координат x1,
x2,…,
xnуже не зависит непосредственно от нашего желания, но на движение объекта мы всё же можем в той или иной мере воздействовать, выбирая по своему желанию управляющие функции u1(
t),
u2(
t),…,
ur(
t).
Управляемый объект, о котором только что шла речь, в теории автоматического управления принято изображать так, как это показано на рис. 2. Величины u1,
u2,…,
ur (управляющие параметры) часто называют также «входными переменными», а величины x1,
x2,…,
xn (фазовые координаты) – «выходными переменными». Говорят ещё, что «на вход» объекта поданы величины u1,
u2,…,
ur, а «на выходе» мы получаем величины x1,
x2,…,
xn. Разумеется, на рис. 2 показано лишь условное обозначение управляемого объекта и никак не отражено его «внутреннее устройство», знание которого необходимо, чтобы выяснить, каким образом, зная управляющие функции u1(
t),
u2(
t),…,
ur(
t), можно вычислить изменение фазовых координат x1(
t),
x2(
t),…,
xn(
t).
Величины u1,
u2,…,
ur удобно считать координатами некоторого вектора u=(u1,
u2,…,
ur), также называемого управляющим параметром (векторным). Точно так же величины x1,
x2,…,
xnудобно рассматривать как координаты некоторого вектора (или точки) x=(x1,
x2,…,
xn) в n – мерном пространстве с координатами x1,
x2,…,
xn. Эту точку называют фазовым состоянием объекта, а n – мерное пространство, в котором в виде точек изображаются фазовые состояния, называется фазовым пространством рассматриваемого объекта. Если объект таков, что его фазовое состояние характеризуется только двумя фазовыми координатами x1,
x2 (см. рис. 1), то мы будем говорить о фазовой плоскости. В этом случае фазовые состояния объекта изображаются особенно наглядно.
<img width=«174» height=«117» src=«ref-1_299950569-808.coolpic» v:shapes="_x0000_s1120 _x0000_s1121 _x0000_s1122 _x0000_s1123 _x0000_s1124 _x0000_s1125 _x0000_s1127 _x0000_s1128 _x0000_s1129 _x0000_s1130">Итак, в векторных обозначениях рассматриваемый управляемый объект можно изобразить так, как показано на рис. 3. Входящая величина u=(u1,
u2,…,
ur) представляет собой управляющий параметр, а выходная величина x=(x1,
x2,…,
xn) представляет собой точку фазового пространства (или, иначе, фазовое состояние объекта).
<img width=«174» height=«174» src=«ref-1_299951377-1981.coolpic» v:shapes="_x0000_s1857 _x0000_s1105 _x0000_s1856 _x0000_s1109 _x0000_s1110 _x0000_s1111 _x0000_s1112 _x0000_s1855 _x0000_s1103 _x0000_s1107 _x0000_s1108 _x0000_s1114 _x0000_s1854">Как сказано выше, чтобы полностью задать движение объекта, надо задать его фазовое состояние x0=(x01,
x02,…,
x0n) в начальный момент времени t0и выбрать управляющие функции u1(
t),
u2(
t),…,
ur(
t) (для t>t0), т. е. выбрать векторную функцию u(
t)=
u1(
t),
u2(
t),…,
ur(
t)). Эту функцию u(
t) мы будем называть управлением. Задание начального фазового состояния x0и управления u(
t) однозначно определяет дальнейшее движение объекта. Это движение заключается в том, что фазовая точка x(t)=(x1(
t),
x2(
t),…,
xn(
t)), изображающая состояние объекта, с течением времени перемещается, описывая в фазовом пространстве некоторую линию, называемую фазовой траекторией рассматриваемого движение объекта (случай n=2 изображён на рис. 4). Очевидно, что эта линия исходит из точки x0, поскольку x(t0)=
x0.
Пару векторных функций (u(
t),
x(
t)), т. е. управление u(
t) и соответствующую фазовую траекторию x(
t), мы будем называть в дальнейшем процессом управления или просто процессом.
<img width=«212» height=«249» src=«ref-1_299953358-2399.coolpic» v:shapes="_x0000_s1131 _x0000_s1132 _x0000_s1133 _x0000_s1134 _x0000_s1135 _x0000_s1136 _x0000_s1137 _x0000_s1138 _x0000_s1139 _x0000_s1140 _x0000_s1141 _x0000_s1142 _x0000_s1143 _x0000_s1144 _x0000_s1145 _x0000_s1146 _x0000_s1147 _x0000_s1148">Итак, резюмируем. Состояние управляемого объекта в каждый момент времени характеризуется фазовой точкой
x=(x1,
x2,…,
xn). На движение объекта можно воздействовать при помощи управляющего параметра u=(u1,
u2,…,
ur). Изменение величин u,
x с течением времени мы называем процессом; процесс (u(
t),
x(
t)) составляется из управления
u(
t) и фазовой траектории x(
t). Процесс полностью определяется, если задано управление u(
t) (при t>t0) и начальное фазовое состояние x0=
x(
t0).
2.
Задача управления. Часто встречается следующая задача, связанная с управляемыми объектами. В начальный момент времени t0объект находится в фазовом состоянии x0; требуется выбрать такое управление u(
t), которое переведёт объект в заранее заданное конечное фазовое состояние x1 (отличное от x0; рис. 5). При этом нередко бывает, что начальное состояние x0заранее не известно. Рассмотрим один из наиболее типичных примеров. Объект должен устойчиво работать в некотором режиме (т. е. находиться в некотором фазовом состоянии x1). В результате тех или иных причин (например, под воздействием неожиданного толчка) объект может выйти из рабочего состояния x1 и оказаться в некотором другом состоянии x0. При этом точка x0, в которую может попасть объект, заранее не известна, и мы должны уметь так управлять объектом, чтобы из любой точки x0(или хотя бы из точек x0достаточно близких к x1) вернуть его в рабочее состояние x1 (рис. 6).
<img width=«231» height=«249» src=«ref-1_299955757-4061.coolpic» v:shapes="_x0000_s1149 _x0000_s1150 _x0000_s1151 _x0000_s1152 _x0000_s1153 _x0000_s1154 _x0000_s1155 _x0000_s1156 _x0000_s1157 _x0000_s1158 _x0000_s1159 _x0000_s1160 _x0000_s1161 _x0000_s1162 _x0000_s1163 _x0000_s1164 _x0000_s1165 _x0000_s1166 _x0000_s1167 _x0000_s1168">Такое управление часто осуществляется человеком (оператором), который следит за приборами и старается выбирать управление, поддерживающее объект в требуемом рабочем режиме.
Однако в современных условиях высокого развития техники оператор зачастую не может успешно справиться с этой задачей ввиду сложности поведения объекта, большой быстроты протекания процессов и т. п. Поэтому чрезвычайно важно создать такие приборы, которые сами, без участия человека, управляли бы работой объекта (например, в случае выхода объекта из рабочего состояния возвращали бы его в это рабочее состояние). Такие приборы («регуляторы», «автоматические управляющие устройства» и т. п.) сейчас очень распространены в технике, их изучением занимается теория автоматического управления.
Первым устройством этого рода был центробежный регулятор Уатта, сконструированный для управления работой паровой машины (см. рис. 9). Схема этого регулятора показана на рис. 7. В общем случае (рис. 8) на вход регулятора подаются фазовые координаты объекта.
<img width=«594» height=«227» src=«ref-1_299959818-7263.coolpic» v:shapes="_x0000_s1286 _x0000_s1285 _x0000_s1172 _x0000_s1284 _x0000_s1175 _x0000_s1176 _x0000_s1177 _x0000_s1178 _x0000_s1179 _x0000_s1180 _x0000_s1181 _x0000_s1182 _x0000_s1183 _x0000_s1184 _x0000_s1185 _x0000_s1186 _x0000_s1187 _x0000_s1188 _x0000_s1189 _x0000_s1190 _x0000_s1191 _x0000_s1192 _x0000_s1193 _x0000_s1194 _x0000_s1195 _x0000_s1196 _x0000_s1197 _x0000_s1198 _x0000_s1199 _x0000_s1200 _x0000_s1201 _x0000_s1202 _x0000_s1203 _x0000_s1204 _x0000_s1205 _x0000_s1206 _x0000_s1207 _x0000_s1208 _x0000_s1209 _x0000_s1210 _x0000_s1211 _x0000_s1212 _x0000_s1213 _x0000_s1214 _x0000_s1215 _x0000_s1216 _x0000_s1217 _x0000_s1218 _x0000_s1219 _x0000_s1220 _x0000_s1221">
Обычно требуется, чтобы переходный процесс (т. е. процесс перехода из начального фазового состояния x0в предписанное состояние x1, рис. 5) был в определённом смысле «наилучшим», например, чтобы время перехода было наименьшим или чтобы энергия, затраченная в течение переходного процесса, была минимальной и т. п. Такой «наилучший» переходный процесс называется оптимальным процессом. Термин «оптимальный процесс» требует уточнения, т. к. необходимо разъяснить, в каком смысле понимается оптимальность. Если речь идёт о наименьшем времени перехода, то такие процессы называются оптимальными в смысле быстродействия. Иначе говоря, процесс, в результате которого объект переходит из точки x0в точку x1 (рис. 5), называется оптимальным в смысле быстродействия, если не существует процесса, переводящего объект из x0в x1 за меньшее время (здесь и далее предполагается, что x1≠
x0). Разумеется, желательно, чтобы регулятор не просто возвращал объект в рабочее состояние, а делал это наилучшим образом, например, в смысле быстродействия (т. е. возвращал объект в рабочее состояние за кратчайшее время). В связи с этим в теории автоматического управления рассматриваются весьма различные регуляторы. Рассмотрение регуляторов приводит к тому, что уменьшение времени переходного процесса связано с усложнением конструкции регулятора; поэтому, усложняя конструкцию регулятора, можно лишь приближаться к «идеальному», «оптимальному» регулятору, который во всех случаях осуществляет переходный процесс за кратчайшее время. В точности же «оптимального» регулятора, по-видимому, осуществить нельзя. Однако такой вывод является ошибочным, т. к. сейчас уже создали математический аппарат, рассчитывающий такие регуляторы. Можно предполагать, что оптимальные регуляторы будут играть важную роль в технике будущего.
3. <img width=«212» height=«117» src=«ref-1_299967081-1211.coolpic» v:shapes="_x0000_s1283 _x0000_s1027 _x0000_s1028 _x0000_s1029 _x0000_s1030 _x0000_s1282 _x0000_s1032 _x0000_s1033 _x0000_s1034 _x0000_s1035 _x0000_s1036 _x0000_s1037 _x0000_s1038 _x0000_s1039 _x0000_s1040">Уравнения движения объекта. Начнём с рассмотрения одного простого примера. Пусть G – тело, которое может совершать прямолинейное движение (рис. 10). Массу этого тела будем предполагать постоянной и равной m, а его размерами будем пренебрегать (т. е. будем считать G материальной точкой.) Координату тела G (отсчитываемую от некоторой точки O той прямой, по которой оно движется) будем обозначать через x1. При движении тела G его координата x1 меняется с течением времени. Производная <img width=«19» height=«29» src=«ref-1_299968292-201.coolpic» v:shapes="_x0000_i1025">представляет собой скорость движения тела G. Будем предполагать, что на тело G действуют две внешние силы: сила трения ─<img width=«27» height=«25» src=«ref-1_299968493-215.coolpic» v:shapes="_x0000_i1026">и упругая сила ─ kx1 и что, кроме того, тело Gснабжено двигателем. Развиваемую двигателем силу воздействия на тело Gобозначим через u. Таким образом, по второму закону Ньютона движение тела
Gс течением времени будет описываться дифференциальным уравнением
<img width=«140» height=«23» src=«ref-1_299968708-329.coolpic» v:shapes="_x0000_i1027">
Обозначив скорость движения через x2(т. е. положив <img width=«52» height=«23» src=«ref-1_299969037-230.coolpic» v:shapes="_x0000_i1028">), мы сможем записать этот закон движения в виде следующей системы дифференциальных уравнений:
<img width=«174» height=«118» src=«ref-1_299969267-956.coolpic» v:shapes="_x0000_s1061 _x0000_s1062 _x0000_s1063 _x0000_s1064 _x0000_s1065 _x0000_s1066 _x0000_s1067 _x0000_s1068 _x0000_s1069 _x0000_s1070 _x0000_s1071 _x0000_s1072"><img width=«175» height=«75» src=«ref-1_299970223-544.coolpic» v:shapes="_x0000_i1029"> (1.1)
Здесь величины x1,
x2 являются фазовыми координатами тела G, а величина u – управляющим параметром, т. е. мы имеем объект, схематически изображённый на рис. 11.
Уравнения (1.1) представляют собой закон изменения фазовых координат с течением времени (с учётом воздействия управляющего параметра), т. е. представляют собой закон движения фазовой точки в фазовой плоскости.
Мы рассмотрели лишь один частный случай, но можно было бы указать целый ряд других примеров, в которых закон движения объекта описывается дифференциальными уравнениями. Чаще всего (см.(1.1)) эти уравнения дают выражения производных от фазовых координат через сами фазовые координаты и управляющие параметры, т. е. имеют вид
<img width=«204» height=«120» src=«ref-1_299970767-884.coolpic» v:shapes="_x0000_i1030"> (1.2)
где f1, f2,…, fn – некоторые функции, определяемые внутренним устройством объекта.
В дальнейшем мы сосредоточим своё внимание именно на таких объектах (рис. 2), закон движения которых описывается системой дифференциальных уравнений вида (1.2). В векторной форме систему (1.2) можно записать в виде
<img width=«71» height=«21» src=«ref-1_299971651-276.coolpic» v:shapes="_x0000_i1031"> (1.3)
где x ─ вектор с координатами x1,…, xn, u – вектор с координатами u1,…, ur и, наконец, f(x, u) – вектор, координатами которого служат правые части системы (1.2).
Разумеется, невозможно решить систему дифференциальных уравнений (1.2) (т. е. найти закон движения объекта), не зная каким образом будут меняться с течением времени управляющие параметры u1, u2,…, ur. Напротив, зная поведение величин u1, u2,…,ur, т. е. зная управляющие функции u1(t), u2(t),…, ur(t) для t>t0мы сможем из системы уравнений
<img width=«229» height=«120» src=«ref-1_299971927-1041.coolpic» v:shapes="_x0000_i1032"> (1.4)
или, что то же самое, из векторного уравнения
<img width=«91» height=«21» src=«ref-1_299972968-293.coolpic» v:shapes="_x0000_i1033"> (1.5)
однозначно определить движение объекта (при t>t0), если нам известно начальное фазовое состояние объекта (в момент t=t0). Иначе говоря, задание управления u(t) и начального фазового состояния x0однозначно определяет фазовую траекторию x(t) при t>t0, что согласуется со сделанными ранее (стр. 1) предположениями о свойствах объекта.
Тот факт, что задание начального фазового состояния (в момент t=t0) позволяет из системы (1.4) однозначно определить фазовую траекторию x(t), t>t0, вытекает из теоремы о существовании и единственности решений системы дифференциальных уравнений. <img width=«252» height=«249» src=«ref-1_299973261-5788.coolpic» v:shapes="_x0000_s1041 _x0000_s1042 _x0000_s1043 _x0000_s1044 _x0000_s1045 _x0000_s1046 _x0000_s1047 _x0000_s1048 _x0000_s1049 _x0000_s1050 _x0000_s1051 _x0000_s1052 _x0000_s1053 _x0000_s1054 _x0000_s1055 _x0000_s1056 _x0000_s1057 _x0000_s1058 _x0000_s1059 _x0000_s1060">Предположим, что, зная начальное фазовое состояние x0и управление u(t)=(u1(t),…, ur(t)), мы определили фазовую траекторию x(t) (с помощью системы (1.4)). Если мы изменим управление u(t) (сохранив то же начальное состояние x0), то получим некоторую другую траекторию, исходящую из той же точки x0; вновь изменим управление
u(
t) – получим ещё одну траекторию и т. д. Таким образом, рассматривая различные управления u(
t), мы получим много траекторий, исходящих из точки x0(рис. 12). (Разумеется, это не противоречит теореме единственности в теории дифференциальных уравнений, так как, заменяя функции u1(
t),…,
ur(
t) другими функциями, мы переходим от системы дифференциальных уравнений относительно фазовых координат x1,…,
xn.)
Напомним, что задача оптимального быстродействия заключается в отыскании такого управления u(
t), для которого фазовая траектория x(
t), соответствующая этому управлению в силу уравнения (1.5), проходит через точку x1 и переход из x0в
x1осуществляется за кратчайшее время. Такое управление u(
t) будем называть оптимальным управлением (в смысле быстродействия); точно так же соответствующую траекторию x(
t) буде называть оптимальной траекторией.
продолжение
--PAGE_BREAK--4.
Допустимые управления. Обычно управляющие параметры u1,…,
ur не могут принимать совершенно произвольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 4, естественно предположить, что сила u, развиваемая двигателем, не может быть как угодно большой по величине, а подчинена ограничениям α≤u≤β, где αи
β – некоторые постоянные, характеризующие двигатель. В частности, при α=─1, β=1 мы получаем ограничение ─1≤u≤1, которое означает, что двигатель может развивать силу, направленную вдоль оси x1 как в положительном, так и в отрицательном направлении, но не превосходящую единицы по абсолютной величине.
Для объектов, содержащих r управляющих параметров u1,…,
ur, в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следующих пределах:
α1≤u1≤β1, α2≤u2≤β2,…,α
r≤ur≤βr.
Иначе говоря, каждая из величин u1,
u2,…,
ur в уравнениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных
управляющих параметров и задаётся неравенствами
α
i≤ui≤β
i
, i=1,…,r. (1.6)
Заметим, что при r=2 точки u=(u1,
u2), координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r=3 неравенства (1.6) определяют в пространстве переменных u1,
u2,
u3 прямоугольный параллелепипед; в случае произвольного r говорят, что неравенства (1.6) определяют r-мерный параллелепипед.
В общем случае будем считать, что в соответствии с конструкцией объекта и условиями его эксплуатации задано в пространстве переменных u1,…,
ur некоторое множество U и управляющие параметры u1,
u2,…,
ur должны в каждый момент времени принимать лишь такие значения, чтобы точка u=(u1,
u2,…,
ur) принадлежала множеству U. Иначе говоря, разрешается рассматривать лишь такие управления u(
t), что u(
t) <img width=«13» height=«13» src=«ref-1_299979049-189.coolpic» v:shapes="_x0000_i1034">U для любого t. Множество U в дальнейшем будем называть областью управления. Область управления U не всегда будет параллелепипедом; она может иметь геометрически более или менее сложный характер, так как в силу конструкции объекта между управляющими параметрами u1,
u2,…,
ur могут существовать связи, выражаемые, например, уравнениями вида φ(u1,
u2,…,
ur)=0 или неравенствами ψ(u1,
u2,…,
ur)≤0. Так, если параметры u1,
u2 характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произвольно, то эти параметры подчинены только одному условию
(u1)2 +(u2)2 ─1≤0 (1.7)
и область управления U представляет собой круг. В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания управляемого объекта надо указать закон его движения (1.2) и область управления
U.
Наконец, сделаем ещё одно, весьма существенное предположение о характере управлений. Именно, будем предполагать, что «рули», положения которых характеризуются управляющими параметрами u1,
u2,…,
ur, безынерционны, так что мы можем, если нужно, мгновенно переключать эти «рули» из одного положения в другое, т. е. менять скачком значения управляющих параметров u1,
u2,…,
ur. В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывные управления u(
t). Кроме того, будем предполагать, что каждое рассматриваемое управление u(
t) непрерывно на концах отрезка t0≤t≤t1, на котором оно задано, т. е. что все точки разрыва, если они есть, расположены на интервале t0<t<t1. Для удобства условимся называть допустимым управлением всякую кусочно-непрерывную функцию u(t), t0≤t≤t1, со значениями в области управления U, непрерывную справа в точках разрыва (для определённости нам так удобно предполагать) и непрерывную в концах отрезка [t0; t1], на котором она задана.
Задача об оптимальных быстродействиях уточняется теперь следующим образом:
Среди всех допустимых управлений
u=
u(
t), под воздействием которых управляемый объект (1.3)переходит из заданного начального фазового состояния
x0 в предписанное конечное состояние
x1, найти такое, для которого этот переход осуществляется за кратчайшее время
§ 2. Об основных направлениях в теории оптимальных процессов
5.
Метод динамического программирования. Для управляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x1. При этом конечную фазовую точку x1 будем считать фиксированной, а в качестве начальной точки x будем рассматривать различные точки фазового пространства. Мыбудем предполагать в этом пункте, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:
Г и п о т е з а 1. Какова бы ни была отличная от x1 точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки
x0в точку
x1 (рис. 6).
Время, в течение которого осуществляется оптимальный переход из точки x0в точку x1, обозначим через T(
x). В дальнейших рассуждениях будет удобно вместо T(
x) ввести функцию ω(x), отличающуюся от неё знаком
ω(x)= ─T(x). (1.8)
Так как каждая точка x фазового пространства имеет координаты x1,…,
xn, то ω(x)= ─T(
x) является функцией от
n переменных, т. е. ω(x)= ω(x1,…,
xn). Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных x1,…,
xn) и о дифференцируемости этой функции по каждой из переменных x1,…,
xn.
А также будем предполагать, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:
Г и п о т е з а 2.Функция
ω(x) непрерывна и всюду, кроме точки
x1, имеет непрерывные частные производные <img width=«125» height=«45» src=«ref-1_299979238-462.coolpic» v:shapes="_x0000_i1035">
Пусть теперь x0─ произвольная отличная от x1 точка фазового пространства, а u0─ произвольная точка области U. Предположим, что объект находится в момент t0в фазовом состоянии x0и движется в течение некоторого времени под воздействием постоянного управления u=
u0. Фазовую траекторию объекта при этом движении обозначим через y(t)=(y1(
t),…,
yn(
t)). Таким образом, фазовая траектория y(
t) при t>
t0удовлетворяет уравнениям
<img width=«191» height=«31» src=«ref-1_299979700-439.coolpic» v:shapes="_x0000_i1036"> (1.9)
(см. (1.2), (1.3)) и начальному условию
y(t0)=x0. (1.10)
Если мы будем двигаться из точки x0до точки y(
t) (по рассматриваемой фазовой траектории), то затратим на это движение время t ─ t0. Двигаясь затем из точки y(
t) оптимально, мы затратим на движение от точки y(t) до точки x1 время T(
y(
t)). В результате мы совершим переход из точки x0в точку x1, затратив на этот переход время (t ─
t0)+T(y(t)). Но так как оптимальное время движения от точки x0до точки x1 равно T(x0), т. е. равно T(y(t0)), то T(y(t0))≤(t ─
t0)+T(y(t)). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину t ─
t0, получаем отсюда <img width=«147» height=«47» src=«ref-1_299980139-433.coolpic» v:shapes="_x0000_i1037">и поэтому, переходя к пределу при t→
t0, находим
<img width=«72» height=«41» src=«ref-1_299980572-319.coolpic» v:shapes="_x0000_i1038">│при <img width=«28» height=«19» src=«ref-1_299980891-208.coolpic» v:shapes="_x0000_i1039">≤1. (1.11)
Но производная, указанная в левой части этого неравенства, вычисляется по формуле полной производной <img width=«200» height=«53» src=«ref-1_299981099-606.coolpic» v:shapes="_x0000_i1040"> Поэтому согласно (1.9) и (1.10) неравенство (1.11) принимает вид <img width=«179» height=«51» src=«ref-1_299981705-516.coolpic» v:shapes="_x0000_i1041"> Точки x0, u0здесь были произвольными. Таким образом,для любой (отличной от
x1) точки
x фазового пространства и любой точки
u области управления
U выполнено соотношение
<img width=«145» height=«51» src=«ref-1_299982221-476.coolpic» v:shapes="_x0000_i1042"> (1.12)
Пусть теперь (u(t), x(t)) ─ оптимальный процесс, переводящий объект из фазового состояния x0в состояние x1, и t0≤t≤t1 ─ отрезок времени, в течение которого это оптимальное движение происходит, так что x(t0)=
x0, x(t1)=x1 и t1=t0 + T(x0). Движение по рассматриваемой оптимальной траектории от точки x0до точки x(t) осуществляется в течение времени t ─
t0, а движение от точки x(t) до точки
x1 ─ в течение времени T(x0) ─ (t ─
t0). Быстрее, чем за время T(x0) ─ (t ─
t0), из точки x(t) попасть в точку x1 невозможно. Итак, T(x0) ─ (t ─
t0) есть время оптимального движения из точки x(t) в точку x1, т. е. T(x(t))=
T(x0) ─ (t ─
t0). Заменив здесь T через ω, т. е. ω(x(t))=
ω(x0) + t ─
t0) и взяв производную по t, получаем
<img width=«321» height=«51» src=«ref-1_299982697-783.coolpic» v:shapes="_x0000_i1043"> t≤t≤t1. (1.13)
Таким образом, для каждого оптимального процесса в течение всего движения выполняется равенство (1.13).
Если мы теперь введём в рассмотрение функцию
B(x, u(t))=<img width=«117» height=«51» src=«ref-1_299983480-439.coolpic» v:shapes="_x0000_i1044">, (1.14)
То соотношения (1.12) и (1.13) могут быть записаны следующим образом:
B(x,
u)≤1 для всех точек x≠x1 и u; (1.15)
B(x,
u)≡1 для любого оптимального процесса (u(t), x(t)). (1.16)
Итак, справедлива следующая
Т е о р е м а 1.1. Если для управляемого объекта, описываемого уравнением (1.5) и предписанного конечного состояния
x1выполнены гипотезы 1 и 2, то имеют место соотношения (1.15)и (1.16) (оптимальность понимается в смысле быстродействия).
Эта теорема и составляет сущность метода динамического программирования для рассматриваемой задачи. Эту теорему можно сформулировать и несколько иначе. Написав соотношение (1.16)
Для t=t0, получим
B(x0, u(t0))=1, т. е. для любой точки
x0(отличной от x1)найдётся в
U такая точка
u(а именно
u=
u(t0)), что
B(x0, u)=1. В сопоставлении с неравенством (1.15) получаем соотношение
<img width=«275» height=«51» src=«ref-1_299983919-696.coolpic» v:shapes="_x0000_i1045"> для любой точки x≠x1. (1.16*)
Метод динамического программирования (1.15), (1.16) (или, что то же самое, (1.16*), (1.16)) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции ω(x), так как эта функция входит в соотношения (1.15) ─ (1.16*). Во-вторых, уравнение Беллмана (1.16*) (или соотношения (1.15), (1.16)) представляет собой уравнение в частных производных относительно функции ω, осложнённое к тому же знаком максимума. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является предположение о выполнении гипотез 1 и 2. Ведь оптимальные управления и функция ω нам заранее не известны, так что гипотезы 1 и 2 содержат предположение о неизвестной функции, и проверить выполнение этих гипотез по уравнениям движения объекта невозможно. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи этим методом оказалось, что функция ω(x) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших, линейных задачах оптимального управления функция ω(x) не является, как правило, всюду дифференцируемой. Тем не менее, методом динамического программирования можно нередко пользоваться как ценным эвристическим средством.
6.
Принцип максимума. Продолжим теперь рассуждения предыдущего пункта, предположив функцию ω(x) уже дважды непрерывно дифференцируемой (всюду, кроме точки x1). Итак, будем предполагать, что выполнена следующая
Г и п о т е з а 3.функция
ω(x) имеет при
x≠
x1вторые непрерывные производные <img width=«63» height=«52» src=«ref-1_299984615-373.coolpic» v:shapes="_x0000_i1046">
i,
j=1,2,…,n, а функции
fi(x,
u) ─ первые непрерывные производные <img width=«67» height=«56» src=«ref-1_299984988-342.coolpic» v:shapes="_x0000_i1047"> где
i,
j=1,2,…,n.
Пусть (u(
t),
x(
t)), t0≤t≤t1, ─ оптимальный процесс, переводящий объект (1.2) (или (1.3)) из фазового состояния x0в состояние x1. Фиксируем некоторый момент времени t,t0≤t≤t1, и рассмотрим функцию B(x,
u(t))=<img width=«120» height=«51» src=«ref-1_299985330-454.coolpic» v:shapes="_x0000_i1048"> переменного x. В силу гипотезы 3 вытекает, что функция B(x,
u(t)) всюду, кроме точки x1, имеет непрерывные производные по переменным x1,x2,…,xn:
<img width=«445» height=«56» src=«ref-1_299985784-1024.coolpic» v:shapes="_x0000_i1049"> (1.17)
В частности, так как x(t)≠x1 (поскольку t<t1), то функция B(x,
u(t)) имеет вблизи точки x=x(t) непрерывные производные по переменным x1,x2,…,xn. Далее, мы имеем в силу (1.15), (1.16) B(x,
u(t))≤1 для любого x≠
x1; B(x,
u(t))=1 при x=
x(t).
Эти два соотношения означают, что функция B(x,
u(t)) достигает в точке x=x(t) максимума, и потому её частные производные по x1,…,
xn обращаются в нуль в этой точке:
<img width=«447» height=«56» src=«ref-1_299986808-985.coolpic» v:shapes="_x0000_i1050"> (1.18)
Кроме того, дифференцируя функцию <img width=«63» height=«45» src=«ref-1_299987793-328.coolpic» v:shapes="_x0000_i1051"> по t, находим
<img width=«416» height=«53» src=«ref-1_299988121-1047.coolpic» v:shapes="_x0000_i1052">
Поэтому соотношение (1.18) может быть переписано в следующем виде:
<img width=«364» height=«56» src=«ref-1_299989168-928.coolpic» v:shapes="_x0000_i1053"> (1.19)
Заметим теперь, что в формулы (1.15), (1.16), (1.17) и (1.19) сама функция ω не входит, а входят только её частные производные <img width=«81» height=«43» src=«ref-1_299990096-356.coolpic» v:shapes="_x0000_i1054">. Поэтому мы введём для удобства следующие обозначения:
<img width=«340» height=«43» src=«ref-1_299990452-795.coolpic» v:shapes="_x0000_i1055"> (1.20)
Тогда функция B (см. (1.14)) записывается таким образом:
B(x(t), u(t))=<img width=«136» height=«53» src=«ref-1_299991247-445.coolpic» v:shapes="_x0000_i1056">
и соотношение (1.16) принимает вид
<img width=«152» height=«51» src=«ref-1_299991692-452.coolpic» v:shapes="_x0000_i1057">, для оптимального процесса (x(t), u(t)), t0≤t<t1. (1.21)
Кроме того, согласно (1.15)
<img width=«137» height=«51» src=«ref-1_299992144-437.coolpic» v:shapes="_x0000_i1058"> для любой точки u<img width=«13» height=«13» src=«ref-1_299979049-189.coolpic» v:shapes="_x0000_i1059">U и всех t0≤t<t1. (1.22)
Наконец, соотношения (1.19) записываются следующим образом:
<img width=«292» height=«56» src=«ref-1_299992770-703.coolpic» v:shapes="_x0000_i1060"> (1.23)
Итак, если (u(t), x(t)), t0≤t<t1, ─ оптимальный процесс, то существуют такие функции ψ1(t), ψ2(t),…, ψ
n(t) (они определяются равенствами (1.20)), что имеют место соотношения (1.21), (1.22), (1.23).
Рассмотрение левых частей соотношений (1.21), (1.22) подсказывает нам, что целесообразно ввести в рассмотрение следующую функцию:
<img width=«441» height=«51» src=«ref-1_299993473-775.coolpic» v:shapes="_x0000_i1061"> (1.24)
зависящую от 2n+
r аргументов ψ1,ψ2,…, ψ
n, x1,…, xn, u1,…, ur. С помощью этой функции соотношения (1.21), (1.22) записываются в следующем виде:
<img width=«140» height=«21» src=«ref-1_299994248-349.coolpic» v:shapes="_x0000_i1062"> для оптимального процесса (u(t), x(t)), t0≤t<t1, (1.25)
где ψ(t)=(ψ1(t),…,ψ
n(t)) определяются равенствами (1.20);
<img width=«140» height=«21» src=«ref-1_299994597-356.coolpic» v:shapes="_x0000_i1063">для любой точки u<img width=«13» height=«13» src=«ref-1_299979049-189.coolpic» v:shapes="_x0000_i1064">U и всех t0≤t<t1. (1.26)
Вместо неравенства (1.26) мы можем в силу (1.25) написать следующее соотношение:
<img width=«268» height=«33» src=«ref-1_299995142-543.coolpic» v:shapes="_x0000_i1065"> t≤t<t1. (1.27)
Наконец, соотношения (1.23) можно, очевидно, переписать так:
<img width=«265» height=«45» src=«ref-1_299995685-573.coolpic» v:shapes="_x0000_i1066"> (1.28)
Итак, если (u(t), x(t)), t0≤t<t1, ─ оптимальный процесс, то существует такая функция ψ(t)=(ψ1(t),…, ψ
n(t)), что выполняются соотношения (1.25), (1.27), (1.28), где функция
H определяется соотношением (1.24).
Так как в соотношениях (1.24), (1.25), (1.27), (1.28) нигде не участвует явно функция ω(x), то равенства (1.20), выражающие функции ψ1(t),…, ψ
n(t) через ω, никаких добавочных сведений не дают, и о них можно забыть, ограничившись утверждением, что какие-то функции ψ1(t),…, ψ
n(t), удовлетворяющие перечисленным соотношениям (1.25), (1.27), (1.28), существуют. Соотношения (1.28) представляют собой систему уравнений, которым эти функции удовлетворяют. Заметим, что функции ψ1(t),…, ψ
n(t) составляют нетривиальное решение этой системы (т. е. ни в какой момент времени tвсе эти функции одновременно в нуль не обращаются); действительно, если бы при некотором tбыло ψ1(t)=ψ2(t)=…=ψ
n(t)=0, то в силу (1.24) мы получили бы H(ψ(t), x(t), u(t))=0, что противоречит равенству (1.25). Таким образом, мы получаем следующую теорему, которая носит название принципа максимума.
Т е о р е м а 1.2. Предположим, что для рассматриваемого управляемого объекта, описываемого уравнением (в векторной форме)
<img width=«121» height=«21» src=«ref-1_299996258-325.coolpic» v:shapes="_x0000_i1067"> (A)
и предписанного конечного состояния
x1выполнены гипотезы 1, 2 и 3. Пусть (u(t), x(t)), t0≤t≤t1, ─ некоторый процесс, переводящий объект из начального состояния
x0 в состояние
x1. Введём в рассмотрение функцию
H, зависящую от переменных
x1(t),…, xn(t),
u1,…,
ur и некоторых вспомогательных переменных ψ1(t),…, ψ
n(t) (см. (1.24)):
<img width=«168» height=«51» src=«ref-1_299996583-468.coolpic» v:shapes="_x0000_i1068"> (B)
С помощью этой функции
H запишем следующую систему дифференциальных уравнений для вспомогательных переменных:
<img width=«233» height=«45» src=«ref-1_299997051-528.coolpic» v:shapes="_x0000_i1069"> (C)
где (u(t), x(t)) ─ рассматриваемый процесс (см. (1.28)). Тогда, если процесс (u(t), x(t)), t0≤t<t1, является оптимальным, то существует такое нетривиальное решение ψ(t)=(ψ1(t),…, ψ
n(t)),
t0≤t<t1, системы (C), что для любого момента
t,
t0≤t<t1, выполнено условие максимума
<img width=«264» height=«33» src=«ref-1_299997579-537.coolpic» v:shapes="_x0000_i1070"> (D)
(см. (1.27))и условие (1.25) H(ψ(t),x(t),u(t))=1.
Однако в приведённой здесь форме принцип максимума страдает одним недостатком: он выведен в предположение дифференцируемости (и даже двукратной) функции ω(x), а эта функция в действительности не является (в обычно встречающихся случаях) всюду дифференцируемой.
Из-за предположения о выполнении сформулированных гипотез (о функции ω(x)) принцип максимума в том виде, в каком он сформулирован выше, не является удобным условием оптимальности. По форме он выведен как необходимое условие оптимальности: если процесс оптимален, то выполнено соотношение (1.16*) и соответственно (D), т. е. выполнение этого условия необходимо для оптимальности. Однако это условие выведено лишь в предположении выполнения гипотез 1, 2, 3, а их выполнение отнюдь не необходимо для оптимальности. Вот почему сформулированные выше теоремы не могут считаться необходимыми условиями оптимальности.
Замечательным, однако, является тот факт, что если в теореме 1.2 решение ψ(t)и условие максимума (D)рассматривать на всём отрезке
t0≤t≤t1(а не только при
t0≤t<t1), а заключительное условие
H(ψ(t1), x(t1), u(t1))≥0, (E)
то в этой форме принцип максимума будет справедлив без каких бы то ни было предположений о функции ω, т. е. принцип максимума станет весьма удобным и широко применимым продолжение
--PAGE_BREAK--
еще рефераты
Еще работы по математике