%0 Journal Article
%T 模型未知非零和博弈问题的策略迭代算法
%A 杨明
%A 罗艳红
%A 王义贺
%J 东北大学学报:自然科学版
%P 318-322
%D 2015
%R 10.3969/j.issn.1005-3026.2015.03.004
%X 提出了一种在线积分策略迭代算法，用来求解内部非线性动力模型未知的双人非零和博弈问题.通过在控制策略和干扰策略中引入探测信号，从而避开了系统的模型信息，得到了一个求解非零和博弈的无模型的近似动态规划算法.该算法同步更新值函数、控制策略、扰动策略，并且最终得到收敛的策略权值.在算法实现过程中，使用4个神经网络分别近似两个值函数、控制策略和扰动策略，使用最小二乘法估计神经网络的未知参数.最后仿真结果验证了算法的有效性.
%K 自适应动态规划
%K 非零和博弈
%K 策略迭代
%K 神经网络
%K 最优控制
%U http://xuebao.neu.edu.cn/natural/CN/abstract/abstract6823.shtml