| | 首页 | 文章中心 | 下载中心 | 本站特供 | 软硬件结合论坛 | | |
![]() | |
| 您现在的位置: 中国软硬件结合技术网 >> 文章中心 >> 数理化基础 >> 正文 |
|
|||||||||
| 上接网络安全 | |||||||||
| 作者:from0311 文章来源:本站原创 点击数: 更新时间:2007-6-18 | |||||||||
| 第三章 纳什均衡 3.1 相关理论 纳什均衡是非合作博弈理论的基本概念。所谓的非合作博弈,是对所有局中人的决策思维做出一种假设而来考察的竞争决策模型。这种假设便是:局中人认为所有对手欲置自己于最不利,而通过对自己可行方案进行选择以求收益尽可能大。 对于给定的对策模型 令n维概率向量集合 决策者k的固定策略 令 其中 固定策略 这里, 在上述理论中, 3.2 非线性规划 一般和的随机对策的纳什均衡被运用在如下的非线性规划: 满足约束条件: 其中 3.3 结果 在 MATLAB中计算纳什均衡。有一些状态中决策者有1或2个行为,为了一致和简单,在策略中,我们加入了 非线性规划算法的结果是纳什均衡策略。每个人的策略包括每一个状态下行为集合的概率分布。纳什均衡策略在表1表示。
表1:对于攻击者和管理者而言的纳什均衡策略 4.1 马尔可夫决策过程 定义4.1 如果状态空间上的函数 如果状态空间上的概率分布函数族 定义4.2 一个决策函数序列 一个马氏决策规则序列 定义4.3 一个马氏决策规则序列 定义4.4 一个马氏策略 从上面的定义可以看到策略类之间的关系为 定理4.1 对于任意一个一般的策略 对所有的时间 证明思路 参见文献[9]定理1.2 为方便起见,我们把状态按表1分别记为1,2 对策略 表示使用策略 定义 4.5 令 为最优值函数,用向量表示为 由定理4.1知道,对每个初始状态 故寻找最优策略的范围就缩小到随机马氏策略类中。 下面的定理说明,任一个随机马氏策略的总期望折扣报酬可以分为一周期的期望报酬与用第一个决策规则后以 定理 4.2 任取策略 其中 其中 证明思路 证明参见文献[9]的定理3.1 在定理4.2中,如果使用的策略是平稳策略,即 也就是说 的一个解。当 当 还定义算子 定理 4.3 (1)存在 其中 (2)对每个 证明思路 参见文献[9]定理3.3 定理4.3是十分有意义的,它保证了最优方程解的存在性,从而可以利用线性方程组实现最优值与最优策略的求解过程。 策略迭代算法也称为策略空间逼近法,它是求解折扣MDP的一个有效方法。特别是对于状态空间和行为空间有限的MDP问题,方程(4.7)中确定的值 这样,可以建立策略迭代算法。 算法4.1 (策略迭代算法) 步骤1 令 步骤2 (策略求值过程)解方程(4.13)(状态空间和行为空间有限的MDP问题)或者解 得到 步骤3 (策略改进过程) 选取 如有可能,令 步骤4 如果 利用算法4.1可以产生一串策略序列 策略迭代算法的最大缺点就是每一步都需要求解方程组(4.14)。如果状态空间比较大或者是无限大,需要很大的计算量或其他的逼近方法。这一点也制约了策略迭代算法的使用范围。而我们模型的缺点是整个状态空间非常大,因此算法需要改进。 在策略迭代算法中,测量求值时需要解线性方程组(4.14)。如果状态空间中的元素是N的话,解方程组所需要的 令 算法4.2 (改进的策略迭代算法) 步骤1 取 步骤2 (策略改进)取 如果可能,就取 步骤3 (部分策略求值) 3(a) 置 | |||||||||