首页 | 文章中心 | 下载中心 | 本站特供 | 软硬件结合论坛 | 
您现在的位置: 中国软硬件结合技术网 >> 文章中心 >> 数理化基础 >> 正文 用户登录 新用户注册
[注意]上接网络安全            【字体:
上接网络安全
作者:from0311    文章来源:本站原创    点击数:    更新时间:2007-6-18

第三章 纳什均衡

 

3.1 相关理论

 

纳什均衡是非合作博弈理论的基本概念。所谓的非合作博弈,是对所有局中人的决策思维做出一种假设而来考察的竞争决策模型。这种假设便是:局中人认为所有对手欲置自己于最不利,而通过对自己可行方案进行选择以求收益尽可能大。

对于给定的对策模型

n维概率向量集合

决策者k的固定策略 ,其中,

是决策者k在状态S下采取行为 的概率。

是时刻 的状态, 是时刻 决策者k的收益。我们定义期望收益为列向量

其中

是决策者k在状态 下的收益矩阵。

固定策略 的纳什均衡满足组合式:

这里, 是两人分别采取固定策略 时的对策值向量。

在上述理论中, 分别对应攻击者和管理者的策略,而 分别对应攻击者与管理者的预期回报。

 

3.2 非线性规划

 

一般和的随机对策的纳什均衡被运用在如下的非线性规划:

满足约束条件:

其中

,其中,u是任意的值向量。

是值向量的变量, 是策略的变量,E是单位向量。

是由一对策略 导致的状态转移概率矩阵。

 

3.3 结果

 

在 MATLAB中计算纳什均衡。有一些状态中决策者有1或2个行为,为了一致和简单,在策略中,我们加入了 ,从而行为策略看起来整齐了。

非线性规划算法的结果是纳什均衡策略。每个人的策略包括每一个状态下行为集合的概率分布。纳什均衡策略在表1表示。

 

 

状态

攻击者的策略

管理者的策略

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

Normal_operation

Httpd_attacked

Ftpd_attacked

Ftpd_attacked_detector

Httpd_hacked

Htpd_hacked

Website_defaced

Webserver_sniffer

Webserver_sniffer_detector

Webserver_DOS_1

Webserver_DOS_2

Network_shut_down

Fileserver_hacked

Fileserver_data_stolen_1

Workstation_hacked

Workstation_data_stolen_1

Fileserver_data_stolen_2

Workstation_data_stolen_2

[1.00 0.00 0.00]

[1.00 0.00 0.00]

[0.65 0.00 0.35]

[0.40 0.12 0.48]

[0.33 0.10 0.57]

[0.12 0.00 0.88]

[0.33 0.33 0.33]

[0.00 0.50 0.50]

[0.34 0.33 0.33]

[0.33 0.33 0.33]

[0.34 0.33 0.33]

[0.33 0.33 0.33]

[1.00 0.00 0.00]

[1.00 0.00 0.00]

[1.00 0.00 0.00]

[1.00 0.00 0.00]

[0.33 0.33 0.33]

[0.33 0.33 0.33]

[0.33 0.33 0.33]

[0.33 0.33 0.33]

[1.00 0.00 0.00]

[0.93 0.07 0.00]

[0.67 0.19 0.14]

[0.96 0.00 0.04]

[0.33 0.33 0.33]

[0.33 0.33 0.34]

[1.00 0.00 0.00]

[1.00 0.00 0.00]

[1.00 0.00 0.00]

[0.33 0.33 0.33]

[0.35 0.34 0.31]

[1.00 0.00 0.00]

[0.31 0.32 0.37]

[1.00 0.00 0.00]

[0.33 0.33 0.33]

[0.33 0.33 0.33

 

表1:对于攻击者和管理者而言的纳什均衡策略

第四章 系统方法的改进

 

4.1 马尔可夫决策过程

4.1.1 相关理论

 定义4.1 如果状态空间上的函数 满足:对每个 ,即 ,则称 为马尔可夫决策函数。全体决策函数所组成的集合记作F

    如果状态空间上的概率分布函数族 满足:对每个 时刻的 上的一个概率分布,即满足 。那么称 位一个马尔可夫决策规则,这里 是决策时可。决策函数是马尔可夫决策规则的退化情形。

定义4.2 一个决策函数序列 称为马尔可夫策略。其中, 是决策时刻 的决策函数,不依赖于时刻 以前系统的历史, 。全体马尔可夫策略所组成的集合记作 ,成为马氏策略类。

一个马氏决策规则序列 称为随机马氏策略,其中 是决策时刻 的决策规则且不依赖于时刻 以前系统的历史, 。全体随机马氏策略所组成的集合记作 ,称为随机马氏策略类。

定义4.3 一个马氏决策规则序列 ,如果时刻 的决策规则 不仅是随机的,而且还依赖于时刻 以前系统的历史,这是一般的策略。全体一般策略所组成的集合记作 ,称为策略空间。

定义4.4 一个马氏策略 ,如果对每个 都有 ,则称它为平稳策略,记作 。全体平稳策论所组成的集合记作 ,并称为平稳策略类。

从上面的定义可以看到策略类之间的关系为

定理4.1 对于任意一个一般的策略 和一个状态 ,存在一个与状态 有关的随机马氏策略 ,使

                  

对所有的时间 都成立。

证明思路 参见文献[9]定理1.2

4.1.2 最优准则

为方便起见,我们把状态按表1分别记为12 18

对策略 和固定的折扣因子 ,折扣模型的报酬效用函数定义为

                              

表示使用策略 ,在0时刻从状态 出发的条件下,系统折扣期望总报酬。用 表示第 个分量为 的列向量,当状态空间 可列时, 为可列维向量。由 的有界性知道是 有界的,从而可以做出下面的定义。

   定义 4.5

                                            

为最优值函数,用向量表示为 。如果策略 使得 对所有状态 成立,则 成为折扣模型的最优策略。

4.1.3 最优方程

由定理4.1知道,对每个初始状态 和策略 ,存在随机的马氏策略其诱导的随机过程 与策略 是一致的。如果初始阶段的状态是根据其分布决定的,该随机马氏策略 不依赖于初始阶段的状态但可能依赖于那个初始的概率分布。如此类推,得到 的期望总折扣与策略 的相同,所以有

故寻找最优策略的范围就缩小到随机马氏策略类中。

下面的定理说明,任一个随机马氏策略的总期望折扣报酬可以分为一周期的期望报酬与用第一个决策规则后以 为终止报酬的和,这里 的定义可以参见下面的定理。

  定理 4.2  任取策略 ,每个状态

                

其中 。也可以用向量和矩阵表示为

                    

其中 ,这里 分量为 以及 为单位矩阵。

证明思路  证明参见文献[9]的定理3.1

在定理4.2中,如果使用的策略是平稳策略,即 ,则公式(4.6)可以写成

                

也就是说 是方程

                                            

的一个解。当 ,解是唯一的。

属于S上有界的实值函数的集合 时,对决策规则 和随机决策规则 ,分别定义线性算子 和随机线性算子

                                          

                                         

还定义算子

                                                

   定理 4.3 1)存在 满足

                                                   

其中 为(4.11)式所定义。这个 中唯一,而且有 。等式(4.12)也称为折扣模型的最优方程。

2)对每个 ,存在唯一的 满足 ,而且有

证明思路 参见文献[9]定理3.3

定理4.3是十分有意义的,它保证了最优方程解的存在性,从而可以利用线性方程组实现最优值与最优策略的求解过程。

4.1.4 策略迭代算法

策略迭代算法也称为策略空间逼近法,它是求解折扣MDP的一个有效方法。特别是对于状态空间和行为空间有限的MDP问题,方程(4.7)中确定的值 可以通过下面的线性方程组得到

                                   

这样,可以建立策略迭代算法。


算法4.1 (策略迭代算法)

步骤1 且任取

步骤2 (策略求值过程)解方程(4.13)(状态空间和行为空间有限的MDP问题)或者解

                                         

得到

     步骤3 (策略改进过程) 选取 为一个 -改进规则,即满足

                           

如有可能,令

      步骤4 如果 ,停止。这时 位最优策略, 为最优值函数。否则令 ,返回到步骤2


利用算法4.1可以产生一串策略序列 和相应的序列

策略迭代算法的最大缺点就是每一步都需要求解方程组(4.14)。如果状态空间比较大或者是无限大,需要很大的计算量或其他的逼近方法。这一点也制约了策略迭代算法的使用范围。而我们模型的缺点是整个状态空间非常大,因此算法需要改进。

4.1.5 改进的策略迭代算法

在策略迭代算法中,测量求值时需要解线性方程组(4.14)。如果状态空间中的元素是N的话,解方程组所需要的 次乘除运算。特别是当N很大时,计算量是十分可观的。可是如果采用值迭代雷德方法时,又无法得到精确的最优策略和最优值函数。所以要考虑改进的策略迭代算法,即策略迭代和值迭代的混合型算法。

为一非负整数列。


算法4.2 (改进的策略迭代算法)

步骤1 且满足 ,给定 ,并且置

步骤2 (策略改进)取 满足:

                               

如果可能,就取 )。

    步骤3 (部分策略求值)

     3a) 置 且令