首页 | 文章中心 | 下载中心 | 本站特供 | 软硬件结合论坛 | 
您现在的位置: 中国软硬件结合技术网 >> 文章中心 >> 数理化基础 >> 正文 用户登录 新用户注册
[注意]对策论在网络安全中的应用            【字体:
对策论在网络安全中的应用
作者:from0311    文章来源:本站原创    点击数:    更新时间:2007-6-18

摘要

 

随着因特网爆发式地发展,它所带给人们很多有价值的信息,提供给人们更多方便,使人们紧密地联系在一起.然而,一个问题出现了——网络攻击越来越频繁,这给企业和个人带来巨大损失。在这个新环境下,加强网络安全对于保护个人隐私和公司机密是必须的。

本论文论述了一种分析计算机网络安全的对策论方法。我们视这种攻击者与管理者之间的相互作用为二人随机对策,并以此建立对策模型。运用非线性规划,我们计算出相对于二人(攻击者和管理者)而言的纳什均衡策略或最优反应策略。然后我们解释为什么这些策略是现实的和管理者怎么运用这些结论来加强网络安全。最后,我们介绍运用常规马尔可夫决策过程(MDP)和对策论解,来找到单独的策略理论方法。

 

关键词随机对策, 非线性规划, 马尔可夫决策过程, 网络安全

ABSTRACT

 

Along with the explosion of the internet, it has brought people lots of valuable information, providing them more convenience and bringing people closer together. However, comes out a problem that the attack of network becomes more serious, which brings great losses to enterprises and individual. Greater network security is needed to protect personal privacy and company confidentiality as well in this new environment.

This paper presents a game-theoretic method for analyzing the security of computer networks. We view the interactions between an attacker and the administrator as a two-player stochastic game and construct model for the game. Using a non-linear program, I compute the Nash equilibrium or best-respond strategies for the players (attacker and administrator). We the explain why the strategies are realistic and how administrators can use these result to enhance the security of their network.. Finally I introduce an academic method for finding an individual pair of strategies, using conventional Markov decision process (MDP) and game-theoretic solution methods.

 

KEY WORDS: Stochastic games, Non-linear programming, Network security, Markov decision process

第一章 绪论

 

1.1 研究背景

 

今天,通常情况下,我们把网络攻击者通称为黑客。

最初,"黑客"HACKER)是一个褒义词,指的是那些尽力挖掘计算机程序的最大潜力,可以随心所欲编写计算机程序实现自己意图的计算机高手。20世纪60年代初 ,装备有巨型计算机的大学校园,比如麻省理工大学的人工智能实验室,开始成为黑客们施展拳脚的舞台。他们利用编程寻找计算机、操作系统等的错误促进了计算机的发展。

然而,70年代以后黑客利用其技术开始了犯罪。

70年代,John Draper发现通过在孩子们用的一种饼干盒里发出哨声,可以制造出精确的音频输入话筒让电话系统开启线路,从而可以借此进行免费的长途通话。

80年代,黑客利用计算机侵入包括纪念Sloan-Kettering癌症中心甚至洛斯阿莫斯国家实验室等的计算机系统做案,芝加哥第一国家银行成为一桩7000万美元的电脑抢劫案的受害者。

90年代,AT&T的长途服务系统在马丁路德金纪念日崩溃,美国联邦网站大量被黑,包括美国司法部,美国空军,中央情报局和美国航空航天管理局等。美国审计总局的报告表明仅仅1995年美国国防部就遭到黑客侵袭达25万次之多。

2006321,赛门铁克发布《第十一期互联网安全威胁研究报告 (Internet Security Threat Report)》。根据报告显示,当前威胁环境的主要特征是数据窃取、数据泄漏和为了获利而以特定组织为目标进行攻击所创造的恶意代码不断增加。攻击者不断改进攻击方法,逃避检测,进而建立全球性的协作网络,用来支持持续增长的犯罪活动。网络犯罪者以获利为目的,不断开发目的性更强的恶意威胁,试图在窃取机密信息时逃避检测。

网络罪犯越来越不怀好意,他们不断改良攻击方法,使其更加精密而复杂而逃避检测。无论是消费者还是企业用户,所有的终端用户都需要部署适当的安全措施,才能防范攻击者访问机密信息,避免经济损失、对重要客户造成伤害、或是使其信誉受损。

随着全球网络化、信息化的迅速发展,网络与信息安全问题日益严重。网络入侵及安全事件的发生越来越频繁。信息战也已经成为国内外越来越热门的词汇。各种信息在公共通信网络上存储、传输,可能被目的各异的供给者非法窃听、截取、篡改和毁灭,从而造成不可估量的损失。尤其对于银行系统、商业系统、军事部门尤为重要。

当前的黑客为了显示自己的技术,专门破解机关或企业网站。但是最近,有组织、有针对性的金钱盗取事例不断增多。瞄准金钱的黑客越来越多。黑客组织的利益化使得对网络的破坏性更大。

20071月在瑞典发生了历史上损失最惨重的“银行强盗”事件,瑞典最大的银行——诺迪亚银行250名顾客的800万瑞典克朗被抢。但是抢劫犯不仅没带枪械和刀等凶器,甚至没有进入银行。原来是黑客盗取用户账号信息后,在网络银行转账,将钱抢走。瑞典警方却在案发15个月后才得知这一事实。

20073月中旬,韩国花旗银行网上信用卡结算代办系统遭到攻击,造成20名顾客账户的5000余万韩元被擅自结算。上月在韩国国民银行和农协的网络银行,5000名顾客的注册认证书也被黑客盗取。黑客诱骗顾客登录伪装的网站。30多名顾客被假网站所骗,将保安卡账号和密码拱手交给黑客。

计算机安全技术发展经历了信息保密、信息保护和信息保障三个历程。

20世纪大部分时间,人们对付专业化攻击的手段采用的保护措施就是加密;

20世纪90年代前后,随着信息的发展和互联网的兴起,人们逐步意识到数字化信息除了有保密性需要外,还有信息的完整性、信息和信息系统的可用性需求,因此明确提出了信息安全就是要保证信息的保密性、完整性和可用性。这一时期被描述为信息保护阶段;

90年代后期开始,人们开始认识到安全的概念己经不局限于信息的保护,人们需要的是对整体信息和信息系统的保护和防御,包括了对信息的保护、检测、反应和恢复能力,除了要进行信息的安全保护,还要重视提高安全预警能力。系统的入侵检测能力,系统的事件反应能力和系统遭到入侵引起破坏的快速修复能力。

网络安全是“三分技术,七分管理”。人们开始寻求一种在体系对体系、多波次对多波次以及快速变化的策略集合条件下的攻防技术。美国人最先将博弈理论和博弈模型引入到计算机网络攻防对抗的研究之中,并迅速产生了广泛的反响。

 

1.2 相关工作

 

国外计算机技术发展起步早,计算机网络普及很广,无论在技术层面,还是宏观管理层次上,西方国家对网络安全的研究都是领先的。

在军事层面上,对策论应用在军事信息对抗中——假想敌采取行动和策略去打乱己方网络。Browne用静态对策来分析复杂不同种类的军事网络攻击的。在他的事例中,防御团队必须防护网络以对抗攻击团队的蠕虫攻击。根据连续的攻击和防卫行为,每一次的结果都有不同的损失值。Bruke在信息对抗软件中研究用不完全信息的重复对策模拟双方的应用——预测敌方的策略和运用对策模型防卫对方。

在现代网络中,对策论已用于研究流量控制、链环容量分配、服务器分配、沿虚回路负载与流量的权衡、多用户共享网络最小化流量等问题。其中,Bohacek把对一个数据传输网络而言,稳健的路径策论归结为路径设计者与试图截取数据报的对手的二人零和对策,在不同的规则和信息结构下研究。

McinerneyFRIARS决策系统中用简单的单人对策描述系统攻击,其目的只是用来预测对手某一时刻下一步的行为。

虽然我国计算机技术起步晚,主流研究方向还处于技术层面,但仍有一部分人从事管理层面研究。例如,李博远在对抗系统模糊博弈模型的基础上,结合信息安全保障的实践情况,提出了基于博弈论的网络攻防决策与策略选择模型及其分析方法蒋建春博士给出了一个基于攻击上下文的入侵检测模型及算法,该模型及算法根据网络攻击在各阶段的特点及相互依赖关系,充分利用攻击环境、攻击效果的上下文信息来发现攻击者的入侵行为。

 

1.3 论文内容

在本篇论文中,我们将描述怎么运用对策论来发现策略,不仅对攻击者还有管理者。我们用一个例子(图1.1)——连接在因特网上的本地网络,来说明我们的方法,并且假设它们之间的相互作用为一般和随机对策。

在第二章,首先提出假设,根据博弈过程建立随机对策的正式模型,然后定义其中涉及到这个网络模型的元素,并描述3种对网络可能的攻击方案及其防护手段。

在第三章,解释了随机对策中纳什均衡的原理,介绍并运用非线性规划计算出对攻击者和管理者而言的纳什均衡策略。

在第四章,改进系统方法后运用马尔可夫决策过程求解最优策略并与第三章的结果比较,解释例子中的这个解。

在第五章对模型进行了分析,找出了其中的不足之处,并指出今后工作的方向。

第二章 网络中的随机对策

 

对策论,是研究竞争条件下决策分析的科学。它研究的是决策主体在给定信息结构下如何决策使得效用值最大化。网络分析中,网络实体(攻击实体,防御实体等)参与到各种网络行为中,其行为目的是追求个体利益的最大化。

在本章,我们首先建立随机对策的模型,然后用这个网络模型来解释模型元素是怎样定义的。随后,描述3种不同的攻击方案及其防护方式。

 

2.1 模型的建立

 

我们用图(2.1)描述网络攻防多阶段博弈过程的一个完整的步骤。在 时刻,出于网络中的攻击者和管理者双方观察到网络当前所处的状态,并根据这个状态分别选取各自的行为。之后,双方的行为会对网络的运行有两个影响:一个是产生一对即得的收益或损失。而另一个是网络会根据双方博弈的结果,在下一时刻转移到一个新的状态。这时博弈双方面临与开始时相同的问题,即选取 时刻的决策。博弈过程这样循环下去,不同的只是此时的状态可能是一个新的状态,而且可采用的行为集合随状态的变化而改变。

将实际问题归结为数学问题模型时,必须作一些理想化的假设,以便抓住问题的最本质的特征。基本假设为:

1.防护双方是理性的人。

防护双方参与到各种网络行为中,其行为目的是追求个体利益的最大化。一般情况下,双方是不会不采取行动的。

2.技术一致性。

在同一状态下,攻击者发动攻击,管理者采取防御。从管理者的角度而言,面对攻击者的未知攻击,当采取的防护手段与攻击方式不对应,即采取了错误的行为,那么网络进入攻击者预期的状态。当采取的防护手段与攻击方式对应时,在现实中,网络下一时刻的状态完全取决于双方的技术水平,而技术层面的问题不影响模型对现实问题的反映,同时为简化问题,我们假设此时网络进入管理者预期的状态。

3.进入每一个状态,双方获取的收益或损失是固定的。

本文涉及到的损失(负值)和收益(正值)与攻击者和管理者的行为相关。攻击者的行为带来收益,而收益是根据他对网络造成的破坏的数目而定。然而,一些损失是很难衡量的。例如,市场战略信息的损失会导致大量金钱的损失。一个被丑化的社团的网站会使公司名誉扫地和使顾客对其失去信心。因此,我们假定损失或收益为管理者恢复网络正常所需的时间。例如,当一个特殊服务垮台了,可能要花费管理者1015分钟的时间去确定原因并重新启动服务。此时的收益或损失为1015。为反映网络中重要金融数据损失的严重性,对于攻击者使网络进入一个状态,从而获得数据的行为,我们分配了非常高的收益——999

4.视状态转移为单个人的行为。

由假设1知,状态转移主要由管理者行为的正确与否决定。因此,我们把对策分为两个观点,可以简单的视状态转移为单个人的行为。状态转移概率是单个人的行为函数。

因此,二人随机对策在形式上归结为一个多元组

 

其中

    所有的决策时刻的点集

网络的所有可能的状态集合

决策者k的行为集合 k=1,2,

在状态S下,决策者k的行为集合是 的子集,即

状态转移函数

决策者k的收益函数 k=1,2

同时,根据实际问题需要,模型中加入一个折扣将来收益的参数——折扣因子 ,且 ,即

当前状态下,一个状态转移得到行为带来的全部收益。而从下一个状态所得的转移收益是当前状态值的 倍。

 

2.2 模型元素的定义

2.2.1 决策时刻与周期

选取行动的时间点被称为决策时刻,并用 记所有决策时刻的点集。在模型中, 是可列无限点集。在 为离散的情况下,决策都在决策时刻做出。

对于离散时间问题,两个相邻的决策时刻被称为决策周期。

无限阶段的决策时刻集记为

2.2.2 状态集合

在每个决策时刻,对网络的描述就是状态。记状态的所有可能状态为 ,也称为状态空间。网络的潜在状态空间很大,但在我们的图表中相关的只有18个。在图中,每个状态用带有符号状态名的方框图表示。为简便,我们为状态进行了编号(如表12),当提到状态时,用符号状态名或编号。

2.2.3 行为集合

在任一决策时刻下,决策者在观察的状态可采用的所有行为组成行为集合。当一个人什么也不做时,我们表示这种行为为 。攻击者的行为集合 包括在所有状态下,他所采用行为的集合

在每一个状态下的行为集合是  的子集。如在状态 下,攻击者的行为集合为

管理者的行为主要是采取预防和补救措施。管理者所能采用的行为集合为

如在状态 下,管理者的行为集合为

网络处于被入侵的状态时,可能被管理者观察到或者没有。当未被觉察到时,我们假定管理者采取的是空行为。

2.2.4 状态转移、损失或收益、报酬

任意一个决策时刻,在状态 采取行为 之后,有两个结果:

1.决策双方获得收益或损失 ;

2.下一个决策时刻网络所处的状态由概率分布 决定。

报酬  在选取行为后,模型只需知道他的值或期望值。实际上,报酬可以包括:到下一个决策时刻的一次性收入;持续到下一阶段累积收入以及下一状态的随机收入等。一般来讲报酬还依赖下一个决策时刻 的状态,即 。那么,行为 的期望值报酬为

 

上式中的非负函数 是下一个决策时刻系统转移到状态 的概率。函数被称为状态转移改良函数。一般来说,

在现实生活中,案例研究、统计、模拟和工程知识可以提供所需的概率分布。但在本论文中,我们凭借个人估计分配状态转移概率。

 

2.3 攻击路径分析

 

在本部分,我描述3种不同的攻击情况及其防护手段。在附录的图中,一个状态用一个包含符号名称的方框表示的。

2.3.1 攻击路径1

公共Web服务器是现阶段应用最普遍的,因此多被攻击。Web服务器通常运行在 上,攻击者普遍采用缓冲器溢出的方式攻击。一旦攻击者得到了用户权限,就可以丑化网站,然后离开。

2.3.2 攻击路径2

当攻击者攻陷Web服务器后,他能做的其中一件事情是在网络内部发动拒绝服务攻击(在附录的图中显示)。在拒绝服务攻击的最后阶段,网络慢慢停下来,网络管理者无能为力了。

2.3.3 攻击路径3

一旦攻击者攻陷了Web服务器,他可以安装嗅探器和后门程序。当网络用户访问文件服务器或Web服务器时,利用嗅探器和后门程序,攻击者可以回来收集用户的密码清单,获取工作站的根部权限和搜索本地硬盘(详细的图解在附录)。为对网络造成更大的危害,他甚至可以用工作站的根部用户特权关闭网站。

2.3.4 防御方案

管理者主要采取防御措施和做复原工作,如安装嗅探发现器、设置防火墙、删除用户帐号、清除病毒等。在攻击路径1中,攻击者丑化万维网站点,管理者只能采取清除账号的行为以使网络重新回到状态 下。在攻击路径2中,管理者所能做的是采取行为——清除账号,把网络带回状态 。在攻击路径3中,没有任何行为可以使网络回到原先的操作状态,重要的数据已经被盗去,他也无法消除这些。网络只能从状态 转移到状态

 

 

文章录入:from0311    责任编辑:Polylove 
  • 上一篇文章: 团体购买基于电子商业买主的偏爱决策支持系统

  • 下一篇文章: 上接网络安全
  • 发表评论】【告诉好友】【打印此文】【关闭窗口
          最新热点       最新推荐       相关文章
  • 上接网络安全

  • XP操作系统无线网络安全精解

  • 网络安全

  • 软硬件结合防护网络安全 X-K…

  •   网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)