A Bayesian network approach for cybersecurity risk assessment implementing and extending the FAIR model
使用贝叶斯网络来扩展公平模型(fair model),定量风险评估
已有工作
FAIR用于评估智能电网网络威胁的损失事件频率,2019
Park等人使用FAIR来评估Andriod恶意软件的威胁,2018
典型的CRA(风险评估)方法
- 威胁树,2002
- 攻击树,1999
- 攻击图,2002
- 防御树,2006
- 贝叶斯攻击图,2012
博弈论模型存在的问题
信息的缺乏和不对称:
- 不知道攻击者的策略和payoff
- 很难指导风险管理者进行决策和评估
考虑将博弈模型和统一收益模型相结合:将博弈论模型和FAIR-BN相结合,可以支持防御者-攻击博弈中防御者部署的决策,并预测网络攻击造成的损失。
博弈模型
借用Banks,2015的序列防御-攻击博弈模型来构建EFBN
决策分析的目标是使得决策者的效用节点最大化,可以使用AgenaRisk
生成决策树(Fenton,Neil,2018)
A Hybrid Game Theory and Reinforcement Learning Approach forCyber-Physical Systems Security
基于博弈论和多智能体强化学习在战略和战场两个维度去考量。
- 使用预定义漏洞和已发现漏洞
- 使用MARL和Q-learning推导最有攻击序列和防御策略
背景
MARL(多代理agent强化学习) [6]被认为是博弈论的改编,具有机器学习的附加功能,可以使用深度强化学习在内的多种算法来学习最优策略,也就是收敛到nashEQ
强化学习案例:
- R. Elderman, L. J. Pater, A. S. Thie, M. M. Drugan, and M. Wiering,“Adversarial reinforcement learning in a cyber security simulation.,” inICAART (2), pp. 559–566, 2017
- . Huang, C. Zhou, Y. Qin, and W. Tu, “A game-theoretic approachto cross-layer security decision-making in industrial cyber-physicalsystems,”IEEE Transactions on Industrial Electronics, 2019.
模型
战略层面
我们使用不完善的信息广泛形式博弈对战略水平进行建模。 此游戏的状态为总体安全状态:低,中,高和严重危险。 显然,防御者不确定确切的状态是什么(例如,攻击者发现了零日漏洞)。 攻击者不知道状态是什么,因为他没有有关目标网络的全部信息或所有防御者的对策。 因此,我们认为信息模型不完善。 该游戏具有扩展形式,因为防御者将尝试从腐败状态恢复到原始(低)状态。攻击者将尝试达到关键状态。 因此,游戏具有多个阶段。 防御者根据对策选择策略,以阻止攻击者的前进。 该策略被转化为一系列在战场上可以选择的行动。 攻击者根据攻击方法选择策略。 攻击者策略被翻译为战场级别的一组动作,漏洞和渗透工具。
战场层面
采用MARL。包含一个主机和四个子网构成的CPS
- 三个子网在云端,拥有IDS。安全影响较低
- 其它子网托管在本地,IDS具有不确定性易受到攻击。中等的影响
- SCADA网络,具有高安全性影响。
漏洞评分系统(CVSS):“Common vulnerability scoring system.” https://www.first.org/cvss/. Ac-cessed: 2019-08-02
一个典型的CPS子网有关的漏洞。
病毒传播模型
攻击者在攻击过程收集信息。
描述
首先使用基于Q-learning的RL寻找最优攻击路径;进一步,将MARL处理Q-learning应用于两个agent以到达NE,并找到最佳防御策略
博弈法制
使用以下6元组定义:14x6game model matrix (14 nodes, five vulnerabilities, level ofprotection)
- 参数 $W$ :如果IDS检查到病毒,返回1,否则返回0
- 参数 $T$:是否终止
- 参数 $Y$:攻击者的步长
- 参数 $V$:攻击成功率
- 参数 $N$:最后一个节点的index
攻击者的目标状态:
攻击成功率 $V$ 应超过漏洞可利用性得分 $P$,形式化描述为:
防御者目标状态:
对于防御者的目标状态,在两种情况下游戏被认为是吉祥的:首先,只要攻击者的行动成功不超过最后节点上的转移概率,并且IDS检测到攻击,然后将其阻止; 第二,超过最大攻击步数时,形式化描述:
架构图
学习算法基于table表示法而不是神经网络,因为神经网络存在对抗性学习问题,即对不断变化的环节适应很慢。
学习参数
- 学习率:描述新值和旧值的比较程度
- 折现因子:影响未来奖励的权值。
- 衰减率:确定勘探与开发之间的权衡。
Q-tables会在每个game策略中更新。
战略与策略
图4给出了使用博弈论和 MARL的想法;它将博弈论中的策略概念与RL 中的政策概念联系起来。首先基于博弈论原理对 CPS网络中所面临的问题进行建模和形式化。每个玩家都定义了相应的策略和行动空间。同时,通过使用MARL,将博弈模型的形式化应用到环境中,使用Q-learning算法来应用学习过程。此外,对所选择的策略推导出最优策略。