万字长文:一起聊聊安全知识图谱技术
时间:2025-11-26 22:42:02 出处:网络安全阅读(143)
知识图谱是长文下一代可信人工智能领域的关键技术组成之一。围绕知识的起聊全知归纳抽取、演绎推理等处理与分析过程,聊安诸多关键问题逐步被攻克 ,识图术大幅推动了机器认知技术的谱技发展 。在网络空间安全领域,长文防御技术的起聊全知智能化升级也亟需成熟、有效的聊安网络空间安全领域知识图谱(以下简称为安全知识图谱)技术体系,为应对强对抗、识图术高动态环境下的谱技攻防博弈提供知识要素与推理智能支撑 。香港云服务器为了归纳总结安全知识图谱的长文关键技术研究进展 ,本文将尝试通过技术概述的起聊全知方式,尝试回答以下几个问题 ,聊安期望为读者形成体系化的识图术安全知识图谱研究现状总结 。
Q1 :什么是谱技安全知识图谱 ,有哪些类别的安全知识图谱?
Q2 :安全知识图谱的技术栈包括什么?
Q3:安全知识图谱有哪些典型技术研究与应用场景?
Q4 :安全知识图谱应用中的技术挑战与研究趋势有哪些?
一、网络安全智能化发展趋势
随着云计算、5G 、物联网、建站模板工业互联网等信息基础设施关联技术的发展 ,网络空间已串联起工业物理系统、人类社会系统以及网络信息系统 ,成为社会数字经济发展的基石 。与此同时,网络空间攻击面随之延伸和拓展,网络空间攻防双方信息的不对称性现象愈发明显。伴随着攻防对抗态势的升级,自动化、智能化技术与攻防技术的融合已成为网络安全技术发展的必然趋势之一。服务器租用

图1 网络安全智能化发展趋势
回顾网络空间安全智能化发展历程,我们可以将智能驱动的安全防御技术发展大致划分为四个阶段,如图1所示,包括专家系统阶段 、感知智能阶段、认知智能阶段以及决策智能阶段 。以下分别进行简要介绍:
专家系统阶段 。在该阶段,防护设备与系统的自动化和智能化,主要基于专家经验与知识驱动的专家系统。面向不同的应用场景,需要专家编写指定的源码下载检测规则系统、响应规则系统等。这些以列表结构 、树结构、图结构简单组织的规则逻辑结构,能够有效自动化响应特定分析场景下的攻击行为。从专家系统的外部来看,该系统确实能够表现出智能分析的效果。然而,随着攻防技术的快速迭代和升级,攻防场景与流程的源码库更细 ,此类专家系统一方面,系统分析逻辑的完备性在大数据场景下迎来关键挑战 ,针对攻击的误报率、漏报率和整体准确性性能衰减很快;另一方面难以有效自适应演化,过度依赖专家资源 ,可维护性低 ,能够支撑的场景愈发受限 。
感知智能阶段。随着机器学习 、深度学习技术的研究开展,网络安全防御中面临的云计算诸多检测和分类问题,也迎来新的解决方案——智能感知 ,即从大规模数据中 ,进行识别 、检测和分类,挖掘出异常的 、恶意的攻击行为。例如 ,识别恶意流量、恶意样本 、恶意邮件、异常业务识别等场景 ,通过数据驱动的算法能够实现高效的实现数据统计规律建模,挖掘恶意行为/样本与正常行为/样本之间的关键区分性特征。虽然在诸多威胁感知场景下,基于统计机器学习的智能分析方法取得了重要的突破 ,但在面对高度动态复杂的网络行为分析时,感知层输入往往缺乏有安全语义的规范化建模,数据层次异常而非真实恶意攻击的误报情况难以避免。此外,多维度单点的感知分析结果 ,仍需要深度的专家参与的研判与关联分析,才能完整还原攻击行为全貌,限制了APT等高级复杂攻击技战术的分析的自动化水平的提升 。
认知智能阶段 。面向复杂网络环境 、复杂攻击技战术组合以及多层次多源异构的数据融合,网络空间安全防御亟需具有能够实现深度理解分析能力的认知智能技术方案 。不限于感知层的孤立的识别范围和分析深度 ,认知层主要负责实现数据、情报、知识、环境等多维度数据的自动关联、语义消歧 ,构建更完整、更丰富的数据湖基础设施 ,进而基于数据湖 ,实现威胁溯源归因、攻击意图识别与行动预测等与安全专家相媲美的自动化分析能力。在认知智能阶段 ,自然语言处理技术、知识图谱、因果推理、意图理解等认知层次的智能技术与安全场景、安全数据的融合水平,成为认知智能技术发展的关键因素 。
决策智能阶段 。网络安全防御系统的决策效果,将影响到信息业务系统、物理设备甚至社会组织的稳定运行状态 ,是经济、安全、政治攸关的。因此 ,在感知和认知的基础上 ,只有具备决策智能的网络安全防御系统,才能够进一步在安全防御策略自主构建 、自适应脆弱性修复 、攻击事件响应与缓解等传统完全依赖系统负责人与安全专家部署的策略制定过程中实现自动化 。决策的过程受到诸多方面的影响 ,包括信息收集的精确性评估 、策略知识的完备性识别、系统风险的整体量化以及决策系统的效果预测等等 。这些关键能力的构建,都依赖于负责、鲁棒、透明的可信任安全智能技术基础设施。
网络安全智能化的发展,正随着多维度感知智能技术的演进,向认知智能和决策智能化方向演进。在这个过程中,安全知识图谱技术 ,已成为整个技术体系的基础性核心工作 。安全知识图谱技术,一方面,通过本体建模 、实体对齐 、链接构建等方式 ,为认知、决策过程提供超融合的数据基础设施,是大规模异构数据源统一分析的基础;另一方面 ,基于知识图谱的推理 ,包括表示学习、关联分析 、事件溯源、行为预测等能力,是认知智能的主要组成部分;最后 ,围绕知识图谱构建的逐层推理与分析 ,为指定场景下决策智能的达成提供了关键输入要素和策略构建框架 。
推进网络空间安全知识图谱的构建与基于知识图谱的推理技术成熟 ,已成为网络安全智能从专家系统、感知智能 ,迈向认知智能、决策智能的必由之路,亦是应对网络空间高级、持续 、复杂威胁与风险不可或缺的技术基础。
二、安全知识图谱技术内涵
围绕知识的识别、抽取,图谱的构建、推理及应用,知识图谱技术体系能够在、知识归纳推理知识固化 、人机协同等多个方面促进网络空间安全检测 、溯源、预测 、响应等关键能力的智能化与自动化水平。本部分将首先介绍网络空间安全知识图谱的技术的核心内涵、技术优势与技术框架。
2.1 概念内涵知识图谱是是通用人工智能与专用人工智能领域的关键技术组成之一 。通过语义化的知识组织结构,知识图谱将机器算法与领域知识充分融合 ,极大的促进了知识工程方向智能化的发展速度。在智能推荐、智能搜索、通用认知推理、人机交互问答、智能决策支持等应用场景中,知识图谱得到的广泛的应用与实践 。知识图谱本质是由实体(概念)及实体(概念)间关系,以及关联属性组成的一种语义网络,通过结构化的数据组织结构,以有效地表示实体(概念)之间的语义关联关系 ,可形式化表示为 :

其中每个三元组代表一个知识单元 ,表示了源实体Subject与目的实体Object之间 ,具有关系Relation。一个典型的知识图谱中,主要可划分为模式层与数据层。模式层是整个知识图谱构建的基础,是数据组织的范式 ,一般通过本体库的设计实现 。本体 ,是结构化知识库的概念模板 ,描述了数据的元信息与元结构 。数据层,是根据模式层本体模板范式生成的实体、关系及属性的实例集合 ,这些实例描述某一类或某一个概念的知识事实 。
从知识范畴 、应用场景来看,知识图谱可划分为通用知识图谱和领域专用知识图谱 。通用知识图谱,例如Freebase、Wikidata 、DBpedia等大规模知识库 ,主要应用于普适性的智能搜索、推荐场景中 ,提供具有广度的 、基本的知识关联基础设施 。领域专用知识图谱 ,则基于某知识子领域,构建具有深度的知识空间,服务于该知识领域内特定的查询、推理分析需求 。
安全知识图谱是面向网络安全空间的威胁建模、风险分析 、攻击推理等攻防需求,基于网络和安全知识库、情报库 、资产库、行为日志中关键实体(概念)及关系构建的大规模语义网络,是网络安全领域专用知识图谱 。

图2 基于恶意软件知识图谱的分类可解释性示例
安全知识图谱作为网络安全的领域知识图谱,能够充分发挥安全知识与经验与数据的融合下,人工智能技术的巨大潜在价值 ,加速网络安全技术领域的智能化与自动化 。这是因为,网络环境本身具有典型的图结构,网络安全知识、信息 、数据依照知识图谱的形式组织起来 ,首先,能够充分发挥图数据的结构优势 ,将基于图的统计 、分析、推理方法融入到知识挖掘的过程当中来。其次,知识图谱中的各类实体(概念)之间的关系 ,保留了明确的语义信息,即各类型的上下游信息依赖关系 。基于语义信息的关联与推理技术 ,是认知智能与决策智能技术的关键步骤。此外,网络安全场景下的推理分析结果将最终指导安全团队的应急与响应工作 ,需要推理的过程的透明与可解释性 ,来提升人类对机器推理的可信任程度。知识图谱正是可解释人工智能技术的重要组成。通过前述结构与语义的关联网络,知识图谱能够辅助给与运营团队符合安全领域知识框架的分析结果,支撑威胁的研判、取证与响应任务的开展。例如,通过恶意软件知识图谱 ,来解释针对恶意文档的机器学习分类器分类的关键特征结果,能够通过关联的知识,而非孤立的特征数值,来反映恶意文档的与正常文档之间的关键特征差别 。
2.2 图谱分类从学术研究和工业应用语境来看,狭义的安全知识图谱一般特指基于安全知识库 ,如ATT&CK、DE3FEND、CAPEC等构建的图谱化知识库及相关分析技术 ,而广义的安全知识图谱泛指通过属性图 、RDF等类型图形式组织起来的图谱化网络安全数据基础设施及相关分析技术 。本文将以广义的安全知识图谱技术作为安全知识图谱的定义。
在不同的应用场景下、在不同的数据源构成下 ,安全知识图谱可以有多种不同的类型 。以下介绍几类较为常见的安全知识图谱类型及其分类原则。值得注意的是,以下划分方法从知识的采集源、知识的应用目标出发 ,不同类型知识图谱之间可能存在数据层次的交叉。
2.2.1 环境知识图谱
“环境”可以定义为防护网络空间内的各类实体和实体的属性(基本信息、脆弱性、合规信息等) ,以及实体之间的关联关系 。环境数据图的构建,需要资产管理 、脆弱性管理、风险评估等工具和服务的支撑 ,也需要类似企业组织信息、IT系统架构信息、人力资源信息等业务数据来支持环境实体的丰富和关系建立。环境知识图谱是高度动态的知识图谱。

图3 Cauldron基于图的漏洞分析[1]
安全防护不仅仅是构建更厚的防火墙 ,制定更多预算抵御可能随时发生的DDoS攻击 ,对资产、资产脆弱性 、用户信息 、IT架构信息等自身攻击面信息的掌控程度 ,往往决定了网络空间防御能力的上限 。特别是在云、物联网、移动互联网迅速发展的时代背景下 ,资产数量剧增,类型更加丰富,脆弱性暴露的形势也更加严峻 。“知己”比“知彼”显得更加关键,无论是暴露在公网的资产还是边界内未纳入管理的“黑资产”,都将大幅增加安全防护风险。为应对无孔不入的威胁,需要发现安全防护的关键实体 、关键关系,在威胁事件发生的前后 ,对威胁的潜在影响范围 、影响深度进行全面的评估,以保证攻击面的准确识别。
2.2.2 行为知识图谱
“行为”可以定义为可收集的 、可检测的所防护网络空间内实体的动作,可以是DIKW数据层的各类原始日志 ,也可以是信息层的各类检测告警日志 、聚合的推断告警日志 。UEBA和SIEM的综合方案能够满足行为数据收集的需求 。

图4 终端溯源图谱[2]
行为数据图的重要性不言而喻 ,从端点到网络,从主动到被动 ,从边界到内部 ,从规则到统计机器学习 ,等等多维度的行为收集,能够全面刻画网络空间实体的行动踪迹,是识别、归类、响应 、溯源任务的基本前提 。通过多行为序列的聚合规则 ,生成新的告警事件的推理方法已在多种场景中应用起来 。不过,行为的关联不应止于针对单个实体的行为聚合 ,多实体长时间区间的行为关联,才是行为数据分析的目标 。从处理和存储效率上来看,将多实体的行为向量组织成图模型结构是行为关联的必由之路 。行为采集的粒度很大程度上由已有的采集和检测能力决定,在这一点上,在保证归一化和体系化的基础上,“来者不拒”应该是行为收集的一个特点 。行为知识图谱与环境知识图谱和知识情报知识图谱的主要特性差异,是行为知识图谱的时效性更短 ,更新和新增频率更高 。合理的构造行为数据的本体模型 、实体关系,设计行为与环境 、情报、知识的互动能力 ,并管理行为知识图谱数据的生命周期,是行为知识图谱发挥最大价值的关键所在 。
2.2.3 情报知识图谱
不同类型的“威胁情报”,可能会造成对情报概念的不同解读。在此 ,对情报的定义可参考2014年Gartner的《安全威胁情报服务市场指南》 :“威胁情报是一种基于证据的知识,包括情境、机制、指标、影响和操作建议。威胁情报描述了现存的或者是即将出现的针对资产的威胁或危险,并可以用于通知主体针对相关威胁或危险采取某种响应 。”以此定义为基础,可以说威胁情报与各类知识库各有侧重又相互交叉。一个典型的安全知识图谱模式层本体结构如图5所示。STIX(Exchange Cyber Threat Intelligence)是网络空间威胁情报的一种描述语言与信息组织结构。STIX 2.0版本的本体(在STIX中称为STIX Domain Objects, SDO)主要包括如图所示的多种实体(概念)及其之间的语义交互关系。该本体结构,即给定了描述威胁情报信息与知识的一种语义结构范本 。

图5 STIX2.0的模式层
威胁情报 ,能够扩展安全团队的威胁视野 ,通过更多威胁上下文提升安全事件研判能力 。现阶段,威胁情报已经成为重要的战略和商业资源 ,广泛地应用于安全运营、态势感知、威胁分析、风险评估 、攻击溯源等多个领域。值得注意的是,不同的威胁情报提供商本身对威胁情报理解的维度和深度不同,构建可用的情报数据图,威胁情报胜在丰富、准确和时效性,选择符合特定业务场景的威胁情报源构建专用的情报知识图谱,是提升效率和可用性的关键。
2.2.4 知识库知识图谱
知识与情报在不同的情景内常常出现概念的交叉 。在这里,我们将归纳的、可用于推理的、与时间弱相关的安全数据称为知识数据,包括各类知识库,如ATT&CK[3] 、CAPEC[4],以及各类枚举库,如CWE[5]、CNNVD等等。知识库的构建往往依赖于专家经验、威胁情报的收集 、验证和凝练,所抽象的概念和关系是通用的建模基础。当前 ,知识库的构建和共享已成为安全行业的共识 ,知识数据图能够提供特定环境和场景下威胁行为的关联知识 ,评估威胁行为的影响范围和深度,对潜在威胁做出预警 ,并给出合理的应对方案。

图6 ATT&CK与CAPEC的知识关联
知识库知识图谱赋能下的威胁事件分析,能够拓展行为 、环境 、情报知识图谱关联实体的概念和数据上下文,以支持推理的语义富化关联。相对于更商业化的威胁情报,知识库可以基于公开或开源的项目数据 ,国内外许多机构也正致力于建设更广泛 、更专业的威胁关联知识库 ,如CAPEC、CWE 、CNNVD、ATT&CK等等,也可以通过知识图谱 、自然语言处理技术 ,从多源数据中自动化抽取和构建知识图 ,并通过关系推理等方式对知识图进行拓展。
三 、 安全知识图谱技术框架
基于安全知识图谱 ,构建具有感知、认知、决策智能的安全应用 ,需要解决数据的统一建模、实体抽取与关系构建、复杂语义的推理分析和场景化的应用适配等不同层次关键问题 。对应这些主要问题,本文将网络安全知识图谱自底向上的划分为三个核心层次,分别为:图谱构建层、推理分析层、应用能力层 ,一个安全可信层,整体框架如图7所示 ,概括了每个技术层次的主要技术能力。以下分别对各个层次做简要介绍。

图7 安全知识图谱技术框架
3.1 图谱构建层图谱构建层,主要实现安全知识图谱的数据基础设施的构建。主要需实现包括本体设计 、实体识别、关系识别 、知识消歧 、图谱构建、图谱存储 、图谱计算等基础能力 。
知识图谱的核心在于对数据的语义化组织模式的设计 。通常来讲,知识图谱将各类格式的原始数据 ,如结构化数据、半结构化数据、非结构化数据,抽取为形如(Subject, Relation, Object)的三元组形式 。在该形式下 ,实体Subject与实体Object之间,自然形成具有关系Relation的语义子结构。通过大规模语义子结构的串联组织 ,即构成完整的知识图谱结构 。其中 ,Subject与Object实体的类型、两者之间Relation的类型,以及两者的属性类型的规范等 ,构成的完整模式,即构成了知识图谱的模式层本体范式 。

图8 安全知识图谱本体模式设计样例
安全知识图谱的数据模式层,即针对网络空间安全领域的知识库、情报库 、数据日志的领域知识进行本体建模 ,以给出归一化、抽象、可推理的安全本体范式 。本体建模的过程,是整个安全知识图谱的构建与应用的基石——本体范式决定了知识图谱覆盖的知识/情报/数据范畴、数据抽象的粒度以及语义关联模板,进而决定了围绕知识图谱开展的相关推理应用的可用性、覆盖度以及使用价值 。因此,构建知识完备 、粒度适中、语义丰富的数据模式层本体库 ,是安全知识图谱技术中最关键的设计工作之一 。
知识图谱的构建工作 ,即基于知识/情报/数据资料库 ,在数据模式层本体模式的规范下 ,抽取实例实体 、关系及属性信息形成知识图谱数据层语义网络的过程 。通常来讲,知识图谱的构建过程主要包括知识抽取 、知识融合 、知识存储 、知识更新等主要步骤。在知识抽取环节 ,实体 、关系、属性等要素按需从各类结构化、本结构化、非结构化数据中提取出来 。在知识融合阶段,需完成各类实体的对齐 ,关系语义的消歧,知识的映射等工作,以将提供满足知识图谱质量要求、设计规范的数据资料。知识存储阶段 ,主要是将结构化语义网络数据存储到数据库中,一般的存储介质是各种类型的图数据库。在知识更新阶段 ,将根据数据层信息的实时性、置信度、语义明确性等维度和更新策略,剔除失效数据,更新最新状态,保证知识图谱信息的高价值属性。
安全知识图谱的图谱构建 ,需要特别注意的是,一方面 ,需构建更细粒度的数据质量评估方法,以保证安全图数据的高置信度与高安全性,否则将可能影响基于知识图谱的安全应用的鲁棒性 。另一方面,在知识/情报/数据的时效性管理方面 ,需要更灵活的更新机制 ,以保证图谱数据的时效性 。
3.2 推理分析层知识图谱的推理分析 ,主要面向高层次应用提供关联查询、知识压缩表示、知识归因预测等自动化、智能化推理能力支撑 。主要的推理分析方法 ,包括图关联检索、基本的图数据挖掘算法、图的表示学习、图的推理学习等 。图关联检索,即通过最短路径 、相似性分析等方法 ,提供指定实体 、关系、属性特征查询的响应 。基本的图数据挖掘算法 ,包括图上的节点聚类、社团行为发现 、重要节点发现、路径挖掘等等 ,为知识图谱提供深入的数据洞见。图的表示学习 ,通过结构 、属性等维度的学习方法,如Trans模型(TransE、TransH等) ,习得知识图谱关键要素的向量化压缩表示,可用于支持知识检索 、知识推理等类型的技术实现。图的推理学习,则基于表示学习结果或通过端到端的图神经网络模型设计,如图神经网络 ,提供知识语义推导、关系链路预测等核心推理结果。

图9 典型的行为知识图谱推理分析
安全知识图谱的推理环节,需要重点解决多层次数据、情报、知识之间的语义鸿沟问题 、大规模网络实体信息关联的依赖爆炸问题等多种基础性难题 。语义鸿沟问题 ,主要是由不同来源、不同采集尺度的数据融合导致的高层语义难以对齐的问题。知识图谱构建的语义消歧技术,只能在特定的标尺下完成粗略的数据融合 ,但要实现跨源、跨维度的知识推理,仍需要有效的语义学习机制。依赖爆炸问题则是由于现有的数据采集技术 、跟踪技术、知识建模技术的限制 ,安全知识图谱实体之间的信息流无法精确的刻画,上下游实体之间的信息依赖随着图上跳数的增加呈现指数级爆炸的现象,将导致知识图谱信息传播的消散 。
3.3 应用能力层本层次主要基于图谱的数据和分析基础设施,提供面向特定场景需求的安全知识图谱服务能力,抽象的可概括为建模、识别 、富化、画像 、测绘、溯源、归因、决策及预警等能力单元。场景需求+数据基础+分析能力的组合,可以形成基于安全知识图谱的技术栈。包括在安全运营中的XDR技术 、威胁情报中的组织团伙分析技术、网络空间测绘中的攻击面观测技术 、攻击模拟中的智能决策技术等等 ,都可以通过一种或多种图谱推理分析能力的组合,实现面向场景化需求的知识抽取与知识演绎推理以达成目标 。具体技术应用场景 ,将在第四节介绍。

图10 安全知识图谱服务能力
3.4 安全可信层除了安全知识图谱的核心技术能力基础外,还需再多个方面提供安全知识图谱得自身安全可信机制,主要包括数据质量评估、敏感数据防护 、分析效果监测等 。在数据质量评估方面,需通过量化的图谱质量评估指标 ,实现自动化的数据异常、缺失、错误等问题的识别,以保证安全知识图谱数据流程转过程中的多阶段数据输入可信。在敏感数据防护方面,通过对企业 、个人、组织等多级别敏感数据的自动识别与脱敏,支持知识图谱在不暴露敏感信息的情况下,完成从图谱构建到推理分析再到应用服务的整个知识建模过程 。在分析效果监测方面,需提供可供反馈的人机接口,收集用户在不同场景知识服务中的细粒度反馈 ,并通过自动化的闭环机制,跟踪和持续优化相关参数 、流程,向图谱管理组件提供关键指标的监测接口。
四、 安全知识图谱技术应用
安全知识图谱可以作为网络安全大数据分析的关键基础设施 ,以独立部署的模式或者融合服务的方式 ,提供数据 、分析等多个层面的支撑。本节 ,将介绍四个典型安全知识图谱的应用场景,分别是利用知识图谱支持攻击研判信息富化 、运营事件知识抽取、终端攻击检测调查以及威胁情报模式识别。
4.1 攻击研判信息富化攻击事件研判依赖准确 、丰富的事件上下文信息 。上下文可涉及前述环境知识、行为知识 、情报知识和知识库等多维度信息源 。通过自动化的采集与构建方法 ,可构建类似图11所示可支撑研判的知识图谱数据库。该图谱数据库,基于威胁情报STIX2.0架构,融合了经典事件研判过程中,所依赖的脆弱性、缓解措施、应用案例等基础信息 。通过基于指定类型线索的检索 ,能够高效的召回关联知识库信息 ,形成对待研判事件的增强 ,可提升事件的整体信息量 ,并提升大规模事件的归类、归并分析的效率。

图11 支持事件富化的安全知识图谱[6]
4.2 运营事件知识抽取安全运营中心的集中式分析平台 ,汇聚了大规模的动态事件数据 。这些事件数据 ,可通过IP、域名 、邮箱等实体实现直接关联 ,也可通过事件的属性特征相似性实现潜在关联 。通过这些关系的识别和提取 ,能够将时序事件数据 ,转化为动态事件关联的知识图谱结构,并可通过该结构观测和自动化抽取其中的子图模式与规律。例如,可以抽取指定类型实体的行为规律信息,形成包括行为基线、交互基线等;可以抽取事件之间的转移规律信息 ,形成包括事件交互基线等 。相对于自顶向下的 、基于静态知识库的知识富化 ,自底向上的、高度动态的事件知识抽取 ,能够实现事件知识的生产与事件行为的自验证,为攻击的研判、事件的分析提供具有环境自适应的动态知识结构。

图12 动态事件关联知识图谱
4.3 终端攻击检测调查终端侧的数据采集与分析 ,能够提供细粒度的行为上下文,一直以来都是网络安全数据的重要组成部分 。其中,溯源数据(Provenance)是终端侧数据的关键组成 ,当前操作系统(如Linux 、Windows等)已具备高线溯源数采集的能力。有效的溯源数据挖掘方法,能够支撑威胁狩猎的多种任务场景 。Provenance能够忠实记录终端上实体的行为逻辑依赖关系 ,自然形成溯源数据图(Provenance Graph,简称溯源图) 。所记录的实体,包括文件(菱形) 、网络(椭圆)、进程(矩形)等维度;根据实体对的类型,实体间关系又包括文件读写、进程创建 、网络连接等等。在溯源数据完整有效采集的情况下,通过溯源图的后向追溯(backward-trace)和前向追溯(forward-trace) ,能够有效弥补网络侧的数据盲点,实现攻击事件的溯源与取证 。在已知威胁分析方面 ,主要涵盖威胁模式匹配和事件重构溯源两方面主要工作 。威胁模式匹配一般建模为图上的子图模式匹配问题,需要解决图数据建模、查询子图的生成及查询优化等多个子问题 。在未知威胁分析方面,目前主要有策略启发 、频率建模 、机器学习等几类方法。

图13 基于溯源数据的行为知识图谱[7-9]
4.4 威胁情报模式识别通过知识图谱技术 ,能够从多个方面全面实现分析能力增强 :针对突发性事件与常态化事件 ,情报关联图谱能够洞察攻击发展态势 ,通过跨域攻击行为识别,实现攻击团伙的快速定位 ,能够提供明确的攻击行为数据支持,可用于增强情报证据链 ,以及生产高质量、高可信的团伙威胁情报。能够通过全局视角,观测攻击者 、攻击团伙的跨域攻击行为,观测整体的行为模式演化 。图12给出了云端情报采样数据中 ,部署在不同位置的监测设备(紫色节点)监控下的攻击者(源IP)的关联图谱。可以看出 ,攻击事件出现了较为明显的团簇现象 。一方面,少量受害者站点受到大规模攻击源的集中攻击;另一方面 ,攻击团伙利用大规模攻击基础设施,对指定的受害者群体发起了大规模的扫描与攻击行为 。

图14 Log4j2攻击事件图谱跨域行为观测
五 、安全知识图谱技术趋势
可以预见 ,安全知识图谱技术的发展 ,将全面提升网络安全关键应用场景下的知识推理技术水平 ,推动安全智能从感知智能,向认知智能和决策智能驱动安全自动化的演进。当然,当前安全知识图谱仍处于蓬勃发展阶段,技术演进仍需要诸多问题需要解决。在此 ,我们从关键问题着手,展望安全知识图谱技术发展的关键趋势。

图15 安全知识图谱技术发展趋势
知识获取层面 :大规模多源信息自动化抽取与信息融合 。网络安全知识图谱涵盖了网络与安全领域的核心概念原型与关联结构 ,涉及跨数据、情报、知识多层次的信息资料。一方面 ,需要基于自然语言处理技术、知识工程技术 ,实现更自动化的实体 、关系、属性抽取方法,满足信息抽取的高实时性 、高覆盖率、高容错性 。另一方面,需要在质量评估、语义对齐 、信息压缩等方面,提升数据信息的融合质量,提出信息冗余、信息失效、信息歧义等问题给后续建模推理带来的错误引导。
知识表示层面:异构完备的知识统一表示。安全“大数据”不仅仅指数据规模庞大 ,还体现在数据结构的复杂性 。包括文本类数据、时序数据、序列数据、图数据、时序图数据等等异构信息,需要在安全知识图谱中以统一、规范的表示形式进行组织,并提供一致的表示形式。探索基于神经网络的图表示学习方法,将时序维度与图关联维度进行完整的建模,是实现异构知识统一表示的关键方法之一。
知识推理层面:鲁棒、准实时的因果推理 。无论是攻击与威胁的关联,还是资产数据风险的识别 ,网络安全领域对行为 、事件 、意图的归因与溯源技术效果有较高的质量追求。因此 ,亟需探索具有精确信息流依赖能力的因果推理方法,以保证基于安全知识图谱的推理结果过程的鲁棒性 ,提升推理结果的准确性与置信度水平。此外 ,在大规模知识图谱上进行知识推理,仍需通过图分割技术、分布式学习技术等方式提升推理流程的并行度 ,以满足安全领域诸多应用场景的准实时需求 。
知识迁移层面:跨场景知识迁移与人机智能融合。基于安全知识图谱的应用,具有多个细分领域 ,如威胁情报计算 、安全运营辅助 、威胁动态建模等等 。在多个细分领域应用中 ,将涉及不同范畴的知识本体与实例。可通过探索跨场景的知识迁移方法 ,将不同场景下的推理模式进行推广,实现推理分析能力的延展。此外,通过人机工程 、推荐搜索等不同机制的人机协同方法,提供持续的人类知识经验与机器知识数据的信息融合接口 ,能够进一步加速安全知识图谱的的知识固化与知识拓展,提升相关应用的动态环境适应性。
参考文献Jajodia S, Noel S, Kalapa P, et al. Cauldron mission-centric cyber situational awareness with defense in depth[C]. MILCOM 2011 Military Communications Conference, 2011.
Xu Z, Fang P, Liu C, et al. DEPCOMM: Graph Summarization on System Audit Logs for Attack Investigation[C]. IEEE Symposium on Security and Privacy (SP), San Francisco, CA, 2021: 22-26.
The MITRE Corporation. MITRE ATT&CK Matrix for Enterprise[EB/OL]. https://attack.mitre.org/, 2020-10-27/2022-07-07.
The MITRE Corporation. Common Attack Pattern Enumeration and Classification (CAPEC)[EB/OL]. https://capec.mitre.org/, 2021-02-25/2022-07-07.
The MITRE Corporation.Common Weakness Enumeration (CWE)[EB/OL]. https://cwe.mitre.org/,
肖岩军 ,王津,赖智全. 基于知识图谱的APT组织追踪治理. 绿盟科技研究通讯
Milajerdi S, Gjomemo R, Eshete B, et al. HOLMES: Real-Time APT Detection through Correlation of Suspicious Information Flows[M]. 2019: 1137-1152.
Hossain M N, Sheikhi S, Sekar R. Combating Dependence Explosion in Forensic Analysis Using Alternative Tag Propagation Semantics[C]. 2020 IEEE Symposium on Security and Privacy (SP), 2020: 1139-1155.[17] Pei K, Gu Z, Saltaformaggio B, et al.
HERCULE: attack story reconstruction via community discovery on correlated log graph[C]. Proceedings of the 32nd Annual Conference on Computer Security Applications, 2016: 583–595.