Electric device abnormal detection based on IoT and knowledge graph
- 物联网(Internet of Things)或物联网(IoT)技术近年来发展迅速,预计在未来5G时代,无线网络将普及到每一台设备。
- 借助这些物联网传感器,可以从温度实时获取电气设备的环境数据和运行状态。
- 考虑到电力系统的复杂性,需要用知识图谱来综合与异常检测相关的各种因素。
- 电气设备物联网传感器数据异常检测是一项复杂而具有挑战性的任务,它涉及到系统内外的诸多因素。
- 基于距离矩阵,采用DBscan算法对信号进行聚类。
PPT
基于物联网和知识图的电气设备异常检测
Electric device abnormal detection
物联网或物联网技术的发展近年来迅速:借助这些物联网传感器,可以从温度实时获取电气设备的环境数据和运行状态。
传统上,基于阈值的方法被广泛应用。专家为不同的目标定义了不同的阈值。
这种方法没有考虑不同情况和相关参数,可能会对物联网设备记录值产生巨大的影响。
Methodology
物联网传感器异常检测框架:
三种类型研究信息以生成知识图谱:物联网传感器数据,电力基础设施数据和开放数据。
物联网传感器和电力基础设施的数据集可以是从现有的关系数据库生成。因此,数据质量可以得到保证。
对于开放数据,主要介绍天气(动态)和经济(静态)该地区的信息。
为了描述电气系统中的IoT传感器,创建了具有动态时间顺序数据结构的新颖实体。
首先应用实体检测算法找出数据集中有意义的对象。
然后将对象分为不同的类型,例如人员,公司,变电站等。对于每个识别的对象,根据其类型和动态数据源(如果可用)为属性进行填充关联。
最后,检测到的实体是手动重新检查以提高生成的质量知识图谱。
实体之间的关系可以根据三个数据集的特征进行检测。
对于结构数据,根据数据库中的表列信息直接定义实体之间的关系。例如,如果传感器表具有其生产公司的列,则可以从传感器及其制造商生成制造关系。
对于电网基础设施数据,根据网格系统的拓扑生成关系,例如从发电站到变电站的连接。
对于打开信息,可以自动使用语言处理方法从数据集中识别关系,然后再由专家重新检查以提高准确性。
为了建立能够反映目标传感器特征的子图,首先对知识图和不同类型的传感器进行分析。对于每种类型,定义一个子图来描述传感器。如果新节点或关系包含在知识图中,则可以更新定义。
匹配算法如图所示
需要两个步骤。
静态步骤(S1)。根据节点的静态属性计算相应节点的距离。距离函数是为每种类型的实体预定义的。
例如,两个子站之间的距离可以由其负荷、覆盖面积和设备结构的差异来定义。节点之间的关系距离也在S1中定义。所有距离都规范化为[0,1]。
动态步骤(S2)中,用周期P将具有动态源的实体划分为多个状态,然后对每个分段的周期,将统计距离与目标子图中相应的实体进行比较。
例如,变电站中的温度传感器与变电站的负荷和天气有关。如果想找到一段时间内的参考数据,应该找到与目标传感器在类似情况下运行的类似传感器。换言之,在相似的天气(特别是温度)下具有相似负载的相似类型的传感器。其中一个明显的参考就是历史数据,只要负荷和天气相似,历史数据就可以作为异常检测的参考数据。
基于信号相关的异常检测。从匹配过程中,我们可以为周期P中的目标传感器生成参考数据。
为了检测周期P中的传感器是否正常运行,
1.将公式(1)中所示的两个信号之间的相关性定义为它们的距离。Cov(X,Y)是信号X和Y的协方差,Var(X)是信号X的方差,然后计算出两个信号从参考集到目标的距离。
2.基于距离矩阵,采用DBscan算法对信号进行聚类。如果目标位于大多数类中,则将其视为正常信号。否则,会报告异常传感器的警报。
该方法不仅可以检测出目标传感器的异常,而且可以检测出历史异常状态和其他异常传感器。
3.然而,该方法不能处理异常传感器占多数时的大故障情况,可以通过增加参考传感器来增加正常节点的数目。
Experiments
以两个地点的10个变电站的环境监测系统为例。
环境参数包括温度、湿度和照度。
基础设施数据包括每个变电站的电压和电流。
公开的数据主要是这些变电站的气象信息。
总体数据涵盖2018年6月至7月两个不同地点的30天。
环境数据和基础设施数据以一分钟的频率更新。
天气数据从网站上获取,每小时更新一次。
为了进一步提高多样性,模拟了另外一个有三个变电站的位置。即位于三个不同区域的10个变电站中的传感器总数为30个。
用Neo4j实现了所提出的知识,它可以支持Cypher查询语言或CQL的节点选择和子图匹配
测试知识图直接从系统配置创建
选择了一个小时作为测试周期,其中包括60条测试记录。
定义的温度传感器特征子图包括变电站的面积、电压和电流。
在图匹配的第一步之后,通常选择最相似的3或4个实体作为参考数据源。
然后将切片窗口方法应用于这些参考传感器,找出与相应的动态数据具有静态相似性的周期。
“切片”窗口的步长设置为10分钟以提高搜索速度。
选择了最相似的50个参考数据来应用dbscan聚类算法。
图中显示了使用dbscan方法的集群结果。通过与参考数据集的比较,可以看出异常传感器的识别是非常容易的。
根据测试,所提出的方法可以在所有定义的异常行为中识别出92%以上的异常情况。
尽管现有的实现只是一个带有少量设备的测试演示,但与其他方法(如基于阈值或规则定义的方法)相比,它仍然显示出相当高的准确性。
表中给出了不同方法之间的精度比较。
通过将知识图谱扩展为更多的相关实体和更大的历史记录,可以进一步改进所提出的框架。