电力设备缺陷文本智能检索

时间:2023-07-03 22:45:02  来源:网友投稿

李曈昊,干 宁,李建锋,肖 波

(1.国能长源汉川发电有限公司,湖北 孝感;
2.国能长源武汉青山热电有限公司,湖北 武汉)

随着能源和智能电网体系的不断发展和完善,电力设备状态是保障电力系统安全稳定运行的重要支柱[1]。电力设备故障类型、现象和属性大幅增加[2],当设备存在缺陷时,此时现有的电力设备管理系统可能出现缺陷判断结果的解释性不充足[3]。

通过自然语言处理技术和深度学习的结合[4],可以处理电力通信设备故障的结构化和非结构化数据[5]。构造知识图谱,建立电力设备缺陷模型[6]。利用该模型,电网检修的工作人员可以快速定位电力设备的缺陷,并在辅助决策中发挥有效作用[7]。

知识图谱的构建由两部分内容构成,一方面是对知识图谱的构架进行建立;
另一方面是对知识获取的方法进行研究。

2.1 电力设备缺陷知识图谱构建流程

电力设备缺陷知识图谱构架区别于传统信息化系统。在电力设备缺陷判断方向,积累了海量的设备缺陷数据的案例,需要从案例中将缺陷诊断的知识挖掘出来。日常维护过程记录电力设备的缺陷。与缺陷记录的其他内容不同,缺陷描述以短文本的形式记录,没有固定的格式和结构。

由于电力系统的专业化,电力设备缺陷的描述涉及电气设备的专业领域,对电力行业的专业知识有一定要求,目前和知识图谱结合的相关研究还较少。本课题依据电力设备缺陷的数据特点,构建了知识图谱。

2.2 知识抽取

电力设备缺陷文本由大量的实体和关系组成。知识抽取模型的基础是电力设备缺陷的实体识别,文本内容通过本体类型的标准进行识别和标注,实体识别的的效果好坏决定了知识图谱构建质量的高低。由于目前没有公开的训练完毕的语料库,需要人为标注和构建数据集。对于结构化的电力设备缺陷实体,可以直接转化为三元组的形式。而对于非结构化的数据,为了解决部分电力系统行业词汇一词多义的问题,本文基于一种双向循环神经网络(BiLSTM)与条件随机场(CRF)的神经网络模型的方法,与此同时,将BERT预训练模型作为词向输入加进来,一起实现了实体识别的任务,电力设备缺陷实体识别模型见图1。

图1 电力设备缺陷实体识别模型

BiLSTM模型在实体识别任务中,实体元素的上下文信息对于当前实体的识别和分类非常有效。因此,为了获得每个实体的上下文特征信息,使用BiLSTM层来提取语义特征。

由于基于流水线的知识抽取模型存在级联错误,并且无法充分利用触发词和实体元素之间的关系来实现准确的实体识别。BERT 通过使用深度双向Transformer 和大量文本语料库来训练通用语言模型。与现有的语言表示模型相比,BERT 训练的语义向量特征包含上下文信息,可以用于对多义词的建模,但它不考虑局部特征。对于实体识别,局部特征非常重要。因此,我们联合提取实体触发器和实体。

在训练模型前需要选取一定量的数据进行标注,再对模型进行相应的训练。本课题选取了3 256 条电力设备缺陷数据进行人工标注,构建了电力设备缺陷数据集,见表1。采用的是BIOES 序列标注法,其中BIOES 中的B、I、E 分别表示为实体的开始部分、中间部分和结束部分,而S 代表着实体的单个字词,O 代表着此部分不是实体。电力设备缺陷语料库中的一条实体标注结果见图2。

表1 实验数据集大小及划分

图2 实体标注示例

标注的实体数据集中,实体类型分为5 种,分别是缺陷名称、缺陷描述、发生部位,所属机组、消缺部门。例如缺陷名称是指具体产生缺陷的电力设备的名字,如“#3 炉#3 渣浆泵出口管道破”。以上5 类实体标注的情况见表2。

表2 实体标注情况

2.3 知识融合

根据上述步骤,从非结构化的电力设备缺陷中抽取到的实体可能存在大量的重复不清晰的数据。通过知识融合将实体名称不同但含义相同的进行高效有机统一融合,并对各类型实体进行相应的分析。“发生部位”类实体需要补全相应属性,例如通过知识融合补全属性统一为“凝结水输水泵”。本课题采用编辑距离和Jaro-Winkler 相关系数算法相结合的方式,对各个实体进行相似度的计算,并设定相应的阈值来判断待对齐的实体是否匹配能否进行知识融合。

(1)编辑距离:在两个词语之间可以进行替换一个字符、删除一个字符或者添加一个字符这三种操作,由一个词语转化成另外一个词语所用到的最少的操作次数,就是编辑距离。

(2)Jaro-Winkler 相 关 系 数 算 法(JWS):Jaro-Winkler 相关系数算法是在Jaro 相关系数算法的基础上做的进一步修改,Jaro-Winkler 更重视实体前缀的重要性,例如在两个实体中前几个字都相同的情况下,经过Jaro-Winkler 相关系数算法得到的相似性更高。此算法的公式如公式(1)、(2)所示。

式中,m 为两个电力设备缺陷实体匹配的长度,t 为换位数目的一半。

因此可以结合电力设备缺陷数据库提供的数据,设定相应的相似度阈值,通过编辑距离和Jaro-Winkler 相关系数来整体判断该融合是否是相同的一个电力设备缺陷实体。

2.4 知识存储

选择高效合理的知识图谱存储方式是知识存储的重要关注点。本文中由于电厂设备缺陷数据种类繁多、冗长复杂,所以倾向于选择基于图结构的Neo4j 图数据库,处理电力设备缺陷数据更为高效。与Neo4j 图数据库中的节点、关系、属性依次对应匹配,得到相应结构化的三元组,并建立电力设备的缺陷模型,以实现对电力设备缺陷形式和处理方法的全面描述。使用Neo4j 图数据库来存储实体和关系,使用Neo4j 构建图表数据库的流程见图3。

图3 电力设备缺陷知识图构建流程

Neo4j 图数据库支持对知识数据库中所有的数据进行查询、修改和删除,可实现对不同类型知识的精细化管理。对于图谱的人工管理,将其划分为实体管理及关系管理。知识图谱的存储核心是三元组,实体是构建关系的前提条件,不同的实体由于属性及所属范围不同,每种实体都需要进行单独的逻辑处理。对于实体信息,可以对不同字段进行模糊搜索。

将近几年汉川电厂海量缺陷数据导入系统中,并从中抽取出48 552 个实体和989 854 条关系,一起存储到Neo4j 图数据库中。在本文实际应用中,查询缺陷名称“真空开关有裂纹”相关的缺陷内容过程大致为:由Cypher 语句查询后,得到了电力设备缺陷中所有关于真空开关有裂纹的缺陷,此时获得了与其缺陷名称的相关实体信息和这些缺陷实体的所有属性特征,部分示例见图4。

图4 知识图谱数据库示例

构建电力设备缺陷的知识实体,并通过与Neo4j的结合,突破了缺陷信息在存储描述以及推理上的各种局限性,得到实体模型。针对缺陷实体,从缺陷描述、发生部位等多种维度进行深入探讨分析。本文采用Cypher 语言有针对性并且高效快捷的检索、推理和挖掘各类数据。

本课题结合电力设备现有的缺陷数据文本、维修日志等信息,设计了基于知识图谱的电力设备缺陷模型。该模型引入BERT 预训练模型对数据进行预处理。基于BiLSTM-CRF 模型的命名实体和实体关系的提取。通过编辑距离和Jaro-Winkler 相关系数算法计算相似度判断能否实现知识融合。使用Neo4j 图数据库进行存储。该模型可以帮助现场维修的工作人员高效智能的查找设备缺陷并改进相关的维修操作。

猜你喜欢电力设备结构化图谱促进知识结构化的主题式复习初探河北理科教学研究(2021年4期)2021-04-19绘一张成长图谱少先队活动(2020年12期)2021-01-14加强电力设备运维云平台安全性管理江苏安全生产(2020年7期)2020-09-04结构化面试方法在研究生复试中的应用计算机教育(2020年5期)2020-07-24左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习福建基础教育研究(2020年3期)2020-05-28补肾强身片UPLC指纹图谱中成药(2017年3期)2017-05-17电力设备运维管理及安全运行探析现代工业经济和信息化(2016年22期)2016-08-23主动对接你思维的知识图谱领导科学论坛(2016年9期)2016-06-05基于压缩感知的电力设备视频图像去噪方法研究电测与仪表(2016年18期)2016-04-11基于改进Canny算子的电力设备图像检测研究电测与仪表(2014年10期)2014-04-04

推荐访问:电力设备 缺陷 文本

版权所有:上派范文网 2010-2024 未经授权禁止复制或建立镜像[上派范文网]所有资源完全免费共享

Powered by 上派范文网 © All Rights Reserved.。沪ICP备12033476号-1