工业数据分析|如何保障传感器数据的有效性?
来源: | 作者:pmod6d781 | 发布时间: 2022-03-11 | 1193 次浏览 | 分享到:



表4-13 描述离群点检测问题的4个维度


离群点检测方法有基于数据的方式和基于规则的方式两大类,如图4-15所示。



图4-15 离群点检测方式


基于规则的方式包括:

①单传感器研判,包括传感器数据长时间不变、变化太大(不稳定)或测量值超过量程等;

②多个同类传感器对比,基于假设,同一时间多数传感器是正常的。基于规则的方式通常根据传感器工作机制进行研判。例如,由于温度变化的惯性和测量元器件的热惯性,温度不应出现陡升/陡降,可以认为远远大于设备故障(或热工系统)温升速率的变化是传感器噪声。



图4-16 基于数据的方式


基于数据的方式大致有6类,如图4-16所示。

(1)基于分类的异常检测分为两个阶段,即训练阶段和检测阶段。在训练阶段,算法利用训练数据集中的数据对象构造分类器模型。在检测阶段,测试数据集中的数据对象被输入分类器,根据分类的结果判断是否是异常数据。分类器可以基于规则、神经网络、贝叶斯网络和支持向量机等技术。


(2)按某种度量方式,正常数据对象之间比较接近,而异常数据对象和邻居数据对象之间却相对较远。数据对象之间的远近可以用距离或相似性表示。如果数据对象的属性都是连续变量,则经常用欧式距离表示数据对象之间的距离。常见的基于近邻法的异常检测算法大体分为两类:一类是基于距离的异常数据检测,另外一类是基于密度的异常数据检测。


(3)聚簇(Clustering)技术用来进行数据对象分组,将相似的数据对象归入一个簇。在异常检测领域,聚类技术被用于无监督检测和半监督检测。依据基本假设的不同,基于聚簇技术的异常检测方法大体分为3类:第1类,假设正常的数据对象都能被聚簇算法归入某个簇,而异常数据对象不属于任何簇;第2类,假设正常数据对象与它所在簇的质心比较近,而异常数据对象与它所在簇的质心比较远;第3类,假设正常数据对象属于较大且较密集的簇,而异常数据对象属于较小且较稀疏的簇。


(4)使用统计异常检测方法的基本假设是:正常数据对象分布在某个随机模型的高概率区间,而异常数据对象出现在该随机模型的低概率区间。异常检测的基本思路是:首先利用训练数据集和领域知识构造随机模型,然后检测测试数据集中的数据对象是否有较高概率由该随机模型生成。根据是否已知随机模型的具体参数,将统计异常检测分为两类:参数化检测和非参数化检测。参数化检测主要包括基于高斯模型和回归模型的异常检测,非参数化检测主要包括基于直方图和核函数的异常检测。

(5)基于信息论的异常检测。熵在信息论中是一个重要概念,用来衡量收集到的信息的不确定性。基于信息论进行异常检测的基本假设是:数据集中的异常数据实例导致了熵的增加。