工业数据分析｜如何保障传感器数据的有效性？

数据分析建立在有效数据的基础上，然而设备状态监测数据会受传感器的产品/安装特性（灵敏度、线性度、重复性、漂移等）、工作环境、数据传输通道等的影响而出现低精度和异常，进行影响后续分析算法的性能。因此，在数据接入或数据分析之前，通常需要进行预处理。

传感器数据的预处理主要包括质量审查与清洗、特征提取、数据融合3个步骤，如图4-14所示。数据融合主要指数据表间的融合，有很多成熟的数据工程技术。本文重点讲前两个步骤。

图4-14 传感器数据处理

数据质量审查与清洗包括4方面，如表4-12所示：

①异常检测，找出异常信息并确定异常信息所在的位置，包括数据缺失、类型错误、时间戳错误、离群点（outlier）检测等方面；

②传感器有效性研判，判断传感器是否失效、传感器数据是否可信，与其他质量审查与清洗任务相比，这项任务通常是周期性（如月/周）执行或触发执行的（例如，异常记录的数目超阈值），有时甚至需要离线人工研判，而不是实时在线研判；

③异常值修正，即通过插值等方法，参考异常数据点前后的数据，完成对该异常数据点的修正，确保信息不缺失，保持原始采集数据的连续性；

④滤波，消除噪声的影响，包括时域和频域方法。

表4-12 数据质量审查与清洗的4个方面

在异常检测方面，现有数据分析软件有成熟的功能模块，可以用于数据缺失、类型错误、时间戳错误等数据结构层面的异常。下面对离群点检测、传感器有效性研判、异常值修正和特征提取进行讨论。

1、离群点检测

迄今为止，离群点还没有一个统一的定义。Hawkins提出的定义被大多数人接受，其定义为：离群点是与众不同的数据，人们怀疑这些数据并非随机产生的，而是产生于完全不同的机制。离群点数据往往代表一种偏差或新模式的开始，对离群点数据的识别有时会比对正常数据的识别更有价值，简单的数据滤除可能会使很多有用的信息丢失。传感器异常数据是指在数据集中与大部分数据不一致或者偏离正常行为模式的数据。

离群点数据的产生原因主要有3点：

①由设备状态变化（如基础结构损坏）引起，这类异常中可能隐藏着重要的知识或规律；

②由设备工作环境变化（如风况、温度等）引起，需要在分析时将这类异常作为一种特定场景单独处理；

③由传感器故障、环境干扰、网络传输错误等引起，分析时需要对原始数据做特别处理，以保证分析是有意义的。

离群点检测问题可以从4个维度来看，即数据特性、异常类型、数据标签和输出类型，如表4-13所示。数据异常可以分为3类：点异常、上下文异常和集合异常。如果某个单个的数据实例被认为是异常值，则该数据实例就被标记为点异常。点异常是最简单的异常，也是与异常检测相关的文献中讨论最多的异常。如果某个数据实例只在特定的场合或环境下被认为是异常值，则该数据实例就被标记为上下文异常。一个典型的例子就是野外环境的温度监控，温度报警阈值的设定要根据当前季节的大气温度变化范围和一天中的时间确定。集合异常是多个相关数据实例（集合）的异常。集合中的单一数据实例不被认为是异常，但这些数据实例同时出现就构成了集合异常。

表4-13 描述离群点检测问题的4个维度

离群点检测方法有基于数据的方式和基于规则的方式两大类，如图4-15所示。

图4-15 离群点检测方式

基于规则的方式包括：

①单传感器研判，包括传感器数据长时间不变、变化太大（不稳定）或测量值超过量程等；

②多个同类传感器对比，基于假设，同一时间多数传感器是正常的。基于规则的方式通常根据传感器工作机制进行研判。例如，由于温度变化的惯性和测量元器件的热惯性，温度不应出现陡升/陡降，可以认为远远大于设备故障（或热工系统）温升速率的变化是传感器噪声。

图4-16 基于数据的方式

基于数据的方式大致有6类，如图4-16所示。

（1）基于分类的异常检测分为两个阶段，即训练阶段和检测阶段。在训练阶段，算法利用训练数据集中的数据对象构造分类器模型。在检测阶段，测试数据集中的数据对象被输入分类器，根据分类的结果判断是否是异常数据。分类器可以基于规则、神经网络、贝叶斯网络和支持向量机等技术。

（2）按某种度量方式，正常数据对象之间比较接近，而异常数据对象和邻居数据对象之间却相对较远。数据对象之间的远近可以用距离或相似性表示。如果数据对象的属性都是连续变量，则经常用欧式距离表示数据对象之间的距离。常见的基于近邻法的异常检测算法大体分为两类：一类是基于距离的异常数据检测，另外一类是基于密度的异常数据检测。

（3）聚簇（Clustering）技术用来进行数据对象分组，将相似的数据对象归入一个簇。在异常检测领域，聚类技术被用于无监督检测和半监督检测。依据基本假设的不同，基于聚簇技术的异常检测方法大体分为3类：第1类，假设正常的数据对象都能被聚簇算法归入某个簇，而异常数据对象不属于任何簇；第2类，假设正常数据对象与它所在簇的质心比较近，而异常数据对象与它所在簇的质心比较远；第3类，假设正常数据对象属于较大且较密集的簇，而异常数据对象属于较小且较稀疏的簇。

（4）使用统计异常检测方法的基本假设是：正常数据对象分布在某个随机模型的高概率区间，而异常数据对象出现在该随机模型的低概率区间。异常检测的基本思路是：首先利用训练数据集和领域知识构造随机模型，然后检测测试数据集中的数据对象是否有较高概率由该随机模型生成。根据是否已知随机模型的具体参数，将统计异常检测分为两类：参数化检测和非参数化检测。参数化检测主要包括基于高斯模型和回归模型的异常检测，非参数化检测主要包括基于直方图和核函数的异常检测。

（5）基于信息论的异常检测。熵在信息论中是一个重要概念，用来衡量收集到的信息的不确定性。基于信息论进行异常检测的基本假设是：数据集中的异常数据实例导致了熵的增加。

（6）时序方法，主要根据时序或频域特征进行异常识别。

2、传感器有效性研判

传感器有效性研判的相关特征如图4-17所示。主要包括传感器的产品特性、安装特性、被测设备的结构特性、信号传递路径、内外因素的相互影响、故障发展的一般规律等，这些特征是传感器有效性研判的依据。

图4-17 传感器有效性研判的相关特征

造成传感器数据失效的原因有许多，包括传感器安装松动、传感器故障、环境干扰等。从机理上，可将环境干扰可分为电磁干扰、机械干扰、热干扰、化学干扰等；从干扰的时序特点上，可分为冲击性干扰、周期性干扰、间断性干扰、持续性干扰、缓慢积累性干扰等。例如，大功率电磁感应设备的启停往往会产生较大的脉冲干扰，现场的温度、湿度等环境条件的变化也会造成传感器测量行为的缓慢改变。从原因研判上，需要结合传感器测量原理、安装结构、被测对象工况机理、工作环境等信息进行综合研判。以振动传感器为例，失效原因、表征及研判逻辑如表4-14所示。

表4-14 振动传感器失效原因、表征与研判逻辑

3、缺失值处理

由于传输异常、数据异常等原因，数据中常常存在缺失。缺失值的处理方式有删除整条记录（甚至删除缺失率高的字段）、缺失标记、缺失值填补3种方式。对于非时序数据，一般不建议填充缺失值（填充成本较高），建议设置哑变量或剔除该变量，甚至可以将一条记录的缺失程度加工为特征变量（例如，不提供完整信息的客户很可能对产品不感兴趣）。对于时序数据，一般建议进行缺失值填补，以便于时序分析算法的使用。

常见的填充缺失值的方法如图4-18所示。不同数据结构（是否有时序结构）和类型（类别变量、连续变量）的填弃方法不同。

图4-18 缺失值填充方法（以传感器为例）

不同算法有不同的优缺点。均值、中值、众数填充的计算量低，但填充结果粗糙，甚至会对模型训练产生负面影响。建立缺失字段与其他字段的线性回归模型，通过线性模型的预测值进行填充会更精细，但若这种方式填充的好则容易造成多重共线性，填充的不好则没有价值，需要二者均衡。

4、特征提取

常见的设备监测量分为动态类信号（记录信号波形）和静态类信号，其中动态类信号以振动类信号（加速度、速度、振动位移）为主，静态类信号以温度、压力、变形为主。无论是动态信号还是静态信号，常用的判别特征都有最大值、最小值、平均值、峰度等，其算法相同，可统一设计成统计类基本算子。为典型的领域图谱（轴心轨迹等）提供刻画其几何结构的特征算子，并支持后续的相似度计算。分析基本信号在某一时间窗口内上升、下降的程度，需设计时间窗口类的基本算子。利用信号分析基本技术提取表征设备运行状态的更加具体的指标，需设计二阶基本算子，如图4-19所示。

图4-19 特征提取算子

不同特征变量对不同故障模式的表征显著性不同，表4-15给出了振动分析中13个常用时域特征及其适用场景。这些先验知识可以避免不必要的数据探索，也降低了数据分析对数据量的依赖。

表4-15 振动分析中的13个常用时域特征及其适用场景

本文摘自电子工业出版社《工业大数据分析实践》，作者田春华，清华自动化系博士，昆仑数据首席数据科学家，从事工业大数据分析，擅长行业数据建模，拥有多年跨领域的实战经验。