工业数据分析｜如何保障传感器数据的有效性？

（6）时序方法，主要根据时序或频域特征进行异常识别。

2、传感器有效性研判

传感器有效性研判的相关特征如图4-17所示。主要包括传感器的产品特性、安装特性、被测设备的结构特性、信号传递路径、内外因素的相互影响、故障发展的一般规律等，这些特征是传感器有效性研判的依据。

图4-17 传感器有效性研判的相关特征

造成传感器数据失效的原因有许多，包括传感器安装松动、传感器故障、环境干扰等。从机理上，可将环境干扰可分为电磁干扰、机械干扰、热干扰、化学干扰等；从干扰的时序特点上，可分为冲击性干扰、周期性干扰、间断性干扰、持续性干扰、缓慢积累性干扰等。例如，大功率电磁感应设备的启停往往会产生较大的脉冲干扰，现场的温度、湿度等环境条件的变化也会造成传感器测量行为的缓慢改变。从原因研判上，需要结合传感器测量原理、安装结构、被测对象工况机理、工作环境等信息进行综合研判。以振动传感器为例，失效原因、表征及研判逻辑如表4-14所示。

表4-14 振动传感器失效原因、表征与研判逻辑

3、缺失值处理

由于传输异常、数据异常等原因，数据中常常存在缺失。缺失值的处理方式有删除整条记录（甚至删除缺失率高的字段）、缺失标记、缺失值填补3种方式。对于非时序数据，一般不建议填充缺失值（填充成本较高），建议设置哑变量或剔除该变量，甚至可以将一条记录的缺失程度加工为特征变量（例如，不提供完整信息的客户很可能对产品不感兴趣）。对于时序数据，一般建议进行缺失值填补，以便于时序分析算法的使用。

常见的填充缺失值的方法如图4-18所示。不同数据结构（是否有时序结构）和类型（类别变量、连续变量）的填弃方法不同。

图4-18 缺失值填充方法（以传感器为例）

不同算法有不同的优缺点。均值、中值、众数填充的计算量低，但填充结果粗糙，甚至会对模型训练产生负面影响。建立缺失字段与其他字段的线性回归模型，通过线性模型的预测值进行填充会更精细，但若这种方式填充的好则容易造成多重共线性，填充的不好则没有价值，需要二者均衡。

4、特征提取

常见的设备监测量分为动态类信号（记录信号波形）和静态类信号，其中动态类信号以振动类信号（加速度、速度、振动位移）为主，静态类信号以温度、压力、变形为主。无论是动态信号还是静态信号，常用的判别特征都有最大值、最小值、平均值、峰度等，其算法相同，可统一设计成统计类基本算子。为典型的领域图谱（轴心轨迹等）提供刻画其几何结构的特征算子，并支持后续的相似度计算。分析基本信号在某一时间窗口内上升、下降的程度，需设计时间窗口类的基本算子。利用信号分析基本技术提取表征设备运行状态的更加具体的指标，需设计二阶基本算子，如图4-19所示。