工业数据分析|如何保障传感器数据的有效性?
来源: | 作者:pmod6d781 | 发布时间: 2022-03-11 | 669 次浏览 | 分享到:

数据分析建立在有效数据的基础上,然而设备状态监测数据会受传感器的产品/安装特性(灵敏度、线性度、重复性、漂移等)、工作环境、数据传输通道等的影响而出现低精度和异常,进行影响后续分析算法的性能。因此,在数据接入或数据分析之前,通常需要进行预处理。


传感器数据的预处理主要包括质量审查与清洗、特征提取、数据融合3个步骤,如图4-14所示。数据融合主要指数据表间的融合,有很多成熟的数据工程技术。本文重点讲前两个步骤。



图4-14 传感器数据处理


数据质量审查与清洗包括4方面,如表4-12所示:

①异常检测,找出异常信息并确定异常信息所在的位置,包括数据缺失、类型错误、时间戳错误、离群点(outlier)检测等方面;

②传感器有效性研判,判断传感器是否失效、传感器数据是否可信,与其他质量审查与清洗任务相比,这项任务通常是周期性(如月/周)执行或触发执行的(例如,异常记录的数目超阈值),有时甚至需要离线人工研判,而不是实时在线研判;

③异常值修正,即通过插值等方法,参考异常数据点前后的数据,完成对该异常数据点的修正,确保信息不缺失,保持原始采集数据的连续性;

④滤波,消除噪声的影响,包括时域和频域方法。



表4-12 数据质量审查与清洗的4个方面


在异常检测方面,现有数据分析软件有成熟的功能模块,可以用于数据缺失、类型错误、时间戳错误等数据结构层面的异常。下面对离群点检测、传感器有效性研判、异常值修正和特征提取进行讨论。


1、离群点检测

迄今为止,离群点还没有一个统一的定义。Hawkins提出的定义被大多数人接受,其定义为:离群点是与众不同的数据,人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制。离群点数据往往代表一种偏差或新模式的开始,对离群点数据的识别有时会比对正常数据的识别更有价值,简单的数据滤除可能会使很多有用的信息丢失。传感器异常数据是指在数据集中与大部分数据不一致或者偏离正常行为模式的数据。


离群点数据的产生原因主要有3点:

①由设备状态变化(如基础结构损坏)引起,这类异常中可能隐藏着重要的知识或规律;

②由设备工作环境变化(如风况、温度等)引起,需要在分析时将这类异常作为一种特定场景单独处理;

③由传感器故障、环境干扰、网络传输错误等引起,分析时需要对原始数据做特别处理,以保证分析是有意义的。


离群点检测问题可以从4个维度来看,即数据特性、异常类型、数据标签和输出类型,如表4-13所示。数据异常可以分为3类:点异常、上下文异常和集合异常。如果某个单个的数据实例被认为是异常值,则该数据实例就被标记为点异常。点异常是最简单的异常,也是与异常检测相关的文献中讨论最多的异常。如果某个数据实例只在特定的场合或环境下被认为是异常值,则该数据实例就被标记为上下文异常。一个典型的例子就是野外环境的温度监控,温度报警阈值的设定要根据当前季节的大气温度变化范围和一天中的时间确定。集合异常是多个相关数据实例(集合)的异常。集合中的单一数据实例不被认为是异常,但这些数据实例同时出现就构成了集合异常。