在实际接入的过程当中,数据格式没有统一的标准。从数据接入角度来讲,很多厂商的数据格式都不一样,需要对每一种逐一适配。有时候需要从传感器开始去安装布置,还涉及到传感器选型安装,安装角度位置不一样都会影响采集精度。有时候是从其他系统通过一些数据接口或者通讯协议,给我们数据。但各种硬件接口都不统一,甚至一些比较陈旧的协议接口,维护人员都不知道原来是怎么做的了。软件层面,单是电力领域经常用的通讯协议就有十几种,也还好,毕竟有标准可循,虽然标准的覆盖面还不太理想。但有时候,一些厂家的装载监测系统完全是私有规约,是自定义的格式,是保密的,适配一下要收接口费。通过不同接口进来的数据还需要进一步时标对齐,方便后续分析。
我们用一些灵活配置的插件来适配各种工业协议解决了上一个难题,去读数的时候,发现PLC或是其他的一些信息化的系统,设计之初根本就没有考虑数据要外传的问题,数据量稍大一些,会影响响应效率,从而影响生产。还有现场很多设备都属于关键性的设备,不可以轻易停机,但是很多情况下的调试配置比较复杂,需要重启之后才能生效。这种技术和业务两难的操作也是非技术性的难点。
除了时序数据,数据分析有时候需要结合一些对象数据,比如说设备的维保记录,对健康度评价有很重要的辅助作用。但这一类对象数据,更是一个采集和分析的难点,很多现场记录是手写的,很难结构化采集。
第一,在工业领域做数据,哪怕做数据采集,肯定也是业务价值导向,想清楚采集的目的是什么,然后才知道采什么和怎么采。第二,考虑数据采集的非侵入性或者非干扰性,尽量不要对原有的生产系统产生太大冲击。有些企业会要求非开工时间才允许传输数据。第三,考虑成本、安全合规。
在做正式的数据采集之前,我们通常会建议企业去做一系列的准备工作,也是为了帮助企业更好地制定数据采集的原则。我们认为,数据采集不是买一些传感器,把数据从系统里取出来就完了,它一定是结合最终使用场景的一个一揽子方案。
数据采集、传输、存储是在整个数据链路上是一个比较复杂的三元组,不是一条简单的单向数据链路。
一个很典型的数据链条是,从PLC产生的数据到了现场的中控服务器,然后到区域中心,再到我分公司中心,再到集团中心。在这个过程当中,每一段都会有相应的数据处理。在我们看来,用一些机器学习、深度学习等复杂模型去做数据处理,或是把一个数据从秒级加工成分钟级,或是将原始数据切成若干的时序段,都是一种加工过程。所以数据的传输和中间的存储过程,在不同的语境下,是可以不断被拉长,且不断复制的。