作为工业数字化的基础,不管是从基础的监控类应用开始,还是从数据资产积累的目的出发,大家都或早或晚开始了数据采集的工作。上一期我们对数据采集过程中企业的需求,比如完整性、稳定性、时效性、非侵入性、安全合规、成本等因素,以及对数据采集过程中面临的一些典型挑战,进行了分析和探讨。这一期,我们聊聊在数据采集的过程中面临这些问题之后,如何应对。
Q1:过去在数据采集现场,还碰到过哪些棘手的问题?
虽然我们所有人都希望数据采集能够毕其功于一役,一次性解决问题,往往现实不是这样的。上一期已经聊到了很多棘手的挑战,仍有一些在实施过程中防不胜防。
例如,数据接口的问题,有一些系统一开始数据接口规范定义都很好,通信协议都很清晰,在真正实施的时候,就会发现方方面面的问题都出来了。可能涉及到一些接口不开放,甚至还需要进一步的商务合作,还有一些系统时间也长了,可能业主自己也找不到原来厂家是谁负责的。
还有一些多方协同的不可控变数,例如在一个矿场上做车载的数据采集,sim卡有效期是一年,一年之内你要续费,结果由于一些额外的因素没有及时续费,再续要实名认证。但是实名认证几百辆车很麻烦,于是就需要把设备拆下来,重新替换sim卡。
还有一些极端环境因素的影响,安全防护的考虑,跨部门协同也有不同立场上的风险平衡问题等等,数采确实也是一个持续的迭代的事情。
Q2:从企业的角度看,数据采集需要做哪些准备工作?
第一,业务目标和场景定义。首先要以终为始,先确认要分析什么样的场景,才能确定下来采集哪些数据。不同目标对数据要求的侧重点会有差异,需要综合总体目标去判断,可能需要哪几类数据。例如就做实时监控,要求全量数据,这也是一种目的。
第二,梳理现有的数据清单。先把数据归类,比如有哪些设备、哪些测点,数据的采样频率如何,哪些数据目前没有,需要加装传感器。
第三,样例数据的初步分析。拿到一些样例数据,了解数据质量如何,有的在数据清单里,但可能传感器工作不正常,或者准确度特别差,就需要改造。但样例数据不能代表全部数据的情况,对潜在工作量的预判不能过分乐观。
第四,制定相关的采集标准。明确数据格式、数据质量、数据安全等各方面标准,根据这些标准,可以保证数据的一致性和可比性,从而提高数据的可利用价值。
第五,制定数据采集方案。设计具体的实施方案,比如数据怎么采、网络怎么架构、怎么部署,技术架构是否有可扩展性。前期尽量做得比较细致一些,包括采集的方式和具体的工具。自动接入一般会包含硬件和软件,要建立一整套软硬件解决方案。比如硬件方面,包括哪些传感器、哪些监控的设备、是有线传感器还是无线传感器、现场有没有工业网络、是否安全合规?软件方面,需要对数据源所在软硬件的负载情况做系统性分析和可行性验证,避免数采负载对原有系统带来过大的冲击。弄清楚采集软件是哪些,数据采上来之后,传输、存储和处理都需要哪些软件来进行支持,数据访问链路和接口是否畅通?关键路径是否存在实施风险?是否满足实时或者批量获取的需求?
最后,还有人员的准备,因为数据接好了,顾问团队撤场了之后,还需要进行后期的维护,还需要内部人员能够承接下来这部分数据接入或数据监控的工作。
我们经常会设计一个比较理想的数采方案,但真正和实际的网络、系统情况、安全、成本和相应的业务诉求等因素匹配的时候,是不断妥协的过程,需要找到一个平衡。
Q3:在规划准备阶段,如何提前预估数据采集的成效?
从数据的角度看,数据的准确性、精度、完整性、一致性、接入率、时效性、价值密度等等指标。完整度包含两个维度,例如有100条数据,是不是采到了100条数据;这100条数据中可能有50个字段,这50个字段全不全。再比如采了三台,时间对不齐,也没法分析。另外,有时数据及时采上来了,也比较全面,数据精度也很高,但是用这组数据就是没法达成分析结果。因为工业数据大部分时候都是一个稳态正常的数据,而数据分析需要覆盖不同工况的数据,需要在机组调试、检修以及仿真测试等环境下做一些数据补充。
从过程的角度看,比如采集效率、响应速度、传输宽带、数据处理的速度、复杂度,数据分析的准确性等。
从硬件的角度,考量设备的稳定性、可靠性、可用性、维护成本等指标。
建议在准备阶段,就以终为始,把核心指标(偏数据的如接入量、缺失,偏业务的如工况覆盖等)先梳理一下,结合可视化的展示,跟相关领导或干系人提前沟通,数据采集阶段准备采哪些数据,会从哪几个指标去衡量数据采集的工作价值。后面工作的开展,就可以扣着达成共识的目的开展,避免做大量采集工作之后仍旧无法支撑分析需求。
在数据采集的过程中,将采集状态以某种方式直观呈现出来,例如有的比较重视实时数据,就将正在发生毫秒级的数据量变化呈现出来;有的看重数据全量,比如全国的机组/车间分布图;有的看重全工况的覆盖,比如典型工况150种,当前数据采集已经覆盖多少种。让数据采集这一阶段的价值被体现出来,也有助于后面项目的持续性推进。
站在构建这套系统的用户角度来谈,在数据利用的链路中,数采的核心竞争力在于如何更好地利用系统现状,去匹配业务需求。业务的关注点要做实时控制,就能满足实时性;如果系统的目的是做设备全生命周期管理或者某段生产过程的全场景分析,那么数据采集就要能够覆盖全工况,这就是核心的竞争力。在现有的数据源及相关系统等条件约束下,怎么样围绕业务目标,设计出高效的数据采集系统架构,能从头到尾说明白的人才非常稀缺。
对于昆仑数据而言,在整个工业大数据行业,数据采集本身的技术已经比较成熟了,我们的优势,是基于我们多年来对数据的处理和分析上积累的经验,能够以终为始,从价值实现的角度去看数据,以更理性的角度去看待采集这件事,从源头去规避一些后面实施可能会遇到的问题。
对于一家数采企业来讲,它的核心竞争力包括很多方面,比如采集数据的频次,在业务分析有需求的时候,毫秒级的数据采集也是一种能力,有的企业只能做到百毫秒;采集频器的可靠性高,在多少个现场试验过从来没坏过,这也是它的核心竞争力;成本低,对于一些不太重要的设备,可以低成本地把数据存进来不丢失等等。要看满足什么样的具体的需求,才能在这个需求中找到自己的核心竞争力。
现在新产线基本都要求智能化设备了,配有网关,对工业数据采集会方便很多,采集维度也可以更多,采集成本更低,可靠性更高。但怎样保证传感器在恶劣的复杂环境下,长期可靠稳定,又能精确采集到数据,其实不是那么容易做好,还需要长期努力。
从传输的角度,5G甚至将来的6G无线传输技术,采集的灵活性和可靠性进一步提高,成本进一步降低。
从数据分析挖掘的角度,数据建模需要受到更多的关注,分析效率的提升关键在于减少一次又一次的重复冗余又很繁杂的数据处理工作,至少快速兼容同类设备的数据源,就可以减少现场很多适配的测试工作。企业在系统迭代的过程当中,可以规划好数据建模和分析平台。
我们也期待数据安全管理机制会日趋完善和更加人性化。