完整性是最基础的要求。比如有的场站,可能有大几千个,甚至几十万个这种规模的采集测点,首先要能够把这些数据完整地取回来。
稳定性要求。数据是不是能很稳定地上传,并且收回来?数据采集质量如何?如果数据经常有缺失有异常,采集精度肯定会影响后续数据分析。
时效性要求。毫秒级采集的设备,尤其是希望做到实时优化控制的,对时效性的要求就比较高。比如电网,有时需要在几十毫秒内能够把相关数据分析完,同时做出控制动作的响应。采集频次上对时间的要求不是那么高的,可以隔一段时间一传,比如工程机械领域某些测点是40秒传一次,或者是几分钟传一次。传的有可能是当时那个时点的数据,也可能是前几分钟或者几十秒的数据。
非侵入式要求。很多时候,数据是从原有的一些信息化系统,或是监控、控制类的系统中取。想拿的数据越全、越完整、量越大的时候,不可避免地对原有的系统会产生一定的冲击,。为了保障生产的平稳,很多企业会要求尽可能用非侵入式的监测采集,不要动原有的系统,不要影响原有的技术框架,不要去从底层的数据库去拿。这种非侵入性或者非干扰性,在工业现场也是很现实的诉求。
安全合规要求。特别是在影响国计民生的行业,大家越发重视数据的安全性,像电力系统的数据,在电站里其实散在一区、二区、三区,取数据要符合不同的防护等级要求。
成本因素。在一些从零开始建设的新兴工厂或者需要做技改的项目中,很多企业会根据业务场景倒推,做数据分析需要什么样的数据,来决定数采怎么做。很多装备制造企业,希望先在样机上多布一些传感器,通过数据分析的方式来进行降维。不影响分析场景和业务价值实现的前提下,结合设备的物理特性和机理模型,把传感器的数量降下去,先加后减。比如从1000个降到100个,这100个有代表性的测点能表征这台设备运行的特征,那将来生产这个设备或者做大规模改造的时候,只需要去加装这100个传感器就行。从数据分析的数据诉求和加装传感器的成本控制之间找平衡。
另外,在某些现实条件下,有一些很恶劣的工作环境,传感器根本就没法安装,只能用少量的测点、少量的传感器,通过一些相关性分析,间接推导出来想要发现的趋势。在条件允许的前提下,我们还是希望能够有尽量多维度的数据。因为推导过程越长,中间的变数越多,准确度就会影响最终的诊断结果。
数据采集也是一种技术架构,但决定技术架构的并不是技术架构本身。它受制的因素有很多,有总体投入的因素、现场环境的因素、技术限制因素,例如有些点我想采但现在没能力采。采用哪些点?采什么频率?如何去管控风险?业务方推数据还是技术方拉数据更合理?从硬件到软件,从远端源头的传感器到后台的传输、应用各种问题。