工业数据分析模型的规模化应用,难在哪?
来源: | 作者:pmod6d781 | 发布时间: 2024-09-11 | 749 次浏览 | 分享到:



模型跟现在的设备、现在的数据已经不匹配了,其实就是业界常说的模型漂移问题。我们确认不是人为、不是设备的、不是网络或是数据的问题,那模型该重新训练就得重新训练。

模型漂移后,能不能让一般的数据分析师也可以快速重新训练,让这个模型继续工作起来?

从数据采集的角度,某一条产线或者设备上原来的传感器比较少,但在当时的条件下已经是最好了。我们在既有条件下建模,过了段时间,可能新线上来了,或者技改增加了传感器,数据量增加了,模型就面临调整。

以这个场景为例,采集频率高了、数据多了、变量多了,肯定是好事。至少把它又变成少数量低采样频率的情况下,按照业务指标去衡量,原来的模型依然工作,那就先让它继续运行着。但凡做的还是同一个设备,解决的是同一个问题,那数据科学家开发算法的时候就有义务让所做的模型能抓住设备和数据的问题本质,不会因为这些改变,让这个模型又得从头开发一遍。这个底线是肯定的。

通常来讲,更多的数据、更高的精度,确实会带来更多的输入,方便加工一些其他的特征。基于模块化的架构,我们可以在这些新的特征基础上很快实现新的探索和模型的更新,让模型更精准,不需要从零重新去训练模型。

一旦面临需要重新训练的情况,我们需要注意中间结果的输出,随时评估模型训练的效果,比如预测标准有没有改善,之前好的对象有没有变差,坏的对象有没有变好,类似的对比工作是必要的。

除此之外,如果这套流程已经完全跑通,规模复制的流程还要按照SOP的形式落到纸面上,需要输出哪些内容,保证这些模型的效果和以前是相似的,或者是更好。作为新入职的工程师,能不能按照这样的方式去复制这一套形式,而不再需要更多的去理解这个过程。