工业数据分析模型的规模化应用，难在哪？

来源: | 作者:pmod6d781 | 发布时间: 2024-09-11 | 1951 次浏览 | 分享到:

POC到小规模验证，已经有一定程度的困难，从小规模到大规模，存在的变量就更多。因为工厂讲究多元化，同一个工厂下的不同产线，自动化供应商不一样、设备供应商不一样、材料供应商不一样，等等。如果推广到不同的生产基地下的不同工厂，复杂度就更高。

以前在一个小范围片区里面，我们用一整套稍微大一点的模型去管理（不是现在意义上的大模型）100-200个机台，还能用。当把这个数量乘以10、乘以100，在全国范围覆盖的时候，管理起来会相当困难。

我们不可能在每一条产线，每次都花大量时间训练一遍。模型训练也不是一成不变的，例如批次的控制，上一批失败了，下一批怎么调，那上一批是成功的，下次怎么调？有可能两个厂商乘以两个供应商再乘以原材料种类的乘积，复杂程度就是几何倍数的增长，那模型就数不胜数。以前的方式就不再可用。

我们需要考虑，这里哪些是共性的，哪些是个性化的，我们怎么用模型组去更好的管理？

关联问题：怎样算大规模？分行业和场景而异。在机理相对明确、可变因素相对较少的时候，可能把单机模型扩到几百个，甚至上千个的规模，我们认为是大规模；但是有一些更特殊情况，场景复杂，影响因素比较多，能从一扩到十就很不容易了，扩到几十台机组，就算是大规模部署了。

复杂情况下，工况分组是一个很重要的思想。

以温度为例，温度的常见工况有升温、温度维持或者降温，这是简单的一个分类。如果在舱体容器里，温度和压力是同时存在的，那可能会存在既加压又加温的情况。但往往两者的速率不一样。可能是压力快速达到目标值后，迅速进入维持阶段，然后温度缓慢上升。常规定义可能就只是简单的升温升压阶段。

实际训练模型时，我们需要把它进行拆分、组合，相当于一个工艺段的两个细分阶段。如果类似的情况再增加就需要再细分，有各种可能的组合。不只是明面上的五种或六种工况，切分后底下可能是10种至20种工况，都得做针对性的交叉训练，模型组的概念就出现了。

模型组的定义很重要，首先群组内的核心算法和逻辑是一致的，要挑战的是工程化过程中不同的变量带来的差异性问题。但定义组不能太琐碎，否则后面开发、维护的工作量就会巨大；另外一方面，又不能定得太过粗放，否则无法覆盖或者解决上述提到的问题。很考验工程师的经验和技术能力。

模型的规模化，除了量变引发质变，还有时间周期上的持续运营问题。

算法可以规模化的上线之后，再往后可能还会碰到怎么去持续管理和运营的问题。这是大家在项目管理上需要去考虑的一个因素。

模型上线，大家肯定都要看效果，有时候大家过于关心模型精度怎么样。实际上由于很多不可控的干扰因素，模型理论精度就不一定高，否则反而过拟合。那些不可控因素甚至可能占了五成，你根本控制不住。

服务

400-680-5007

关于我们

工业大数据创新中心

产品与服务

产品

北京市海淀区中关村东路8号东升大厦B座805AB

联系电话：

公司地址：