昆仑数据线上课No.5 | 疫后数字化机遇,“工业思维”如何加持“数据思维”
来源: | 作者:pmod6d781 | 发布时间: 2020-03-12 | 4142 次浏览 | 分享到:

后台跑了模型,例如他会给一个分类的建议,613度是一个良品不良品的划分的区间。这个问题到这就结束了吗?这个图可以看出:实际上无论是良品还是不良品,他们都存在双峰分布,双方分布还恰恰都跟另一个良或不良的主峰是重叠的。

根据上面提到的辛普森悖论的例子,实际上双峰分布,肯定会有第2个因子,在影响这个产品的良率。

例如我们大胆的做一个猜测,原材料的耐热性可能有差异。耐热性好,温度即使高一点,也会得到良品。也有可能是另外一个因子:例如某些测量不准,有偏值,这都是潜在的因子。

这些是当前数据分析里没有体现出来的。

接下来再进一步分解,就可以找到更多的真正影响产品良率的因素。

当我们去看整体的温度分布,就会发现整体的温度分布,实际上落在了一个更大的区间内,它整体上呈现是一个近似正态分布。

而这次实验拿到的数据正好是在它温度偏高的地方。实际上对于工业过程而言,温度过低过高都会引起不良。

基于这样的温度分布,我们又可以去猜测,对称的在低温的区间,假设我们做一组实验温度过低也会产生这样的一个产品不良的现象。

为什么温度分布是这么大的一个范围?

事实上这就有可能是第三、第四、第五个因子所引起的,例如在操作过程中,有些人设置的偏高,有些人设置的偏低;或者传感器的安装存在问题;可能却冷却系统做的不到位。

如果我们单纯的从原始温度数据的分布去看,你看见的就一个正态分布,但当你把背后的因子一个个的挖出来的,你能够更全面的看到这个温度是怎么产生影响。

温度分布有这么广的一个范围,是不是存在着季节性的因素,是否存在环境的因素,人为的因素?这些会作为影响温度的因子的第2级因子,按照故障树的因子分解方法,我们把工业现场一个个影响因素的问题,做一层一层的分解,把最初产品良率的大问题,分解成解决一个小问题,例如:去解决一个产品耐热性的问题;去人为控制温度的稳定性问题,最终你会看到温度分布的这条曲线会变成越来越窄,方差越来越小。

当管控区间不变的情况下,方差越小,过程能力越强,过程能力越强,就意味着良性生产率一定会得到提升。

所以真正解决现场问题的时候,一定要这样抽丝剥茧,注意到数据里面的异常点,才有可能从数据里面,真的把工业问题给挖出来。

作为数据分析,我一开始也不是工艺专家,并不知道对工艺过程影响的这些因子会有哪些?通过把工业现场的问题,背后对应的机理结构化的总结,来配合数据分析的过程,就可以发现一些新的事实。