工业数据分析竞赛的那些事儿
来源: | 作者:pmod6d781 | 发布时间: 2024-07-30 | 151 次浏览 | 分享到:



当然,如果在同样情况下,从评委的角度更喜欢可解释性,你要知道你的模型边界是什么。好多选手可能对工业不太熟,可解释性还有待提升。非行业选手在可解释性上能到一个大概的粒度,就挺好的。

竞赛中一般会把一些现实中可能出现的极端情况过滤掉,避免对大家造成干扰。因为极端情况没有特别好的办法,需要加入一些人工经验或者规则来辅助,非业内人士不知道。所以题目做了一定程度的理想化,而在理想化的情况下,再不知道边界那就更不应该了。

你说试了所有的算法,发现就这个分高,也是一种解释。但评委更希望过程有一些感悟和收获,例如在这种情况下,贝耶斯也不错,最好讲清楚为什么不错,为什么不行,收敛性不好还是什么。我们希望通过竞赛,不光是得出一个分数,还是希望大家有点收获,如果能转化成一个科研项目,或是回归到工业界应用,构建一个闭环那就更好了。

数据分析竞赛与现实工业数据分析项目的异同

整体来看,依照CRISP-DM,做赛题和做实际项目流程一样,从业务理解选题到数据理解、数据预处理、建模、模型评估到模型发布,都需要一套完整的流程。

不过做赛题是专家和选手组合在一起完成的,在公布赛题之前专家也会提前走一个闭环做验证,而选手是从数据理解开始完成后面的流程。

赛题需要考虑趣味性,能够不断迭代,如果做五天和做一天的结果没有明显差异,说明题目深度或者数据预处理的特征提取上可能有点浅。

和实际项目相比,比赛缺少交互。实际项目中拿到的数据都是不确定的,要反反复复确认,数据质量也不能一下讲清楚,需要很多交互,甚至做到一半可能会重新定义题目。比赛中这部分工作都在专家出题验证的时候就前置解决了。

现实项目会比竞赛更加复杂,因为定义出一个数据可解的好题目,就完成了工作的一半。通过竞赛,我们希望吸引更多的人关注工业数据价值,推动工业数字化的落地。