工业数据分析竞赛的那些事儿

来源: | 作者:pmod6d781 | 发布时间: 2024-07-30 | 634 次浏览 | 分享到:

当然，如果在同样情况下，从评委的角度更喜欢可解释性，你要知道你的模型边界是什么。好多选手可能对工业不太熟，可解释性还有待提升。非行业选手在可解释性上能到一个大概的粒度，就挺好的。

竞赛中一般会把一些现实中可能出现的极端情况过滤掉，避免对大家造成干扰。因为极端情况没有特别好的办法，需要加入一些人工经验或者规则来辅助，非业内人士不知道。所以题目做了一定程度的理想化，而在理想化的情况下，再不知道边界那就更不应该了。

你说试了所有的算法，发现就这个分高，也是一种解释。但评委更希望过程有一些感悟和收获，例如在这种情况下，贝耶斯也不错，最好讲清楚为什么不错，为什么不行，收敛性不好还是什么。我们希望通过竞赛，不光是得出一个分数，还是希望大家有点收获，如果能转化成一个科研项目，或是回归到工业界应用，构建一个闭环那就更好了。

数据分析竞赛与现实工业数据分析项目的异同

整体来看，依照CRISP-DM，做赛题和做实际项目流程一样，从业务理解选题到数据理解、数据预处理、建模、模型评估到模型发布，都需要一套完整的流程。

不过做赛题是专家和选手组合在一起完成的，在公布赛题之前专家也会提前走一个闭环做验证，而选手是从数据理解开始完成后面的流程。

赛题需要考虑趣味性，能够不断迭代，如果做五天和做一天的结果没有明显差异，说明题目深度或者数据预处理的特征提取上可能有点浅。

和实际项目相比，比赛缺少交互。实际项目中拿到的数据都是不确定的，要反反复复确认，数据质量也不能一下讲清楚，需要很多交互，甚至做到一半可能会重新定义题目。比赛中这部分工作都在专家出题验证的时候就前置解决了。

现实项目会比竞赛更加复杂，因为定义出一个数据可解的好题目，就完成了工作的一半。通过竞赛，我们希望吸引更多的人关注工业数据价值，推动工业数字化的落地。