工业数据分析竞赛的那些事儿

来源: | 作者:pmod6d781 | 发布时间: 2024-07-30 | 635 次浏览 | 分享到:

第三，对工业数据分析竞赛来说，数据的预处理也很关键。

企业一般喜欢出故障诊断、价格预测、需求预测类的题目，最开始要去准备相应场景下的原始数据集，做一些相应的标注以及脱敏处理。一方面数据比较敏感，另一方面也是为了公平性。之前就有一年我们联合湖南电网出的水流量预测的题目，湖南电网这个名字一出来，有人可能就沿着地图去找旗下的水电站，对照历史的真实数据，特别是水利专业院校的会有先天优势，我们必须做数据处理，避免参赛选手动歪心思。

另外，国外好多竞赛的数据集出现过和预测结果高相关的量，一旦线性相关达到0.9或0.8，题目难度就降下去了，这也是要注意的。

出题企业愿意提供尽量丰富的数据，也确实花了很多精力，但有时不小心把一个觉得选手不会用的变量带进来，对选手来说也是误导。从竞赛的角度来说，只要给的我都可以用。但是一到答辩的时候，专家可能发现因果关系倒置的情况。所以赛前需要大量的数据预处理，加工完之后，有时还要把样本稍微均衡一下，别让竞赛太难，区分度太大。

赛题公布之前，一般都要邀请不同的专家提前试做，看看难度怎么样，会不会出现一些意想不到的情况，尽量前期考虑全面一点，避免实际执行中选手发现一些新的问题，这样对整个比赛的进程会有影响。当然试做的专家在开题之后就不会提供任何与赛题相关的信息，直到比赛结束。

一般来说，我们会鼓励选手，放开手脚大胆干，可以用机理结合数据，也可以用纯数据、纯人工智能去做。从评委或者从出题人的角度，两种结果我们都喜欢看。

如何看待赛题中的非监督学习与监督学习赛题？

局部的或者领域内部的可以尝试非监督学习或者甚至没有任何标签。但是一般面向大众的赛题都是尽量走监督学习或者是运筹优化。

非监督学习比较难，例如能源企业集团面向内部的领域赛事，可以出一些无监督学习的场景，比如给出一组风电基础数据，没有标签，可以告诉你是多少兆瓦的、什么型号、多长年限、大概在什么位置，选手要来分析哪个风功率曲线或者哪个部件是有异常的。甚至出题人也不知道结果，最后到现场以激光测速雷达再测一遍，看谁的结果最接近。当然你可以怀疑激光测速雷达不准，但出题方会邀请资深的行业专家复核结果。

监督学习，例如运筹优化，例如给你一个物流网络，在多长时间内算出一个结果，然后看谁的排班最好。偶尔也会安排一些极端情况，看看你的程序能不能顶得住，能不能用，都需要精心设计。

纯算法型参赛选手也需要注重可解释性

近几年，参赛选手最喜欢用的是深度学习，只要数据量够大，不管怎样都值得试一把；第二，各种boosting（包括XGBoost、 Catboost、 LightGBM等）是竞赛选手的标准操作；其他就是各显神通。有题目特征相对明显，用Random Forest等传统机器学习能做得非常好。