工业数据分析竞赛的那些事儿
来源: | 作者:pmod6d781 | 发布时间: 2024-07-30 | 635 次浏览 | 分享到:



第三,对工业数据分析竞赛来说,数据的预处理也很关键。

企业一般喜欢出故障诊断、价格预测、需求预测类的题目,最开始要去准备相应场景下的原始数据集,做一些相应的标注以及脱敏处理。一方面数据比较敏感,另一方面也是为了公平性。之前就有一年我们联合湖南电网出的水流量预测的题目,湖南电网这个名字一出来,有人可能就沿着地图去找旗下的水电站,对照历史的真实数据,特别是水利专业院校的会有先天优势,我们必须做数据处理,避免参赛选手动歪心思。

另外,国外好多竞赛的数据集出现过和预测结果高相关的量,一旦线性相关达到0.9或0.8,题目难度就降下去了,这也是要注意的。

出题企业愿意提供尽量丰富的数据,也确实花了很多精力,但有时不小心把一个觉得选手不会用的变量带进来,对选手来说也是误导。从竞赛的角度来说,只要给的我都可以用。但是一到答辩的时候,专家可能发现因果关系倒置的情况。所以赛前需要大量的数据预处理,加工完之后,有时还要把样本稍微均衡一下,别让竞赛太难,区分度太大。

赛题公布之前,一般都要邀请不同的专家提前试做,看看难度怎么样,会不会出现一些意想不到的情况,尽量前期考虑全面一点,避免实际执行中选手发现一些新的问题,这样对整个比赛的进程会有影响。当然试做的专家在开题之后就不会提供任何与赛题相关的信息,直到比赛结束。

一般来说,我们会鼓励选手,放开手脚大胆干,可以用机理结合数据,也可以用纯数据、纯人工智能去做。从评委或者从出题人的角度,两种结果我们都喜欢看。

如何看待赛题中的非监督学习与监督学习赛题?

局部的或者领域内部的可以尝试非监督学习或者甚至没有任何标签。但是一般面向大众的赛题都是尽量走监督学习或者是运筹优化。

非监督学习比较难,例如能源企业集团面向内部的领域赛事,可以出一些无监督学习的场景,比如给出一组风电基础数据,没有标签,可以告诉你是多少兆瓦的、什么型号、多长年限、大概在什么位置,选手要来分析哪个风功率曲线或者哪个部件是有异常的。甚至出题人也不知道结果,最后到现场以激光测速雷达再测一遍,看谁的结果最接近。当然你可以怀疑激光测速雷达不准,但出题方会邀请资深的行业专家复核结果。

监督学习,例如运筹优化,例如给你一个物流网络,在多长时间内算出一个结果,然后看谁的排班最好。偶尔也会安排一些极端情况,看看你的程序能不能顶得住,能不能用,都需要精心设计。

纯算法型赛选手也需要注重可解释性

近几年,参赛选手最喜欢用的是深度学习,只要数据量够大,不管怎样都值得试一把;第二,各种boosting(包括XGBoost、 Catboost、 LightGBM等)是竞赛选手的标准操作;其他就是各显神通。有题目特征相对明显,用Random Forest等传统机器学习能做得非常好。