工业数据分析竞赛的那些事儿
来源: | 作者:pmod6d781 | 发布时间: 2024-07-30 | 626 次浏览 | 分享到:


数据分析的竞赛大概分几种典型类别?

从赛事组织的角度,组织这场比赛的初衷不同,就决定用什么样的形式来设计这场比赛。

第一类,创意赛,适合探索一些新的技术领域,还没有特定的场景和数据,又需要有一些新的想法涌现。

创意赛是规定一个新的题目,需要结合行业知识和企业访谈去找新的解决方案,考核重点是大家能不能把一个具体行业问题巧妙解决,而不在算法。最后提交形式是一个报告或者报告衍生的一些视频,包括POC演示系统等。典型问题例如:大模型如何结合你的行业需求落地应用?如何借鉴其他行业的工业互联网经验,对你所在的产业带来价值?

第二类,有相应的技术得到了一定程度的运用,就可以做成解决方案赛。一般针对一个现实问题,给一些领域限定,比如在设计、智能制造或者其他,大家结合企业的实践和自己的想法,基于过去几年的沉淀再提升和总结,提出一个解决方案,最后评估可行性和可复制性。

第三类,有一定的场景和数据积累,对结果也有一定的量化目标,就可以考虑算法赛,尝试解决一个现实问题。比如背包问题,问题明确,甚至有标准答案,也有边界条件,需要提交一个结果。这种类型的统称为ACM赛事,典型赛事例如KDD。有的ACM算法赛会考核在一个很短的约定时间内提交结果,考核能不能运行,运行效率如何,能不能编译,给你随机出一个输入,你能不能算出来。

工业数据分析挖掘的价值,对时效性、对环境的依赖各有侧重。国内竞赛为了保证算法可用,一般还要求代码,但由于大家用的环境和版本不一样,并不严格要求代码一定能运行,或者说并不要求在指定的时间内跑出来,主要是看提交结果。

第四类,为了促进领域的技术研究,做open dataset赛。没有规定时间,大家在同一个地方公平测试,参与打榜,后来者可以在前人的肩膀上进一步研究,也可以知道这种算法在什么情况下有效没效,促进整个研究生态的发展。

其实工业数据分析竞赛一方面提供有限时间内的竞技,另一方面,赛题数据集本身也可以成为供大家继续研究的基础,竞赛之后还可以继续演进,做研究发论文,也可以把它当成一个案例练习。

以算法赛为例,从赛事组织的角度看,设计竞赛有哪些考虑因素?

首先要公平性,工业数据竞赛要对高校或者非本行业的人公平,不能出一个水电的题目就只有水电行业的人能得高分,非水电的人就差很多。机理不能太深,一般出题的时候会提供很多与解题相关的行业参考文献,把领域专家的知识都提前公布出来,让大家在一个起跑线公平竞争。

第二要有可区分性,得分要拉得开差距,又不能出现断崖式的差距。我们2017年参加PHM竞赛的时候,做高铁转向架的故障诊断,把机理和数据巧妙结合之后,按照原始排名,我们高出其他团队十几分,即便最后一个报告不交,都能得第一。后来赛会被迫调整了两个子问题中第二个问题的权重。第一名和第二名不能差那么多。