大模型在工业数据分析过程中的典型用例
来源: | 作者:pmod6d781 | 发布时间: 2024-10-09 | 1450 次浏览 | 分享到:

数据分析挖掘作为一个知识密集型的研发活动,大模型应该可以充分发挥辅助作用,将一些繁琐的工作自动化,提升数据分析效率。本文按照CRISP-DM(CRoss Industry Standard Process for Data  Mining,跨行业数据挖掘标准流程)分析阶段,分别探索不同阶段大模型可能的应用场景。基于这些分析,可以发现有可能开发出一些列交互式小工具(甚至整合到集成开发环境中),加速工业数据分析过程。同时也发现,在这些知识富集过程中,大模型需要和规则模型结合,这些工具应该定位为助手,自动化工具目前仍不现实。

图1 CRISP-DM过程方法

一、业务理解阶段

大模型可以帮助分析师更好地理解业务需求,通过自然语言处理能力解析业务文档、会议记录等,提取关键信息,从而更准确地定义项目目标和成功指标。特别如下系统运行机理机理、领域概念理解两个方面,可以提高业务理解效率。

1、系统动力学模型的自动生成

系统动力学以图形化的方式刻画了业务问题背后的机理过程,是辅助业务理解的一种模型。以磨煤机为例,系统动力学刻画了状态量、控制量、外生变量、目标量,以及这些变量间的关系。

图2 CRISP-DM过程方法

系统动力学模型通常是业务分析师在业务访谈中逐步形成,或则资深数据分析师在大量相关文献阅读后手工形成,消耗资深人员的时间,在时间存在滞后。有了大模型的支撑,这样的工作可以在业务理解之前半自动化完成,让业务访谈更有针对性。

图3 大模型辅助的系统动力学模型构建过程

2、领域模型的自动生成

系统动力学是从驱动关系或决策逻辑的角度理解变量或要素间的动力学关系,目的是为了分析建模和数据收集;而领域模型是从数据的角度理解业务问题的相关概念(本体)、关联关系和约束,目的是为了数据关联和数据质量审查。领域模型的生成有如下表所示的2种方式,

①领域文档驱动:包括论文、报告、书籍、记录等,这些内容以文本形式存在,大模型可以从中抽取关键的概念(本地)、事件、约束及其关系;也可以将给定领域的参考模型作为上下文进行分析;

②数据驱动:样例数据及其数据库说明文档,可以基于规则的形式提取表对象关系,作为大模型的上下文。

表1 领域模型的生成方式整体过程

如下图所示,领域模型有3条生成路径,

1)文档驱动;

2)样例数据驱动;

3)数据库E-R图转化得来(部分参考样例数据统计结果)。

图4 大模型辅助的领域模型的构建过程

在文档驱动的方式中,针对工业大数据分析问题,可以参考工业领域或特定领域的元数据行程提示词,例如物理实体构成、物理世界过程(要素及其关系)、量程活动、操控行为等。针对常见的问题,通常存在有很多参考模型,例如离散制造过程有ISA-95模型,这些元模型可以作为大模型的上下文信息,大模型进一步细化,形成领域概念列表。领域概念间的关系也可以通过文档提取。