大模型在工业数据分析过程中的典型用例
来源: | 作者:pmod6d781 | 发布时间: 2024-10-09 | 272 次浏览 | 分享到:

在数据驱动的方式中,业务字段识别可以采用启发式规则,包括识别数据表中的枚举字段、类别字段(唯一值的数量远远小于记录条数)、时间字段。这些业务字段,通过人工修订后的概念-数据表的映射关系,可以在数据表中校核概念间的关系是否符合实际业务。业务字段间(包括业务字段组合)的关系可以基于样例数据统计去归纳。

E-R图转化为领域模型中,主要的规则包括:

1)将物理主键(或称为代理主键)替换为业务主键,例如稠油井转轮周期表,每口井每个小层有一套连续的转轮周期编号,但在数据库中用一个物理主键而不是3个业务主键的组合来标识记录的唯一性,在面向数据分析的领域模型中,应该用业务主键来表达唯一性,这样更容易业务概念理解;

2)对于存在父类、子类的关系,如果层次关系不是重点,可以将父类的属性分别合并到子类,在领域模型中,消除父类,自己用子类,这样更方便后续数据集关联操作。例如,人工功图是抽油井生产测试的一种,测试任务号、测试类型、井名、测试日期等所有测试任务的公共属性存在生产测试表中,人工功图数据表中仅有测试任务号和人工功图的特定属性,在功图诊断课题中,只需要人工功图一种生产测试,没有必要保留生产测试这一层对象,可以将井名、测试日期等属性加入人工功图中;

3)根据领域问题,有些对象根据类别变量可以转为两个类。例如,SAGD生产数据库中,I井与P井在同一张数据表中,只不过注汽日报表中只有I井的记录,生产日报中大部分是P井的记录,但在SAGD注汽分析中,I井与P井是两个独立的领域模型。

读者可能疑问:E-R图等数据库模型本身也是一种模型,为什么不能直接作为领域模型呢?这是因为数据分析关注点与数据库、应用开发不同。在领域模型上,数据分析与应用开发的关注点不同。数据分析并不关心对象行为,只关注对象属性或状态,从某种程度上来说,属于贫血模型。但与一般贫血模型不同,数据分析关注的是关联,即如何将不同数据对象组合为机器学习模型所需的宽表,因而更关注维度、颗粒度和更新周期。在数据模型方面,数据分析也不像关系数据库那样关注存储/访问效率、一致性,因而数据分析课题的领域模型不一定要符合三范式。

最后补充说明一下,很多具体做法(或企业特定约定做法)没有在文档中体现,这是文档驱动方式缺陷的本质原因之一。例如,SAGD生产中,生产日报数据表(主要是每日的产液量等信息)是否包括循环预热阶段的数据?这是后续SAGD分析数据集筛选与加工的必要的信息,但无论在公共文献、内部文献还是数据库设计文档中都没有描述,这些信息只有通过样例数据统计回答。