在数据理解阶段,一方面是根据业务理解去理解数据,识别数据质量问题,明确数据准备的内容;另外一方面是通过数据探索,发现业务理解中的不足,进一步加深数据理解。数据理解是一个数据操作与业务假设双轮驱动的过程,大模型在本阶段应用中也需要与基于规则的数据操作过程融合。
业务理解阶段从业务、机理角度,将数据分析课题的相关变量,这些变量在数据系统的确切位置有时候也成为数据收集活动时的重点任务。有时候一个业务变量在多张表中存在,需要确定不同表中数据的完整度、更新度,以确定应该采用哪张表。例如,抽油机的理论最大、最小载荷是功图诊断的重要参考量,二者在井下作业、人工功图等表中都存在,但经过历史数据统计,井下作业数据表记录只覆盖了50%的井,并且该数据是设计阶段还是完工阶段填写的尚不确定,而人工功图数据表几乎覆盖了所有井,该数据是经过专家审核的,具有较高的可信度。
如果存在大量应用设计文档语料、数据库字典文档,大模型可以自动发现业务理解阶段变量所在数据库表和字段。这些问题在很多类似的分析或应用开发中都会碰到,可以通过大模型或自然语言处理技术发现类似的情形。
另外,数据层面的启发式统计分析也有很大帮助。根据数据字段、数据表内容,确定待寻找业务变量对应的数据表和字段名。很多数据库文档不能反映实际运行状态。例如在某个使用阶段后,一些静态信息表不再更新(例如,测量装置的更换信息),很多字段的业务意义发生了变化(例如,油井层位字段原来填写大层,后面填写到小层颗粒度)。根据数据表的数据的新鲜度、覆盖度统计可以辅助数据分析师选择合适的数据表。
初期的业务理解是比较浅的,背后有大量隐形假设,在数据探索中会逐步暴露出来业务理解的局限性或虚假性。例如,在SAGD(Steam Assisted Gravity Drainage井)井生产偏离预警分析时,初期访谈的理解是:当前采油站1个SAGD井对由1个注汽井(Injection Well,以下简称I井)和生产井(Production Well,简称P井)构成,背后隐形的假设:生产日报数据表(主要是每日的产液量等信息)中只有P井,注汽日报数据表中只有I井。但数据表探索发现生产日报中包括了不少I井,另外有少数I井没有对应的P井。这样的数据与隐形假设的不一致暴露了初期业务访谈中,业务分析师一直缺乏对SAGD井生产阶段逻辑的业务理解,即SAGD井预热阶段、蒸汽腔建立阶段、生产阶段等阶段,而在蒸汽腔建立阶段阶段,产液主要通过I井自喷排出。