新闻动态
K2技术干货 | 质量大数据的领域建模技术
来源: | 作者:pmod6d781 | 发布时间: 2022-08-23 | 425 次浏览 | 分享到:
数据服务:质量大数据的领域建模技术


质量大数据涉及产品的方方面面,数据来源和形式广泛,并且通常存储于不同系统和不同的数据库中。传统的大数据平台只能解决数据的接入和存储,但是从质量分析应用的视角看,需要把上述数据进行集成和和关联,构建统一数据服务,才能从根本上提高质量大数据的访问效率,加速质量分析和应用的创新速度。因此,在传统的大数据平台之上,需要对多维质量数据进行统一模型管理和查询层,以统一数据服务的形态对上层应用提供数据访问能力。

质量大数据服务层包含两个重要的技术模块,如图5.3所示。“工业物理对象模型”是对质量域多源异构数据的统一描述,数据关联查询引擎则提供统一的数据关联查询接口,屏蔽底层异构数据管理系统的复杂性。

图5.3 统一的大数据服务

数据模型是指用来描述业务领域行为的数据结构,包括重要的业务实体、属性,以及他们之间的关系。数据模型应该不依赖于具体的数据存储介质和形式。例如我们描述“产品”是质量大数据里的一个重要实体,而不是指“存储在数据库中的产品表结构”。

在质量大数据领域中的重要业务实体包括但不限于“物料”,“设备”,“工段”,“工艺”,“人员”,“产品”(本质是“物料” 的一个特例,但是为了方便理解,暂且单独提出)等。通过对产品生产过程的刻画(最终决定了质量),这些实体是天然的关联在一起,例如,一个“产品类型”包含多个“产品(实例)”,每个“产品” 有多个“工序”,每个“工序”需要依赖一个或多个“设备”,同时每个“工序”可能会消耗一部分“原材料”。产品一般是按“批次” 生产的,每个“批次”会对应一个“人员班组”,等等。这些实体、属性和关系都有可能会质量产生最重的影响,因此需要进行建模刻画。那么,如何获得稳定、描述性强的质量的大数据模型呢?

幸运的是,在工业的发展过程中,有很多标准模型可以参考借鉴,如流程行业的ISA-88,重点描述离散行业同时能兼容ISA-88模型的ISA-99生产信息整合模型,或者其他行业内的模型等等。虽然这些模型产生的目标和背景不同,但是对于大数据分析的场景,仍然有很强的借鉴意义。以图5.4中ISA-95模型为例,该模型包含了物料模型、设备模型、人员模型、产品定义模型、工艺段模型、生产能力和调度模型等几大模块,并且每个模块内部均定义了重要的实体和关系。在大数据分析的场景中,上述数据模型中的数据可以看做是“主数据”或者“基础数据”。而对于在产品生产过程中产生的大数据,则需要在上述模型的基础上进行扩展。常见的质量大数据包括生产过程中设备产生的运行监测数据,如压力、温度等,属于时序大数据;设备生产过程中产生的日志数据,通过结构化之后可以获得正常、异常事件以及时间等重要信息;设备质检过程中产生的结果数据,例如PCB、芯片的电检测数值数据,以及广泛采用的AOI图像检测数据等等。这些大数据结构可以通过扩展,挂载到基础数据模型上,最终形成完整的数据模型,我们称之为“工业物理对象模型”。



图5.4 ISA-95的建模维度

数据服务:基于领域模型的查询技术
“工业物理对象模型”解决了多源异构数据的统一描述问题,但是实际数据仍然存在数据存储层的多种数据系统中。因此,数据关联查询引擎的作用是根据工业物理对象模型对上层应用发出的数据关联查询请求进行分解,并调度到底层的各个数据系统中实际执行,并把查询结果汇总,加工变成上层应用所需的格式。数据查询引擎的主要设计目标包括:1)提供富含领域语义的数据查询;2)保证数据查询性能。

数据查询引擎采用了“工业物理对象模型”做为元数据,而数据模型中的实体定义本身就来自于业务语言,因此它天生就具有很强的领域语义,例如质量分析中典型的查询中,我们可以通过特定缺陷找到特定的批次号,再通过批次号生产的产品类型找到所有生产同类产品的批次进行横向对比。在这种查询语言下,用户完全不需要关心底层特定数据管理系统的IT概念。这种查询语义可以同时面向IT工程师、质量工程师和数据分析师,帮助三者形成有效沟通手段。

数据查询引擎的性能挑战主要来自于适配多种数据库,并且在特定的查询需求下,结合每个数据库的访问特点,拆解成最优的数据查询语句传达给底层数据库实例。另外数据查询引擎还需要对数据进行 汇总,因此需要考虑跨库数据查询优化,例如实现跨库连接(Join)操作时,需要用一个库的小数据去连接另外一个库的大数据,而不是反过来。此外,在一个典型的数据关联查询中,一批数据可能在关联路径上重复出现,并且会出现典型的数据库N+1查询问题,因此数据查询引擎需要构建自动缓存和批量合并的功能,避免出现查询引擎和数据库之间出现的多次无效数据传输,提高查询速度等等。
 
在数据服务的形式上,需要支持三种典型的数据访问形式:即席查询,数据抽取,和数据订阅。即席查询用来满足任意的数据关联和探索,以交互式的方式进行数据查询和反馈,方便用户对数据进行初步理解,以及满足质量分析应用的数据交互展示功能;数据抽取用来满足大数据分析的场景,需要实现数据的高吞吐传输,满足典型质量分析算法的批量和流处理过程;数据订阅指在用户感兴趣的数据集发生变化的时候才通知的数据服务,用来满足质量变化、异常发现等数据需要及时传递的场景。