工业数据分析 | 范式建模和维度建模,你pick谁?
来源: | 作者:pmod6d781 | 发布时间: 2022-03-04 | 438 次浏览 | 分享到:

工业数据分析是指利用数据管理和数据分析技术,对工业数据进行处理和分析,挖掘数据价值,实现设备运行安全可靠、生产效率提升、成本降低、产品质量提升等业务目标。


工业数据分析的基础是对工业数据进行良好的组织和管理。在典型的数据湖-数据仓库两层数据架构中,数据湖让数据聚集、可以被集中访问,但是数据湖中的数据是按照数据源的格式原样存储的。在面向数据分析的场景中,例如设备智能运维、生产过程优化等,还需要利用数据仓库技术,对来自多个数据源的大量历史数据进行格式化处理和集成,建立数据基础,为分析课题的成功提供保障。


然而在实践中,我们发现面向工业数据分析的数据仓库经常存在以下的问题

• 数据模型的定义比较随意,会随着数据分析的要求随意增减字段和数据表;

• 数据字段和数据表表达的业务语义不明,重要的业务规则隐藏在数据处理逻辑中;

• 业务专家和数据分析师不能很好的参与到数据建模过程中,数据工程师只能根据业务专家的描述和数据分析师的具体需求被动的进行响应;

• 多个相关的数据分析课题不能互相复用数据,存在大量的重复数据处理和清洗过程。


如果您是一名在工业企业内部的IT工程师或数据分析师,您可能对数据仓库这种来自数据管理领域的抽象晦涩的概念不是很了解,更不知道如何在实际的工作中应用此技术;如果您是一名来自较强IT技术背景的数据专家,服务于工业领域,您可能希望了解在工业数据分析领域应用数据仓库和其他数据管理技术的实践经验,少踩一些坑。那么希望本文能够对您有所帮助。


在下文中,我们通过工业场景的示例,对数据仓库建模的基本概念进行解释。本文对解数据仓库的两种基础建模体系-范式建模和维度建模的异同点以及分别适用的工业数据分析场景进行探讨。说明为什么在当前工业数据分析领域成熟度下,应当优先选择范式建模。


工业数据分析的特点

在工业数据分析中,有几个较为突出的特点,在确定数据管理思路时需要结合考虑。


1)需要跨界融合。工业数据分析涉及工业核心设备、生产过程的多领域机理,还需要结合专家经验,因此其行业门槛较高,这就需要工业专家(以下或简称OT)、数据科学家/分析师(以下或简称DT)、IT和数据工程师(以下或简称IT)的跨界沟通、协作。


2)数据质量参差不齐。一个典型的工业企业发展过程中会持续进行自动化和信息化建设,周期跨度从几年到几十年不等,来自不同建设时期和背景的信息化系统中的数据含义、格式、规范区别较大,也较少存在数据标准,因此数据分析课题需要对数据质量有定量理解。