从2007年开始,田博在交通运输(航空/港口)、智慧城市、零售、石油石化、银行、电信等不同行业从事数据分析实践,2015年专注工业大数据领域,深入思考数据分析在行业落地中的挑战与方法,并于2021年初出版了《工业大数据分析实践》,明确了不同类型分析课题的定义、理解和推进方法与规范。此后一年半,该书增印两次,在较为小众的工业大数据技术圈内传播甚广。
源于“定义一个好问题是成功的一半”,此前出版的《工业大数据分析实践》集中在“课题定义、业务理解”,而在实际分析项目中,对很多工业背景的数据分析师来说,“算法建模”能力同样关键。
算法应用需要数据分析师的“广度”,而不仅仅是单领域的“深度”;要有在不确定环境下的“直觉”和系统观,而不是严谨的数学公式推导;要关注算法的鲁棒性和最差情形,而不是“理想”假设下的表现;更要坚持“极简为美”的工程思维和“简洁易懂”的跨领域沟通,在学界和业界间架起一条通畅高效的桥梁。
在工业数据分析这个特定上下文,有工业数据预处理(面向物理信息对象的数据关联、工况细分、时序征兆提取等)、时序数据挖掘、机理模型/专家知识融合、有限标记样本下的学习等新技术问题,另外也有设备故障诊断、生产质量优化、运作效率优化等典型应用课题。
在业界朋友的反馈与鼓励下,田博新书《工业大数据分析算法实战》近日得以面市,从工科人的视角介绍算法,从分析实战的角度展示算法的应用,帮助工科背景读者建立起数据思维,灵活利用数据分析算法进行实际问题的建模,并实现分析项目的高效迭代与落地。
值得工业大数据分析从业者、工业企业研发技术人员、工业互联网企业数据分析师阅读,也可作为上述人员的培训教材和相关专业师生的参考书。
作为一本有方法、有算法、有过程代码、有原创图表、有实战案例的良心著作,本书共逾460页,约计70万字,集结田博20年工程实践干货:
直观的算法解读:用R语言实例和图形直观展示算法参数的影响,讲解了算法的组合技巧,阐述了算法背后的朴素原理与思想,帮助读者建立起算法的“直觉”;
全面的知识体系框架:用简洁图表建立起算法体系的全貌,没有定理证明与公式推导,不蹭热点(如深度学习),帮助分析应用者建立起算法的“系统观”;
高质量的参考文献:包括了算法的起源论文、权威图书、经典软件工具书,每条参考文献都是经典,覆盖了算法原理、定理推导、算法实现、工具软件和应用案例,读者可以按需深入,不走弯路,有效提升。
真实的工业场景应用:用实际案例讲解了典型工业场景中的分析算法组合技巧和工具。
正文四部分共10章,另外提供了100+页PHM算法综述PDF文件(电子版)。
第一部分(第1章),数据分析概览,目的是建立起数据分析算法的概念框架,并给出学习路线。
第二部分(第2-5章),侧重在通用数据分析算法,包括数据预处理、机器学习、时序挖掘算法和最优化等其他算法。
第三部分(第6-8章),讨论了工业分析的算法思路,覆盖了生产质量分析(PQM)、生产效率优化(PEM)等典型分析课题的算法组合套路。
第四部分(第9-10章),侧重在分析工程方法,第9章讨论了工业专家知识沉淀方法,第10章讨论了数据分析的软件工程。
本书仅仅是一个开始,期待有更多更优秀的人才投身工业大数据的工程方法和实践,共同推进工业数字化转型进程。