1、如何评价当前大模型的产业价值?
对工业领域来说,大模型目前并没有产生颠覆性的影响,但也并不是纯粹的概念炒作。现在的状态就像润物细无声,工业流程没有产生颠覆性的改变,在每一步环节里又频繁出现AI的身影。
当前大模型的影响力主要集中在生产运行以及售后环节,研发设计端将来能有突破的话,那可能是一个颠覆性的改变,但目前还没有出现。
某种程度上,和5G的发展趋势有一定相似之处,但5G和业务没有强关联,而大模型背后承载的行业知识,既有它通用的一面,也有很强的专业属性。
把大模型想象成是一个人。原来很多工业环节都是需要一些有智力的人去做,比如说有一天某个产线突然就出异常了,需要有人通过收集信息,打开数据库查表,把各种信息整合一起,想上解释原因。
这个行为如果交给大模型去做,可能也就几分钟的事。整体表现是一个人,但是比自然人的效率要高好几个数量级。从量变的角度去看,就是效率提升。当这个效率真的提高几个数量级的时候,也许它就会产生质变,那就是颠覆性的一些改变。
就相当于你多了一个硅基同事,他的学习能力很强,记忆能力很强,有很强的语义理解能力,有一定的规划决策,以及持续迭代的能力。大模型更像人的地方,是也会犯错,现在没有办法完全做到自动化。他也会继承一些负面特征,有时会一本正经地跟你说胡话。作为同事而言,大模型确实也挺贵,尤其是商业版。
大模型跟自然人有非常本质的区别。首先,地球上没有任何一个碳基生命的知识储备能够跟大模型媲美,且不停继承和迭代。能够一定程度解决以往工业企业对语料知识管理的难题。第二,大模型7X24小时工作,人是需要休息的。大模型可以看作是人脑的延伸,能不间断代替我们做很多重复性的脑力劳动。第三,大模型的输出能力强大,它的带宽是非常大的,如果GPU够好、模型优化够好的话,它一秒可以出几百个token。第四,大模型情绪比较稳定,输出很稳定,可塑性还非常强。教育人是有风险的,教育方式不对,可能误入歧途,而大模型只要把snapshot删掉,重新训练甚至重置一下就好了。此外,大模型也带来了人机交互方式的变革,可以拟人化实现个性化交流与呈现的效果。
大模型擅长各类重复性脑力劳动,擅长文本处理、语义理解。大模型很擅长做各类生成,背后体现出来的智能想法,从技术上来说,是个概率问题,但是抛开数学来说,他生成的东西其实蕴含了背后投喂的知识。随着技术参数的增加和演进,现在大模型在推理方面的能力也在慢慢显现。
他不擅长的,跟人很类似。比如说他不擅长计算,人类有一个假象是擅长计算,那是因为人类发明了计算器。人类特别善于制造工具。人类因为记忆力不好,所以发明了数据库。其实大模型也没有记忆,他只能根据你的上下文给你推断。人类不擅长的地方要工具加持,那么大模型如何加各类工具,就是当下最前沿的那些研究机构的研究方向。
大模型在工业上的短板,一方面是精确性,比如一些高精度的控制、强机理的输出等还是有局限性;另一方面,大模型大部分还是基于历史数据学习出来的,时效性就相对差一点,需要给大模型做一些扩展和补充。这里就涉及大模型和小模型(机理模型)、数据要素的结合问题。
4、结合业务场景的需要,如何将大模型、小模型和数据组合创新?
大模型技术的单独使用,是基于历史显性知识的重复或增强使用,例如知识的问答。小模型的单独使用就例如仿真等机理模型,伴随工业生产流程。数据的使用,从最基础的实时监测,到趋势类的分析,都比较常见。
大模型和现场实时数据的结合,不仅仅对历史经验的定性描述,而且要定量化地描述当前的实际运行情况,工业专家再根据知识经验来判断到底有没有问题,接下来要做什么。例如设备维修场景下,工程师在检查维修某台水电机组设备的时候,可能会想了解当时水电站外边雨量、径流、水位等情况。这就需要把维修的知识和当前的实时数据结合起来,去应用大模型。
大模型+小模型的组合,在不涉及实时数据的情况下,可能会用在工业产品的设计阶段。以前叫计算机辅助设计,现在叫AI辅助设计。比如说我输入一些加工件的要求和限制条件,输出的是制造零件所需要的一个工艺过程。当然这个工艺过程是特定工厂的加工能力或者工艺能力相关的。
面对小批量、个性化的生产模式,可能一年好几万个型号;或是类似风电场逐点位设计风机的场景下,大模型可以充当一个平均水平的工艺设计师。他可能生成的方案不一定都对,但胜在孜孜不倦,一晚上出100个方案。这100个也不是随便出的,经过训练以后在大面上都是make sense的。大模型出完方案之后,再用一个小模型,或者叫仿真计算,对这100个方案做数值计算,找到其中比较好的组合,显然会比纯的碳基工艺设计师效率要高。你试错一次的时间够我试错100次。
还可能用在经营预测环节,例如电网的经典问题——潮流计算。
以前电网也有潮流计算的软件。在计算之前,要把整个电网架构网、网站结构、各种设备的参数、线路的长度、阻抗等都输入进去,然后专用软件就可以算出来,但本身输入的过程就很繁琐。用大模型的时候,可以考虑给他一张电网拓扑图,让他去识别出来,然后它就能自动调用潮流计算的算法去算一个结果出来。这也是一个大模型+小模型的典型场景。
小模型+数据是目前工业数据分析领域比较广泛的应用,例如设备健康诊断、劣化趋势等等。
大模型+小模型+数据,其实是一种新的数字化决策引擎。
原来的专业机理模型、专用的数据分析模型,不是通用智能,需要针对一个个场景去做,但因为永远都有新的场景,根本做不完。例如复杂装备领域,哪怕就只做一个健康评估,通过各个部件的拆解,一个水电机组就可能拆解出几百个模型。
大模型加入了以后,就形成了一套新的双大脑的决策机制。以统计型的数据分析为例,因为需要这些数据的统计分析,还要设计入仓、设计维度,以及最终的展示形式,最后要开发个Web App,便于使用。这种场景下使用大模型,相当于大模型这个员工在现场写代码。你问他一个问题。他明白之后,现场写代码,现场画图。甚至在几秒钟的范围内,他就把这个小项目完成了。效率太快了,以至于它又产生一种新的应用方式。你问他一个问题,他自己把该访问的数据库都访问完了,数据聚合完了,最后你给他个Json,他还能帮你画个图。
这类低层次且大量的分析需求,大模型能够降维打击、降维覆盖。当然,更复杂的模型,目前大模型还没有智能到这个程度。
长远来看,大模型+小模型+数据,可能是一个过渡形态,当前形态的小模型未来可能也会被某种其他形态的大模型兼容取代。
未来大模型代表的是一个硅基同事,很多工作也不能光靠同事一个人做完。比如说实时数据采集,一些专业的有限元计算等,他可能也会用到一些专业的辅助工具。在这个过程当中,他从刚入门,到慢慢成长成一个行业领域的专家,我们优先让他去干什么事?肯定不会一上来就让他去啃行业最难啃的硬骨头,而是像带徒弟一样,先让他去做一些好入门也比较占精力的事情。
例如从监盘出运维报告开始,每天监盘他能看得懂的数据。有人觉得用大模型做监盘或者问答就很low,都想做颠覆性的尝试,比如说工艺设计。但说实话,不是不能做,而是相对投入特别大。
现在做工艺大模型就是无非借了基础大模型的红利,而基础大模型(语言大模型)现在能力就在这,你非得研究一个做工艺的大模型,可以,那就准备几千万至少也是大百万级的研发经费去研究。而务实一点,我们跟着技术潮流,他能干什么,我们就先干什么,对大家对这个技术有了信心,社区技术又进步了,就继续借东风。
大模型技术本身也在快速迭代,百模大战。在务实作风的工业领域,应用大模型和原来设计一个数字化系统的思路完全不一样,我们希望未来大模型能像科幻片的智慧大脑一样好用,但当下我们还得从培养人的角度去看待他,把他当成新招的富有潜力的实习生,投喂丰富的知识,配套一些劳动工具,逐步替代一些原本耗时、创造力不强但又有章可循的工作,改变一些固有的劳动方式。
当然,工业领域还注意知识的隐私性以及数据安全。在学习过程中对怎么样规避这两个问题,这也是后面需要研究的一些课题。
如果说大家只是是想感受这个技术,有很多这种公开的一些基于云的API,不管付费的还是免费的都有。如果说大家要在实际的生产业务当中去用,我们更建议还是用私有化部署的方式。
合法途径,建议找Apache2.0协议的大模型,然后买GPU。选择大模型的参数量,比如7B、13B、70B,把参数量X2就是你需要的显存。比如你布一个7B的模型,那么就是14G显存。如果你想要130B,那就是260G的显存,那就是40G一块单卡乘以八块。
起步阶段,不做训练,只做推理,一两台服务器就可以把好多事跑起来了。大家可以边探索边交流。