昆仑数据基于近年来在大模型领域的项目实践和工程经验,在“戏说工业数智化”直播间推出《工业企业DeepSeek修仙指南》系列直播,与大家共赴工业大模型“修仙”之旅。
以下为首期直播内容摘要。
《第一期 灵根觉醒》
从底座模型训练者的视角来看,这是一次具有突破性的创新。然而,从大模型应用的角度而言,DeepSeek或许仅是一个性能更优的新模型,本质上属于量变而非质变。原有的模型如同本科生,而新模型则如同博士,尽管后者能力显著提升,但若期望其适应特定企业或场景,仍需进行针对性的培训和再教育。
严肃而言,实现全功能部署至少需配备16块H100显卡,每块具备80GB显存,方可确保系统满载运行。首要条件为硬件容量的充足,其次需预留余量以保证流畅操作。据保守估算,16块H100显卡大致可支持10至15个并发任务。构建此类全功能或企业级运行环境,预计成本将接近400万元人民币。
蒸馏版作为官方发布的版本,其核心价值在于验证了蒸馏技术路径的可行性,为开发者提供了实践参考,以便根据官方方法对自有模型进行蒸馏。知识蒸馏的过程可类比于师生教学,即一个模型的输出作为另一模型训练的输入。
以市面上DeepSeek针对千问的32B蒸馏版为例,其与普通千问32B在基础能力上并无显著差异,主要区别在于集成了R1深度搜索功能。然而,R1在32B模型上的表现仅限于特定任务的优化,适用范围较为局限。
网络上有观点认为,满血版R1与蒸馏版R1之间的差异,犹如牛肉卷与牛肉风味卷之别,二者虽气味相似,实则本质不同。
V3版本与先前所见的底座模型相似,采用一问一答的交互模式。而R1版本中的“R”代表“Reasoning”,即推理模型。随着这一概念的提出,底座模型被大众划分为两类:生成式与推理式,尽管这种分类略显牵强,但易于被广泛接受。
通俗而言,推理模型可理解为:当提出一个问题时,模型并不急于作答,而是进行深思熟虑,翌日再予答复。用户在使用DeepSeek官网时所见之“思考中”(Thinking)状态,实则为一种心理独白,模型通过自我剖析问题,经历顿悟过程后,方给出正式回答。
此技术名为思维链(Chain of Thought, CoT),并非新生事物,早在提示词工程技巧中便有所应用。思维链技术通过显式生成中间推理步骤,旨在提升大模型输出的准确性。其核心机制在于将复杂问题分解为逻辑相连的子任务,通过逐步推导降低整体推理难度。然而,这种多步迭代过程会显著增加响应时间,形成以时间成本换取精度的典型技术权衡。
在时效性要求极高的场合,如高层领导参观展厅,生成式AI若延迟4-5秒已难以接受,更遑论推理模型可能长达20秒的等待时间。因此,R1模型更适合用于桌面研究或深度思考等对时间要求不高的场合。
传统的预训练模式依赖大量计算资源,需众多显卡协同工作。DeepSeek的此次创新,简而言之,是算法与数据的双重胜利,其数据集质量亦属上乘。
最初,我们提出大模型的三大要素:算力、数据与算法。ChatGPT作为先驱,率先实践了全网数据集收集与预训练,引领了行业方向,彼时竞争焦点在于算力,数据质量尚属一般。随后,行业遭遇瓶颈,模型训练效果趋于一致。
Llama之所以稍显优势,在于发现高质量数据集对模型性能提升显著,因此业界关注点转向数据优化。然而,数据驱动的提升路径亦逐渐触及天花板。
面对全人类知识被模型学习殆尽的困境,业界一度陷入悲观,认为模型性能难以再提升。然而,大周期循环至算法层面,DeepSeek通过算法创新突破了这一瓶颈。至于下一个大周期的焦点将落在算力、算法还是数据,目前尚难断言。
部分企业正积极探索大模型应用,而另一些则持审慎态度,主要顾虑在于企业数据尚未系统化整理,以及缺乏明确的大模型应用策略,需逐步推进。
业界存在一种大胆假设,认为大模型技术虽植根于过往技术,但因算法与算力的飞跃而展现卓越性能。工业现场数据丰富且质量上乘,自动化系统对稳定性和安全性要求极高,本身具备大量冗余。若将AI的算力与算法融入自动化控制,有望显著提升生产效率。然而,将算力转化为生产力,需依赖一种广义的AI,涵盖控制算法、检测算法等各类专用人工智能。
我们的终极目标是实现通用人工智能(AGI),即模拟人类智能,具备理解与学习能力,通过持续沉浸在工厂数据中,实现自主决策。目前,大语言模型或许能成为通往AGI的桥梁,对此深信不疑者勇于先行探索,而持怀疑态度者则选择观望。然而,在笃信者中,部分人走向另一极端,视DeepSeek等大模型为无所不能,这亦是一种误区。
周鸿祎在清华讲座中以电动机为喻,形象指出大模型如同高性能引擎,而多数企业所需实为剃须刀。电动机虽能展现27000转的惊人性能,却未必实用。同理,即便DeepSeek表现出色,距离解决实际问题仍有相当距离。
当前,对大模型感兴趣的人数呈指数级增长,然而尚未出现具有颠覆性的爆款应用。尽管如此,这一趋势可能标志着一个重大变革的开端,因为关注者越多,底层创新的可能性越大。正如修仙者增多,修成正果的概率也随之提升。
DeepSeek的兴起带来了认知上的转变。以往,企业需投入巨资构建算力集群,如今在较低硬件配置下,探索私有大模型成为可能,这不仅提高了建设效率,也降低了探索风险。
过去,焦点多集中于大模型本身,而DeepSeek的出现引导工业企业将注意力转向如何将大模型作为技术组件,设计松耦合架构,并探索其与具体场景的结合,从而开辟更广阔的应用前景。
传统模式下,工业数据分析高度依赖专业工程师的经验与技能。他们通过深入分析数据,结合自身专业知识,最终形成专业的诊断报告与优化建议。如今,通过大模型技术,工业企业希望可以直接获取数据,快速生成精准的分析结论与建议报告。这将大幅降低分析门槛,使新入职员工也能高效完成专业报告撰写。
要将大模型有效应用于工业场景,尚需完成大量基础工作。为避免大模型产生幻觉,需重视数据治理质量,并考虑大模型与专用数据分析模型的整合。
当前,大模型应用最为成熟且最广泛的两个场景如下:
知识库:最初应用于客服领域,现可扩展至其他工业环节,如设计、生产制造、运营等。以能源行业设备运维为例,知识库可在确保设备稳定运行的前提下,优化检修流程,提升效率并降低成本。然而,构建知识库并非一蹴而就,其实际效果需通过具体实践验证,而非仅凭部署即可实现。
ChatBI:在生产阶段应用广泛,主要解决生产过程中数据访问的痛点。在此场景中,大模型扮演程序员角色,编写SQL代码,实现数据的高效处理与分析。软件行业已普遍采用AI编程助手,显著提升了开发效率。这些场景是大模型落地最早且效果显著的领域。
工业企业需从自身流程中发掘适合大模型应用的环节,尤其是数据传递型与文档传递型的业务流程。政企领域文档系统流程较为常见,可借鉴其经验,探索适合大模型特质的业务场景。
大模型本质上是技术手段,而非具体场景。场景需具备明确角色、待解决问题及解决方案路径。若将大模型视为厂长秘书,思考其职责与任务,或能寻得切实可行的应用切入点。
服务
Copyright@2025昆仑智汇数据科技(苏州)有限公司 版权所有
北京市海淀区中关村东路8号东升大厦B座805AB