昆仑数据基于近年来在大模型领域的项目实践和工程经验,在“戏说工业数智化”直播间推出《工业企业DeepSeek修仙指南》系列直播,与大家共赴工业大模型“修仙”之旅。
第一期:工业企业DeepSeek修仙指南之灵根觉醒--一窥DeepSeek基础知识门径
第二期:工业企业DeepSeek修仙指南之聚灵筑基--参悟大模型选型和核心能力
以下为《第三期--私有知识库和数据智能BI修炼心法》的直播内容摘要。
在模型选型中,核心原则是在条件允许范围内选择最优模型。初学者若选用性能不足的模型,将难以区分问题是源于模型能力、数据质量还是方案设计,容易挫伤信心。
针对工业场景,需建立系统化评估机制。以CHAT BI为例,应构建专项测试数据集,通过预设任务(如代码生成)的问答样本进行量化评测。经验表明:
千问2.5-72B模型具备可用性,可以作为基线参考
千问3-32B在保持相近性能(代码生成能力约为千问2.5-72B水平)的同时降低50%成本
代码场景下,千问3-32B略逊于千问2.5-72B,经调优可满足需求
推荐优先选用千问2.5-72B或千问3-102B级模型作为主力,避免降档选择以确保效果基线。
模型切换已成为常规操作,当前主流推理接口(如OpenAI兼容协议)已高度标准化。例如,千问3发布后,我们仅用20分钟即完成部署并上线运行。由于采用SGL/VRM等标准化框架,接口一致,系统可无缝切换。
适配阶段需验证原有提示词在新模型上的表现。通常,若原提示词设计合理(结构化清晰),迁移至更强模型时效果仍能保持,因现代模型的泛化能力显著提升。若新模型表现不佳,可能是其自身能力问题,而非提示词设计缺陷。
实际经验表明,向高性能模型迁移的过程较为顺畅。但若要构建健壮的管理系统,仍需提前准备:
数据迁移:确保训练/推理数据兼容性
测试集验证:通过标准测试集量化新模型表现
建议将模型切换视为持续优化流程,而非一次性工程。
中国工业企业正从代工和引进转向自主创新,产品设计、工艺设计等知识日益成为核心资产。然而,这些知识往往高度私有化,甚至局限于个人层面——例如,某工艺的文档可能仅由负责人掌握,导致隐性知识难以传承或有效利用,最终随人员流失而消失。
大模型技术可通过构建知识库,将隐性知识显性化,实现两大价值:
知识留存:避免因人员流动导致的知识流失
协作提效:降低跨部门沟通成本,并可部分授权客户访问,提升服务响应能力
知识库的“私有化”本质在于将隐性知识转化为可管理的显性资产。实际应用中,需在敏感性与开放性间动态平衡:
极端情况:个人私有知识库(完全封闭)↔ 多方共享知识库(完全开放)
现实路径:根据行业特性与发展阶段,在两者间寻找适配的开放度
这一转型不仅是技术升级,更是企业知识管理模式的革新,其重要性将持续凸显。
分域治理是知识管理的基本原则知识需按业务领域(如财务、生产)及敏感等级分库管理,其优势在于:
提升检索精度:垂直领域知识集中,减少噪声干扰
细化权限控制:不同库可独立配置访问权限,保障数据安全
知识库是大模型应用的筑基能力,尽管知识库常被视为初级场景(技术门槛低,可快速搭建),但其战略价值在于:
支撑高阶任务:智能体任务分解(如良率分析需调用物料/工序/设备知识)、故障诊断(依赖历史报告与阈值规则)等复杂场景,均需通过RAG从知识库获取上下文
承载专家逻辑:归因分析、决策判断等本质是知识库中结构化经验的调用
知识库并非终点,而是企业智能化转型的底层能力。其价值随应用深入持续显现——越复杂的业务场景,越依赖知识库的体系化支撑。需以基建思维长期投入,而非简单视作问答工具。
构建企业知识库是一个需要精细化操作的过程,主要包含解析、切分、索引和检索四个关键环节,每个环节都有深度优化的空间。
在解析阶段,不同格式的文档需要针对性处理。例如,PDF解析相对简单,但OCR文本识别则需要持续调优精度,尤其是面对扫描版文档时,细微的识别误差都可能影响后续流程。
文档切分策略直接影响知识库的可用性。通用的滑窗切分(如每512字符)虽然便捷,但容易破坏上下文连贯性。更合理的做法是根据文档特性定制切分规则:图书可以按章节划分,而国标文档则适合按照其固有结构(如"检修原则—检修步骤—验收标准")切分,必要时还可融入领域知识优化切分点。
索引的构建方式决定了知识调用的效率。从简单的一维索引到多维关联(如FAQ问答对、知识图谱索引),复杂度越高,查询灵活性越强。
检索环节是知识库的核心,涉及语义检索、关键词匹配、混合检索等多种方式,并可结合排序(Ranking)策略优化结果。最终效果取决于召回率和准确率——能否精准返回最相关的前几条结果。这一过程涉及大量调优,例如向量空间的分布会影响相似度阈值设定:若向量分布较散,阈值可适当调高;若过于密集,则需调整模型增强区分度。
尽管这些技术并非全新,但结合大模型后,知识库的语义理解和推理能力显著提升,使其在工业场景中发挥更大价值。知识库不仅是存储工具,更是企业隐性知识显性化的重要基础设施,值得持续投入优化。
工业企业知识库建设应聚焦业务应用而非技术实现,技术部分建议交由专业团队负责。核心在于结合领域特性进行深度优化,而非通用化处理。以设备维检知识库为例,专业团队会构建针对性索引体系:将设备层级(整机/子模块)、检修阶段(事前/事中/事后)等工业特征融入索引结构,使"离心泵检修"等查询能精准定位到对应设备层级的规程。
不同领域需要定制化索引模板。生产工艺知识库按生产要素构建索引,质量管控文档则按检测指标建立关联。这种领域适配使知识库从简单的向量存储演进为半结构化知识体系,既保留语义理解能力,又强化业务逻辑表达。
工业场景的优势在于领域封闭性,为技术优化提供了明确边界。团队需持续跟踪向量模型等底层技术演进,同时继承企业已有的知识图谱、元数据治理成果。实践证明,传统数据治理经验在大模型时代正焕发新价值——结构化知识与神经网络能力的结合,正在创造更精准可靠的工业知识系统。
工业知识库的核心在于精准检索而非全能解答,其职责边界需要明确定义。知识库的本质是一个高精度检索函数——输入关键词,输出最相关的3条结果。至于复杂问题的拆解(如对比A/B差异、论文总结等),应由上层智能体(Agent)完成分解-检索-合成的流程。
常见误区在于期望知识库"一步到位"解决复杂问题。例如对比产品A/B特性,正确做法是由Agent先拆解对比维度,再分多次调用知识库检索,最后合成结论。这种分层架构设计才能实现精准响应。
工业场景的特殊性在于:效果优劣不取决于知识库本身,而是整体设计质量。包括文档切分策略(如按设备模块或工艺环节划分)、索引优化(领域特征嵌入)、查询方式优化等系统性工作。这些需要专业团队针对具体业务场景深度定制,绝非简单部署开源工具就能实现。
需特别注意:知识库不是原始数据仓库,它的价值在于提炼知识而非存储数据。企业若将未经处理的原始数据直接导入,只会得到低效的检索结果。真正的工业级知识库建设,需要严谨的领域知识结构化过程和技术架构设计。
CHAT BI本质上是一种知识处理能力,而非简单的问答应用。它将数据和文本统一视为知识的不同形态,都需要经过系统化治理才能被有效利用。
数据治理同样需要"向量化"处理,使其能被大模型理解和使用,而非简单堆砌在数据库中。真正的工业场景中,用户需要的不是原始数据查询(如产量、良率等),而是带有业务语义的智能分析。例如,当产线出现批量不良时,系统应能结合知识库的工艺标准和实时质量数据,通过智能体(Agent)拆解问题、组织流程,最终给出根因分析和决策依据。
这种能力的实现依赖于分层架构:底层是结构化的知识和数据,上层由Agent负责问题拆解和流程调度。CHAT BI的价值不在于单一功能,而在于将数据和知识转化为可推理、可行动的智能服务。
大模型访问数据库的核心流程分为两大关键步骤:首先将自然语言转换为精确的SQL查询语句,然后执行查询并将结果表返回给大模型进行分析。其中第一步的准确度调优是重中之重,其核心思路可以类比培养新人数据分析师的过程。
调优的首要工作是对数据库进行业务语义标注。这包括为每个字段添加业务含义说明、计量单位等元数据,本质上是对业务语言的数据治理。例如"voltage"字段需要标注为"设备工作电压,单位:伏特"。企业若已完成此类数据治理工作,将在大模型应用中占据先发优势。
其次需要提供查询经验指导,包括:多表关联查询的路径说明;关键业务指标的获取逻辑;典型查询案例示范。
这些知识最终都会整合到提示词工程中。实践证明,只要提供足够准确的上下文信息,大模型生成的SQL质量完全可以达到专业人员水平。整个调优过程本质上是通过系统化的知识注入,弥补大模型对特定业务场景的理解缺口。
关于工业大模型的技术探讨与应用挑战,欢迎继续关注昆仑数据“戏说工业数智化”直播间。