直播回顾｜私有知识库和数据智能BI修炼心法

来源: | 作者:pmod6d781 | 2025-05-22 | 870 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

昆仑数据基于近年来在大模型领域的项目实践和工程经验，在“戏说工业数智化”直播间推出《工业企业DeepSeek修仙指南》系列直播，与大家共赴工业大模型“修仙”之旅。

第一期：工业企业DeepSeek修仙指南之灵根觉醒--一窥DeepSeek基础知识门径

第二期：工业企业DeepSeek修仙指南之聚灵筑基--参悟大模型选型和核心能力

以下为《第三期--私有知识库和数据智能BI修炼心法》的直播内容摘要。

Q1：有很多客户会选择从一两个应用或者场景开始试点商用大模型，比如做一个 CHAT BI或者知识库，要选择一个什么类型什么规模的底层模型？

在模型选型中，核心原则是在条件允许范围内选择最优模型。初学者若选用性能不足的模型，将难以区分问题是源于模型能力、数据质量还是方案设计，容易挫伤信心。

针对工业场景，需建立系统化评估机制。以CHAT BI为例，应构建专项测试数据集，通过预设任务（如代码生成）的问答样本进行量化评测。经验表明：

千问2.5-72B模型具备可用性，可以作为基线参考
千问3-32B在保持相近性能（代码生成能力约为千问2.5-72B水平）的同时降低50%成本
代码场景下，千问3-32B略逊于千问2.5-72B，经调优可满足需求

推荐优先选用千问2.5-72B或千问3-102B级模型作为主力，避免降档选择以确保效果基线。

Q2：由于大模型快速迭代，在大模型选型的讨论之上，企业从技术建设架构、可扩展性或灵活性的角度，需要考虑些什么？

模型切换已成为常规操作，当前主流推理接口（如OpenAI兼容协议）已高度标准化。例如，千问3发布后，我们仅用20分钟即完成部署并上线运行。由于采用SGL/VRM等标准化框架，接口一致，系统可无缝切换。

适配阶段需验证原有提示词在新模型上的表现。通常，若原提示词设计合理（结构化清晰），迁移至更强模型时效果仍能保持，因现代模型的泛化能力显著提升。若新模型表现不佳，可能是其自身能力问题，而非提示词设计缺陷。

实际经验表明，向高性能模型迁移的过程较为顺畅。但若要构建健壮的管理系统，仍需提前准备：

数据迁移：确保训练/推理数据兼容性
测试集验证：通过标准测试集量化新模型表现

建议将模型切换视为持续优化流程，而非一次性工程。

Q3：利用大模型构建本地的知识库是一个很热门的应用，也是很多高阶应用的基础，如何看待大模型和本地知识库私有性之间的关系？

中国工业企业正从代工和引进转向自主创新，产品设计、工艺设计等知识日益成为核心资产。然而，这些知识往往高度私有化，甚至局限于个人层面——例如，某工艺的文档可能仅由负责人掌握，导致隐性知识难以传承或有效利用，最终随人员流失而消失。

大模型技术可通过构建知识库，将隐性知识显性化，实现两大价值：

知识留存：避免因人员流动导致的知识流失
协作提效：降低跨部门沟通成本，并可部分授权客户访问，提升服务响应能力

知识库的“私有化”本质在于将隐性知识转化为可管理的显性资产。实际应用中，需在敏感性与开放性间动态平衡：

极端情况：个人私有知识库（完全封闭）↔ 多方共享知识库（完全开放）
现实路径：根据行业特性与发展阶段，在两者间寻找适配的开放度

这一转型不仅是技术升级，更是企业知识管理模式的革新，其重要性将持续凸显。

Q4:知识库的构建和访问，可以根据权限和问答要求做分区处理吗？

分域治理是知识管理的基本原则知识需按业务领域（如财务、生产）及敏感等级分库管理，其优势在于：

提升检索精度：垂直领域知识集中，减少噪声干扰
细化权限控制：不同库可独立配置访问权限，保障数据安全

知识库是大模型应用的筑基能力，尽管知识库常被视为初级场景（技术门槛低，可快速搭建），但其战略价值在于：

支撑高阶任务：智能体任务分解（如良率分析需调用物料/工序/设备知识）、故障诊断（依赖历史报告与阈值规则）等复杂场景，均需通过RAG从知识库获取上下文
承载专家逻辑：归因分析、决策判断等本质是知识库中结构化经验的调用

知识库并非终点，而是企业智能化转型的底层能力。其价值随应用深入持续显现——越复杂的业务场景，越依赖知识库的体系化支撑。需以基建思维长期投入，而非简单视作问答工具。

Q5：为什么说RAG 虽然入门简单，但是做深很难？

构建企业知识库是一个需要精细化操作的过程，主要包含解析、切分、索引和检索四个关键环节，每个环节都有深度优化的空间。

在解析阶段，不同格式的文档需要针对性处理。例如，PDF解析相对简单，但OCR文本识别则需要持续调优精度，尤其是面对扫描版文档时，细微的识别误差都可能影响后续流程。

文档切分策略直接影响知识库的可用性。通用的滑窗切分（如每512字符）虽然便捷，但容易破坏上下文连贯性。更合理的做法是根据文档特性定制切分规则：图书可以按章节划分，而国标文档则适合按照其固有结构（如"检修原则—检修步骤—验收标准"）切分，必要时还可融入领域知识优化切分点。

索引的构建方式决定了知识调用的效率。从简单的一维索引到多维关联（如FAQ问答对、知识图谱索引），复杂度越高，查询灵活性越强。

检索环节是知识库的核心，涉及语义检索、关键词匹配、混合检索等多种方式，并可结合排序（Ranking）策略优化结果。最终效果取决于召回率和准确率——能否精准返回最相关的前几条结果。这一过程涉及大量调优，例如向量空间的分布会影响相似度阈值设定：若向量分布较散，阈值可适当调高；若过于密集，则需调整模型增强区分度。

尽管这些技术并非全新，但结合大模型后，知识库的语义理解和推理能力显著提升，使其在工业场景中发挥更大价值。知识库不仅是存储工具，更是企业隐性知识显性化的重要基础设施，值得持续投入优化。

Q6：从工业实践上来讲，怎么样去衡量一个度？从哪开始，后面不断去迭代和优化？

工业企业知识库建设应聚焦业务应用而非技术实现，技术部分建议交由专业团队负责。核心在于结合领域特性进行深度优化，而非通用化处理。以设备维检知识库为例，专业团队会构建针对性索引体系：将设备层级（整机/子模块）、检修阶段（事前/事中/事后）等工业特征融入索引结构，使"离心泵检修"等查询能精准定位到对应设备层级的规程。

不同领域需要定制化索引模板。生产工艺知识库按生产要素构建索引，质量管控文档则按检测指标建立关联。这种领域适配使知识库从简单的向量存储演进为半结构化知识体系，既保留语义理解能力，又强化业务逻辑表达。

工业场景的优势在于领域封闭性，为技术优化提供了明确边界。团队需持续跟踪向量模型等底层技术演进，同时继承企业已有的知识图谱、元数据治理成果。实践证明，传统数据治理经验在大模型时代正焕发新价值——结构化知识与神经网络能力的结合，正在创造更精准可靠的工业知识系统。

Q7：知识库检索机制对于有效信息的完备性采集显然是不够的，如何优化？或者说是不是有一些场景就不适合用 RAG 来做？

工业知识库的核心在于精准检索而非全能解答，其职责边界需要明确定义。知识库的本质是一个高精度检索函数——输入关键词，输出最相关的3条结果。至于复杂问题的拆解（如对比A/B差异、论文总结等），应由上层智能体(Agent)完成分解-检索-合成的流程。

常见误区在于期望知识库"一步到位"解决复杂问题。例如对比产品A/B特性，正确做法是由Agent先拆解对比维度，再分多次调用知识库检索，最后合成结论。这种分层架构设计才能实现精准响应。

工业场景的特殊性在于：效果优劣不取决于知识库本身，而是整体设计质量。包括文档切分策略（如按设备模块或工艺环节划分）、索引优化（领域特征嵌入）、查询方式优化等系统性工作。这些需要专业团队针对具体业务场景深度定制，绝非简单部署开源工具就能实现。

需特别注意：知识库不是原始数据仓库，它的价值在于提炼知识而非存储数据。企业若将未经处理的原始数据直接导入，只会得到低效的检索结果。真正的工业级知识库建设，需要严谨的领域知识结构化过程和技术架构设计。

Q8：大模型在工业现场和实时的生产系统打通，又会衍生出很多新应用形态，比如CHAT BI实时问答系统，目前有哪些应用挑战？

CHAT BI本质上是一种知识处理能力，而非简单的问答应用。它将数据和文本统一视为知识的不同形态，都需要经过系统化治理才能被有效利用。

数据治理同样需要"向量化"处理，使其能被大模型理解和使用，而非简单堆砌在数据库中。真正的工业场景中，用户需要的不是原始数据查询（如产量、良率等），而是带有业务语义的智能分析。例如，当产线出现批量不良时，系统应能结合知识库的工艺标准和实时质量数据，通过智能体(Agent)拆解问题、组织流程，最终给出根因分析和决策依据。

这种能力的实现依赖于分层架构：底层是结构化的知识和数据，上层由Agent负责问题拆解和流程调度。CHAT BI的价值不在于单一功能，而在于将数据和知识转化为可推理、可行动的智能服务。

Q9:从CHAT BI数据系统本身的构建上，有哪些建议？

大模型访问数据库的核心流程分为两大关键步骤：首先将自然语言转换为精确的SQL查询语句，然后执行查询并将结果表返回给大模型进行分析。其中第一步的准确度调优是重中之重，其核心思路可以类比培养新人数据分析师的过程。

调优的首要工作是对数据库进行业务语义标注。这包括为每个字段添加业务含义说明、计量单位等元数据，本质上是对业务语言的数据治理。例如"voltage"字段需要标注为"设备工作电压，单位：伏特"。企业若已完成此类数据治理工作，将在大模型应用中占据先发优势。

其次需要提供查询经验指导，包括：多表关联查询的路径说明；关键业务指标的获取逻辑；典型查询案例示范。

这些知识最终都会整合到提示词工程中。实践证明，只要提供足够准确的上下文信息，大模型生成的SQL质量完全可以达到专业人员水平。整个调优过程本质上是通过系统化的知识注入，弥补大模型对特定业务场景的理解缺口。

关于工业大模型的技术探讨与应用挑战，欢迎继续关注昆仑数据“戏说工业数智化”直播间。

工业AI紫领

公司动态

电话：400-680-5007

昆仑数据简介

关于我们

产品和案例

K2工业智能平台

北京 · 苏州 · 成都

工业大数据创新中心

邮箱：customer@k2data.com.cn

扫码获得更多内容

联系我们，获取高效服务

成功案例

公司地址：