昆仑数据基于近年来在大模型领域的项目实践和工程经验,在“戏说工业数智化”直播间推出《工业企业DeepSeek修仙指南》系列直播,与大家共赴工业大模型“修仙”之旅。
以下为第二期直播内容摘要。
《第二期 聚灵筑基》
在最近的直播中,我们探讨了大模型的基本能力及其实际应用。大模型能够辅助知识获取、数据分析、决策建议、内容生成以及深入挖掘问题根源。对于工业企业而言,大模型的本地化部署已成为常态,且开源模型如DeepSeek逐渐成为主流选择。
选择试点项目时,绝大多数场景围绕知识库问答展开,因为知识检索是上层应用的基础。建议企业首先从外部应用入手,通过解决实际问题来建立内部信心。对于初学者,建议使用32b模型进行知识问答,以避免因模型能力不足导致的失败。随着经验的积累,可以进阶到数据库场景,利用大模型进行数据分析,此时建议使用70b左右的模型,以平衡能力与速度。虽然671b模型性能卓越,但成本较高,可根据实际需求考虑是否采用。
总之,大模型的应用应基于实际需求,逐步推进,以确保效果与成本的最优平衡。
2、GPU 这两年发展也很快,从商用层面来看,国产 GPU目前发展情况如何?
国产GPU当前的主要优势在于自主可控。关于GPU硬件与大模型的适配问题,尽管大模型软件栈多基于英伟达架构,但主流国产GPU厂商已在软件层面进行了兼容性扩展。只要厂商提供相应的驱动支持,例如将驱动集成于容器中并提供镜像,用户便能在其环境中实现无缝对接,或利用基于扩展的推理框架运行模型。建议各用户根据自身业务需求进行实际测试,以评估适配效果。
3、对于新入江湖的选手而言,需要去看看不同版本、不同品牌的大模型吗?
在初期阶段,选择大模型无需过度纠结,市面上主流的、性能较强的模型均可作为起点。初期可选用一个能力全面的模型,如同公司引入一位多才多艺的博士,既能处理复杂任务,也能承担基础工作,且大模型无情绪波动,稳定可靠。
当需要优化工作流时,可根据模型的特长进行分配。例如,若Cloud3.7在代码生成方面表现卓越,尽管成本较高,仍可将其用于关键任务。对于大模型和小模型均能胜任的任务,若两者效果相当,但小模型推理速度更快,可考虑在工作流中引入小模型以降低延迟。例如,70b模型生成代码需10秒,而7b模型仅需不到2秒,显著提升效率。
然而,这些优化措施并非初期必须,可随能力提升逐步实施。多模型比较和高阶用法可待后续探索。
4、要安装部署大模型,现在也有周边的很多工具,有什么简单好用的推荐吗?
选择模型时,可参考其官方主页推荐的框架进行测试。需理解推理框架不仅涉及将模型加载至GPU内存,还包括批处理、调度优化等复杂操作,这些优化使得专用推理框架优于通用工具如PyTorch。
对于初学者,无需深入探究这些技术细节,只需了解不同推理框架性能差异显著,并选择主流框架即可轻松上手。值得注意的是,Ollama框架适合个人实验而非项目开发。
总之,随着技术的快速迭代,建议选择主流框架,避免过度纠结于选择,以便更高效地进行模型推理和应用开发。
5、选好了底层大模型,也选好了要试点的场景,接下来做什么?
构建知识库是大模型在企业中应用的第一步,旨在为其注入垂直领域知识和企业专有知识。外挂知识库是一种简单且有效的方法,尽管并非唯一途径,但因其重要性,建议将其作为基础工作先行实施。
对于大多数企业而言,从知识问答系统、工具集成和数据库集成这三种基础能力入手是常见的选择。即使未来进行模型微调或从零构建大模型,外挂知识库的需求依然存在。
在开发大模型应用时,应掌握基本概念,如申请API密钥、使用OpenAI客户端调用模型、撰写有效提示词以及构建多步提示词工作流等。虽然开源框架可以加速开发进程,但过度依赖可能导致对底层原理的理解不足。因此,建议新手在体验开源框架的同时,系统学习大模型应用开发技术,以深化理解并提升开发能力。
6、有了底层大模型,做上层应用开发的时候,在筑基篇,还有哪些技术能力需要重视和加强?
大模型技术的核心可抽象为两个底层逻辑:提示词和工作流。提示词是调用大模型最直接的方式,其关键在于上下文(垂直领域知识)和案例(少样本提示),这些元素对于生成高质量输出至关重要。
工作流,曾被视为高阶应用,实则是基础能力。实际应用中,单一问答往往难以解决复杂业务问题,通常需要一套逻辑和工作流来支撑。技术限制,如上下文长度,使得任务分解成为必要。例如,信息抽取任务通过三步工作流——抽取本体、实例化实体、抽取关系——可显著提升效果。
多模态应用同样依赖于工作流。例如,为孩子学习英语的应用,首先将中文翻译成英文,然后生成对应图片,这样的多步流程能够提供更丰富的用户体验。因此,工作流技术在大模型应用开发中占据基础且重要的地位。
7、数据库应用这部分,需要一些什么基础能力?
在数据库问答场景中,核心目标是实现黑盒效果:用户提出问题,系统能从数据库中检索数据并生成答案。例如,询问“当前最畅销的产品”,这正是当前热门的CHAT BI产品所实现的功能,其市场需求旺盛,预示着该领域将迅速进入竞争激烈的红海市场。
实现这一功能的工作流大致分为三步:首先,将自然语言问题翻译为SQL查询;其次,使用Python执行该SQL查询;最后,将查询结果反馈给大模型以生成最终答案。其中,第一步最为关键,要求SQL语句的准确性,这需要底层思维的支持。想象大模型为一位同事,他需要了解数据库的位置、表结构、字段含义及业务知识,如专业术语“电流效率”等。
将这些需求转化为技术要求,首先需要进行元数据治理,确保对表结构和字段含义的准确理解。其次,通过知识库问答系统检索垂直领域知识,以确保对业务术语的准确解读。这两点是确保SQL生成准确性的必要条件。
理解这些原理对于开发高效的CHAT BI至关重要。如果仅依赖框架而不深入理解其背后的提示词和工作流设计,将难以进行有效的调优,导致效果不佳。因此,开发者应避免急功近利,深入理解技术细节,以实现更优的系统性能。
8、大模型风靡,如何评价和定义过去做的一些基础工作,包括数据治理、专有模型、机器学习小模型等?
在以往,数据治理常被视为一项既昂贵又难以显现成效的任务。然而,在大模型和CHAT BI的时代背景下,数据治理的重要性得到了理性回归。过去,数据治理完成后往往缺乏实际应用,而现在,一旦治理得当,便能迅速接入CHAT BI,显著提升问答效果。
大模型在企业中的应用,其效力和价值的体现,很大程度上依赖于前期基础工作的扎实程度。这些基础性工作,如数据治理、专用模型研发等,其重要性和必要性在大模型时代被进一步凸显。企业对于基础工作的投入,无论是深入还是浅尝,其成效在大模型的应用中都将迅速显现,从而使得这些基础工作的价值得到广泛认可和接纳。
时间关系,很多技术概念和选型今天无法一一展开,请大家继续关注“戏说工业数智化”直播间,我们会陆续分享一些实操经验和避坑指南。
服务
Copyright@2025昆仑智汇数据科技(苏州)有限公司 版权所有
北京市海淀区中关村东路8号东升大厦B座805AB