大模型技术在工业行业的应用探讨

来源: | 作者:pmod6d781 | 发布时间: 2024-10-09 | 719 次浏览 | 分享到:

其次需要对大模型的技术评价有一系列的指标体系，从实际应用的角度，通过测评报告做一轮初筛，然后考虑它的license是否可以开源商用，比如说同样是某品牌的大模型，1.5版本之前可以商用，最新的版本不可以，需要留意。再次，对中文的支持是否友好。

市面上很多大模型的研发企业在不断的快速更新版本，但对于行业企业应用，没必要对底层技术的发展追踪太紧，更没必要从底层开始研发。

接下来，第二步，以此为基础，将现有的通用模型与特定领域的需求相结合，训练特定语料，通过调整参数和技术路由来实现目标。当然在这一步，有很多的技术路线可选，从浅到深，从易到难，从效果差到效果好。

比较浅层次的调优或者客制化方式是提示工程，是通过改变问题的描述方式去影响模型内部的运行，从而改变它的输出。提示工程并没有改变模型本身，或者挖掘模型里蕴含的知识，本质上没有改变模型知识的边界。

再往前一步，做Embedding，就是在问问题的同时，将私有语料当做问题的上下文，一起发送给大模型，大模型基于这些上下文材料回答问题。这种方式也不会扩展基础模型的知识边界。

再往前一步，进入微调的阶段，对于一般企业来讲就稍微有点深了。类似于知识载体的回炉再造，在具备通识的基础上，将专业领域的语料大量输入，做小型的模型训练。从微调这一步开始，就需要GPU资源做数据处理了。

再往前一步，大多数企业就已经达不到了，几乎重建，这个在资源投入和技术难度身上要求太高。所以从应用层面，一般前面三步相对更实用。

五、考虑到实用性和竞技性，以技术路线二为例，继续推进，有哪些进一步的建议吗？

走第二种路线，科学道理很简单，但真正上手做的时候，会发现这是一个巨大的工程问题。除了刚才提到的底层大模型的选择，还有几个问题：

首先，准备语料。一般语料都是一个整体，为了能够把语料变成问题能参考的上下文，就要将语料做预处理，放到向量数据库，把它向量化，成为行业数据模型。这里就涉及语料怎么切分整理。各种word文档中，有一些文字语义相近，有一些语义关联较远，并不能通过一种完全自动化的方式去做，所以预处理的过程中，人的参与度还是很高。特别在梳理的过程中，会碰到以前的一些周边技术和老技术融到一起，会消耗非常多的精力。当然，全靠人工去做也做不完，还是有相应的一些工具和能力去辅助专家。语料本身质量的高低也会对工作量有一定的影响。

其次，刚才说的底层大模型是一种引擎，向量数据库也是一种数据存储引擎，那么还需要一个框架，把技术整合到一起，把分词的预处理结果管起来，然后基于一定的词库，给向量化存下来。这一步，基本上工程问题会大于科学问题。