1、回顾AI发展史,深蓝、AlphaGo和ChatGPT为什么能破圈?答:深蓝让人第一次感觉到计算机靠算力和算法可以战胜人。当时硬件配置受限,人们对计算机的期望值并没有那么高,认为算力的堆砌也是有极限的,而解国际象棋的算法也没有围棋复杂,所以热度过去之后,并没有掀起广泛的参与。但那之后,从2000年开始,一批算法逐渐兴起,例如统计学习、决策树等等,进入了算法百花齐放的时间段。
而AlphaGo在更复杂的围棋界能够异军突起,是因为在算力突破的基础上又叠加了Buff,用上了深度学习、强化学习和Monte Carlo树搜索,用神经元的方式硬把层数增加,在深蓝的基础上把围棋的问题解决了。几年的时间,从遇强则强到所向披靡,进步神速。
当下,ChatGPT的风靡,则是因为生成式AI,可以按照人类发出的指令来生成相应的内容,给了人们很多意料之外的惊喜,展示出了大模型的威力。上述三波人工智能的出圈,都在一定程度上突破了固有认知,点燃了人们心中的火种。
2、红极一时的AI技术,后来都应用到了哪些行业、哪些场景?
答:AlphaGo之后,首当其冲受到影响的是围棋行业,新手练级的对象都变成了AI;其次,强化学习在竞技游戏行业使用也很广泛,只要计算机能模拟输赢的过程,用强化学习、延迟的奖赏机制、Monte
Carlo等策略的仿真,再加上一些价值函数的回溯,总会做得不错。所以强化学习很擅长打的游戏,哪怕没有预制的游戏动作画面上下文模型,像素级也能打。计算机的游戏水平也随之也有了质的变化。另外,在机器人控制领域,在线仿真学习最佳控制策略,也是一种有效尝试,这种尝试也进一步拓展到了基于离线数据的控制优化领域。
3、揭秘ChatGPT背后的大语言模型,如何实现智能对话?
ChatGPT所使用的GPT-3技术是一种基于transformer的大语言模型,这个模型本质是自回归的、前后依赖的、强上下文的。
从本质上讲,图像是多尺度的数据,所以CNN等模型非常适合,而语言是有前后依赖关系的序列,所以需要具有自回归或刻画上下文依赖能力的模型。GPT模型的原理是在前面输入一段前缀语句,后面接哪些词的概率比较高,接上之后再往不断迭代,一直接到ta认为可以停止的位置。与其他AI模型相比,ChatGPT有个天然的优势,所有互联网上的文字,包括论坛、文献、新闻、小说等等,都可以成为模型的训练素材。
过去,语言的刻画,过去常用LSTM和RNN等自回归模型,问题是并行化不好,得把一条语句整理完再到下一句,且一旦句子太长,长依赖关系就不容易处理好。
后来出现了两个技术革新,一个是Embedding,把枚举的离散量变成了低纬度的连续量,就可以更好地表征两个词之间的相似度;第二个是Attention注意力机制(特别是self-attention),解决哪个词和哪个词之间更相关。80年代语音识别中的一个大突破就是用隐马尔可夫等模型去刻画词语间的管理,但HMM表达能力有限。用attention注意力机制,叠加神经网络的强逼近能力以及positioning等,组成transformer,就能更好地解决这个问题。
GPT技术从2018年演进至今,经历了多个版本的迭代。与之同期,GOOGLE也研发了一个大语言模型BERT,引入了Mask机制,在一个完整的句子中掩盖掉某些字段,用大量的“语料”投喂,来猜测并补充完整语义,适用于文本理解。而ChatGPT是生成式的,有了前面的一句话,下一句话应该怎么接,更适合聊天,交互性更好。
生成代码:代码不一定对,但能提供一定的启示,例如R或者Python里的很多函数有很多种用法,而每个人的使用习惯不同,有的可能平时不经常被用到。
ChatGPT毕竟是一个数据驱动的模型,遇到在ta的训练数据涵盖不够的领域,尤其是涉及很多工业专业深度的内容,很可能会“一本正经地胡说八道”。使用ChatGPT小贴士:如果不关心准确性/对话质量,可以放心使用;如果有足够的专业知识可以判断ta的准确性,那么ta可以辅助你很快梳理一套框架或启发一些思考;再或者,你抱着怀疑的态度,可以将ta回复的一些专业术语摘出来,重新搜索学习,再做判断。
这次ChatGPT给人最直观的感觉是,原来算力可以这么牛。
算法方面,相比于服务器用的电费来说,ChatGPT算法显得朴实无华,其相关算法其实学术界一直在做。算法本身并不复杂,但需要特定的语义和程序,也需要强化学习。
数据方面,大语言模型的数据来源非常广泛,ChatGPT在既有可用资料库的基础上,还雇佣了很多劳动力给数据打标签,才有了今天的聊天效果。当然,作为一家商业公司,能用这么大的网络和大量的算力支撑ChatGPT的使用,背后还是有很多关键技术的,比如巨型GPU集群、高性能通讯、高性能计算等等。
6、ChatGPT的横空出世,对学术界和产业界有什么冲击?
首先,对学术界冲击很大。现在有一个“有失偏颇”的观点是产业界的研究院干过了学界的研究院。
其实,二者定位不一样,一个是以探索和教育为主,可以接受探索成功或是失败;另一个是做工程化产业化的研究和应用推广,但是研究的种子大多起源于学界的探索。贝尔实验室、微软研究院、IBM研究院等等产业研究院在计算机发展的进程中确实起到了很大的推进作用,但同样不能否定学界过去多年的努力。
另一方面,对NLP自然语言处理的研究也将产生一些改变。过去大家都是“散装”研发,做分词、语义理解、语音识别等等,每个细分的研究分支都各有突破。比如之前IBM在语音识别领域提出隐马尔可夫模型,是很有意义的创新。
而这次Transformer集大成之后,一定程度上会改变学界对NLP这一领域的研究重心,在基础理论之外,超聚合能力的大模型会引发更多的关注。产业界和学术界在研究领域的社会分工,也会产生一定的变化,但需要多年以后才能体现出来。
7、人工智能在工业领域的既有应用效果如何?ChatGPT会否有一席之地?
比如计算机视觉用在表面质量检测、安全作业识别,机器人在某种程度上也有一部分AI技术,还有故障诊断、异常诊断、异常预警、专家知识挖掘,以及调度优化等等,都已经有比较成熟的应用。
强化学习在仿真相对靠谱(与现实逼近)的场景下应用效果都很不错。而故障诊断代表工业场景走在时尚前沿,每次出了什么新算法,马上就有人应用于故障诊断,相关论文会很快刊出。
人工智能三要素,要看当前工业场景下,到底瓶颈在算力、算法还是数据。目前大部分困难都不在算力。算力用得巧妙,也能解决一些实际问题,例如,用机器学习或者深度学习的模型,去把工业中一些复杂高保真的模型复制下来,然后(算力)大力出奇迹,有些问题就可以用蒙特卡洛法模拟之后,给出一些优化路径。
以ChatGPT为代表的AIGC技术在特定的工业领域经过训练打磨后,可能会成为某种领域顾问,但其背后肯定有专业的知识图谱和强机理的领域模型做支撑。先把问题定位好,再以AIGC的人机对话方式去回复。例如油井出问题,可以怀疑地层、设备、油、天气、措施等等,专家做诊断也需要方方面面的数据做对比,很难有固定的判断范式。通过机理模型、专家知识和数据的关联整合,就可以有比较好的框架和判断方向,再用AIGC局部发挥。基于文本的报告、案例、工单等等,结合特定行业、特定设备做的垂直领域的AIGC应用,在数量级上和ChatGPT有显著的差异,但是实用性会更好。针对某一具象业务问题,结合与设备/场景关联的上下文,用先验知识、时序数据、图像数据等去补齐文本数据缺失的信息,会辅助我们更精准地找到背后的根因和解决方案,而不仅仅停留在“正确的废话”。毕竟工业领域中的高质量对话,不仅仅停留在“可共情、可生成”,而是更强调可解决问题的能力。