引子

一年前在粗略了解 Sora 之后发表了对通用人工智能(AGI) 的粗浅看法((见人工智能:Sora 随感),经过对 AGI 知识的学习之后,再次刷新对 Scaling Law、Transformer 以及智能/涌现的理解,因此有了此文以更新对这个知识点的“模型参数”(一年前我对 AGI 能否达到涌现是存疑的,现在转变为肯定)。都说大道至简,但精准简化岂是常人所能,我只好在通俗与严谨之间,弃严谨而取通俗。下面就是用通俗的方式来讲述我对人工智能架构主要思想的新理解。

Scaling Law 与涌现

Scaling Law 描述了数据规模、计算资源和模型参数对 AI 模型的影响。大模型之所要大,是因为只有当模型的训练(样本)数据和参数大到突破一定的临界值后,才可能涌现出一些不可预测、更复杂的能力和特性,而进行这样大规模的训练又依赖于大规模的计算资源。这等规模的模型能够从原始训练数据中自动学习并发现或发明新的、更高层次的特征和模式,这种能力被称为“涌现(Emergence)”。随着科技的进步,曾经被认为难以突破的计算和数据限制,将来一定会是可控和可实现的。从本质上讲,Scaling Law 不是决定 AI 智能形态的根本因素,而是影响其发展的资源门槛。但就像“巧妇难为无米之炊”,即使有再先进的模型架构,也需要规模足够大的数据和计算能力来达到涌现所需的阈值。此外,涌现现象的出现通常依赖于大规模个体之间的相互作用,只有在规模足够大的个体之间的非线性关系才可能催生出整体大于部分之和的智能表现。

Transformer 与智能

可以说世界是一个基于贝叶斯定理的概率(经验)大模型(推理在经验之上)。关于贝叶斯定理,多年以前我写过一篇《从贝叶斯定理说开去》的文章,互联网应该还有这个记忆。通俗地讲,贝叶斯定理就是根据新的观察结果来调整由过去学习到的经验概率值。比如:猎人在某片树林连续三天发现猎物群,于是猎人习得经验(逐天增加这片树林发现猎物的概率),当然猎物群也会调整自身的经验(逐步增加这片树林的危险性概率)。

展开说说经验与推理,西方经典哲学分两派:英国经验主义与大陆唯理主义。这可以用来类比大模型的两种实现思路:经验概率和逻辑推理,经验概率不是绝对可靠的,需要逻辑推理来引导和试错,两相结合就完美了。

因此智能可以简化理解为从环境中自主学习、调整和应用经验的能力。如果说 Scaling Law 解决大模型之“大”的问题(大才可能有足够多的相关性概率参数来突破涌现所需的阈值),那么 Transformer 就是要解决基于贝叶斯定理的概率问题,通俗地说就是解决经验问题(表现为智能,表征为模型参数):参数从哪来?参数怎么调整?参数怎么评估?参数怎么应用?参数怎么存储?Transformer 中的对这些问题的解决机制非常巧妙与精细,也非常专业,在此不展开细述(遇事不决,问 AI 啊)。下图是 Transformer 架构图。

Transformer 架构图

基于我对 Transformer 架构的理解,我认为智能和涌现在当前的知识密集型 AI 大模型中已经发生或者必将发生。因为 Transformer 的多个机制为智能和涌现提供了可能:

  • 自注意力机制(Self-Attention) 自注意力机制允许模型高效地(并行)在建立“词”(token,经词嵌入和位置嵌入之后,表示为词向量)与“词”之间的长距离(长程)关系(即某个模式下的相关性-用概率表示,调侃下就是用“你 jump 我也 jump ”的概率来表示关系铁不铁),使其能够捕捉隐含的模式和语义结构,尤其是多头自注意力机制能够全方位地在不同层面上进行捕捉,从而具备全面丰富的理解能力。例如,在文本生成过程中,模型能够学会创造类似藏头诗的结构。
  • 前馈神经网络的非线性变换(Feedforward Neural Networks) 前馈层的非线性激活函数使模型具备更强的表达能力,能够对输入进行高度非线性变换(发散),帮助模型捕捉复杂的语言模式,提高生成内容的多样性。
  • 多层深度结构(Deep Stacked Layers) Transformer 通过多层(六层)堆叠,使信息在层间传播和变换,每一层都对输入进行不同的加工。这种多层累积效应增加了模型的发散性和泛化能力。
  • 自回归生成机制(Autoregressive Generation) 在生成过程中,Transformer 通过自回归方式逐步构建文本,每一步生成都受到之前生成内容的影响。这种机制可能导致模型在某条路径上形成路径依赖,并在该路径不断扩展的新语境中自适应,类似演化论中的“变异累积”过程,使其能够探索新的模式和表达。

通俗来说,Transformer 的智能体现在“要有想法,又不能太离谱”;在数学上,这体现为“既要发散,又要收敛”;在实现上,这体现为“梯度既不能消失,又不能爆炸”。也就是说既要有足够的探索空间来发现新模式,又要有一定的约束来避免无意义的生成。用头脑风暴的过程来类比:第一阶段发散思维,探索尽可能多的可能性;第二阶段筛选和收敛,确保输出合理有用。在 Transformer 架构中,这一平衡由残差链接(保留原初信息,让发散有焦点)和层归一化(缩减差异,稳定/渐进学习过程)调控,从而确保生成结果既具有创造性,又不至于完全偏离预期。

GPT

GPT 系列大语言模型是站在 Transformer 的肩膀上,且只用解码器部分。它本质上就是一个用来估计文本概率分布的数学模型,它通过大规模预训练足够多的文本序列统计得到 token 在自然语言中不同维度上的相关性概率的数据库(基础模型),因此就能够根据已生成的文本,预测下一个最可能(概率最大)出现的汉字或单词。因而它是一种基于统计的概率模型。

展望

当今的大模型的主要成就还集中在知识密集型领域,但多模态模型和基于思维链的推理模型都已初具规模。以 AI 的发展速度,不用多久人形(具身)智能体便可以落地。到那时,人形智能体能自动从世界环境中获取数据、交互作用、积累经验,并因独特的成长轨迹习得独特的个体经验。无数这样的个体相互作用再涌现出某种非凡能力,这种能力有可能都不属于人类知识范围了。人形智能体的出现,还能给人留下了什么地盘?或许如康德给理性划界从而为信仰留出地盘一样,有了这些替人代劳部分功能的人形智能体,人类能更纯粹地思考人之所以为人的独特之处。所以,何以为人?康德式的道德律?意义信仰?亦或是欲望?