引子

一年前在粗略了解 Sora 之后发表了对通用人工智能(AGI) 的粗浅看法(见人工智能:Sora 随感),经过对 AGI 知识的学习之后,再次刷新对 Scaling Law、Transformer 以及智能/涌现的理解,因此有了此文以更新对这个知识点的“模型参数”(一年前我对 AGI 能否达到涌现是存疑的,现在转变为肯定)。都说大道至简,但精准简化岂是常人所能,我只好在通俗与严谨之间,弃严谨而取通俗。下面就是用通俗的方式来讲述我对人工智能架构主要思想的新理解。

Scaling Law 与涌现

Scaling Law 描述了数据规模、计算资源和模型参数对 AI 模型的影响。大模型之所要大,是因为只有当模型的训练(样本)数据和参数大到突破一定的临界值后,才可能涌现出一些不可预测、更复杂的能力和特性,而进行这样大规模的训练又依赖于大规模的计算资源。这等规模的模型能够从原始训练数据中自动学习并发现或发明新的、更高层次的特征和模式,这种能力被称为“涌现(Emergence)”。随着科技的进步,曾经被认为难以突破的计算和数据限制,将来一定会是可控和可实现的。从本质上讲,Scaling Law 不是决定 AI 智能形态的根本因素,而是影响其发展的资源门槛。但就像“巧妇难为无米之炊”,即使有再先进的模型架构,也需要规模足够大的数据和计算能力来达到涌现所需的阈值。此外,涌现现象的出现通常依赖于大规模个体之间的相互作用,只有在规模足够大的个体之间的非线性关系才可能催生出整体大于部分之和的智能表现。

Transformer 与智能

可以说世界是一个基于贝叶斯定理的概率(经验)大模型(推理在经验之上)。关于贝叶斯定理,多年以前我写过一篇《从贝叶斯定理说开去》的文章,互联网应该还有这个记忆。通俗地讲,贝叶斯定理就是根据新的观察结果来调整由过去学习到的经验概率值。比如:猎人在某片树林连续三天发现猎物群,于是猎人习得经验(逐天增加这片树林发现猎物的概率),当然猎物群也会调整自身的经验(逐步增加这片树林的危险性概率)。

展开说说经验与推理,西方经典哲学分两派:英国经验主义与大陆唯理主义。这可以用来类比大模型的两种实现思路:经验概率和逻辑推理,经验概率不是绝对可靠的,需要逻辑推理来引导和试错,两相结合就完美了。

因此智能可以简化理解为从环境中自主学习、调整和应用经验的能力(反思过去、改变现在、规划未来)。如果说 Scaling Law 解决大模型之“大”的问题(大才可能有足够多的相关性概率参数来突破涌现所需的阈值),那么 Transformer 就是要解决基于贝叶斯定理的概率问题,通俗地说就是解决经验问题(表现为智能,表征为模型参数):参数从哪来?参数怎么调整?参数怎么评估?参数怎么应用?参数怎么存储?Transformer 中的对这些问题的解决机制非常巧妙与精细,也非常专业,在此不展开细述(遇事不决,问 AI 啊)。

通俗解读 Transformer 架构

Transformer 架构图


上图是 Transformer 架构图,下面我以一群红学爱好者研读和续写《红楼梦》为类比对这个架构图进行通俗的解读。

1. 自注意力机制 → 大观园诗社品评会

想象一下大观园内一群红学爱好者组成品评社,将所有《红楼梦》词句都制作成考据卡片(词向量),同时对所有卡片进行研读解析。当解析"黛玉葬花"时:

  • 分席研读:品评社分设八张茶案(多头注意力),一席专研葬花词韵律,一席考据花锄形制,一席探讨谶语隐喻,终将各席见解汇成《葬花十论》。
  • 全局索引:“葬花"自动关联第五回"花冢”、二十七回"泣残红",如同全局雷达可以扫描全文查找互文线索(长程依赖)。

2. 位置编码 → 脂批本页码钤印

为防止混淆章回时序:

  • 位置编码:每张考据卡片背后加注出处信息:本子+回数+段落,如"甲戌本第三回第十段"。
  • 周期性特征编码:不同版本(如甲戌本、程乙本、蒙府本)用青赤墨色区分(正弦波编码的周期性特征)。

3. 前馈神经网络 → 金陵十二钗品藻堂

每完成一轮研讨后,带着解读成果进入下一轮研读(分层迭代,逐层抽象):

  • 特质解经:将"宝钗"拆解为"冷香丸药理"、“金锁谶语”、“蘅芜苑陈设"等维度(GeLU激活的特征提取:特征放大镜),如同将"冷香丸"分解为白牡丹花蕊、白荷花蕊等十二味药材。
  • 芜杂筛除:剔除如"黛玉用药中的人参是否产自辽东"等细枝末节,保留"疾病作为命运隐喻"的核心命题(特征蒸馏:噪声过滤器)。

4. 残差连接 → 程乙本朱丝栏夹批

  • 底本存真:必须在原本上直接写批注(残差连接),不能另起新纸,防止偏离原文而导致过度阐释(语义漂移)。
  • 体例规整:在每一层研读完成后,按《校勘学通则》(层归一化公式)调整特征值分布,使"诗词鉴赏分"与"器物考据分"处于可比量纲。这确保不会因为某一席的研读过于精彩而剑走偏锋。

5. 自回归生成 → 芹溪草堂续书接龙

仿高鹗续写后四十回:

  • 前文锁钥:续写"黛玉之死"时后续稿页封存(掩码机制),仅可参看前八十回伏笔。
  • 笔削春秋:若有人续"宝玉修仙”,系统自动改为"宝玉中举",如同脂砚斋批"此回未成而芹逝矣"的遗憾修补。

6. 智能表现 → 脂砚斋大数据评点

模型智慧源于红学百年积淀:

  • 套路总结:统计十万条脂批发现"凡’赤瑕宫’出现必关联’宝玉疯癫’"(注意力模式挖掘)。
  • 笔补造化:要求"描绘潇湘馆AI设计图",系统融合"竹影纱窗+药炉棋枰+鹦鹉念诗"(跨模态生成),如同将大观园图样与《园冶》营造法式结合。

​为什么这套机制能成功?

这套机制能成功运作的关键在三组学术张力的平衡:

  • 索隐与实证:注意力机制允许"索隐派"式发散联想(如将"甄士隐"解读为"真事隐"),残差连接确保不违"作者本意"(文本约束)
  • 微观与宏观:既见"晴雯病补雀金裘"(局部特征),又悟"千红一哭"悲剧基调(全局视野)
  • 流派与共识:各注意力头如不同红学流派(评点派、考证派、索引派),最终通过加权投票形成主流阐释

Transformer 本质是大数据驱动的统计智能。其运作机制就好比组建了一个超级红学研究团队:有考据达人(自注意力)、有版本比对家(位置编码)、有主题提炼师(前馈网络)、有体例规范官(层归一化),所有人都遵循《红楼梦校勘学》(Transformer架构),产出既承曹雪芹本真、又具当代精神的续书方案。这种智能,在总体效果上就是达成文献学与阐释学的动态平衡——既能考据"枫露茶事件"版本异文,又能提炼"悲金悼玉"的永恒母题。这在红学中体现为"大胆探佚,小心求证";在数学上对应"既要发散(拓展阐释维度),又要收敛(遵循文本边界)";工程上实现为"在多轮讨论迭代的梯度中寻求最优续写路径"。也就是说既要有足够的探索空间来发现新模式,又要有一定的约束来避免无意义的生成。用头脑风暴的过程来类比:第一阶段发散思维,探索尽可能多的可能性;第二阶段筛选和收敛,确保输出合理有用。


GPT

GPT 系列大语言模型是站在 Transformer 的肩膀上,且只用解码器部分。它本质上就是一个用来估计文本概率分布的数学模型,它通过大规模预训练足够多的文本序列统计得到 token 在自然语言中不同维度上的相关性概率的数据库(基础模型),因此就能够根据已生成的文本,预测下一个最可能(概率最大)出现的汉字或单词。因而它是一种基于统计的概率模型

展望

当今的大模型的主要成就还集中在知识密集型领域,但多模态模型和基于思维链的推理模型都已初具规模。以 AI 的发展速度,不用多久人形(具身)智能体便可以落地。到那时,人形智能体能自动从世界环境中获取数据、交互作用、积累经验,并因独特的成长轨迹习得独特的个体经验。无数这样的个体相互作用再涌现出某种非凡能力,这种能力有可能都不属于人类知识范围了。人形智能体的出现,还能给人留下了什么地盘?或许如康德给理性划界从而为信仰留出地盘一样,有了这些替人代劳部分功能的人形智能体,人类能更纯粹地思考人之所以为人的独特之处。所以,何以为人?康德式的道德律?意义信仰?亦或是欲望?