第0层:数字根基——用0/1表示张量

一切上层建筑都扎根于此。

  • 张量就是多维数组:标量是0维,向量是1维,矩阵是2维,更高维的通称张量。
  • 每个张量中的数字,最终在内存里都是用0/1编码的浮点数(如IEEE 754标准)。当你看到一个参数“0.342”,它在硬件上就是一串比特。
  • 张量运算(矩阵乘法、加法、卷积、点积等)最终会被分解为海量的标量乘加操作,由CPU/GPU中的逻辑门和ALU完成。GPU的张量核就是专门加速这种运算的硬件块。

所以,AI的“物理层”就建立在现有计算机的0/1之上——它不是重新发明晶体管,而是把0/1组织成高维数字数组,并极致优化它们之间的线性代数运算。


第1层:学习引擎——自动微分与梯度下降

光有张量运算,只能做固定公式的计算器。要让机器从数据中自动调整那些0/1的值,需要一套“学习算法”。

核心机制是:
1. 前向传播:把输入张量经过一层层运算(先随机初始化所有参数)算出预测结果。
2. 计算损失:用一个损失函数(例如“预测词”和“真实词”的交叉熵)衡量预测有多差,结果是一个标量。
3. 反向传播(自动微分):从损失往回,应用链式法则,自动算出损失相对于每一个参数张量的梯度。这一步完全是张量微积分,不需要人工推导。
4. 梯度下降更新参数:参数 = 参数 - 学习率 × 梯度。本质就是在内存里精细地加加减减那些0/1,使下次预测的损失降低一点点。

这一套组合拳,就是让0/1自我修正的“发动机”。整个AI的大厦都建立在这个可微分编程范式之上。


第2层:神经积木——层与激活函数

把第1层的操作封装成标准的“乐高块”:

  • 线性层(全连接层)Y = W·X + b,就是一个矩阵乘法加偏置。W和b是待优化的张量。
  • 卷积层:用可学习的滤波器张量在输入上滑动,提取局部特征。
  • 激活函数(ReLU、GELU等):对张量逐元素做非线性映射,让模型能拟合复杂函数。
  • 归一化层(层归一化、批归一化):稳定训练,调整张量的分布。
  • 自注意力机制:现代语言模型的灵魂。给定输入张量,分别生成Query、Key、Value三个张量,通过 softmax(Q·K^T / √d) · V 计算序列中每个位置对其他位置的关注度。这完全是大规模张量乘法和指数运算。

此时我们有了“神经元”、“注意力”这些抽象,但它们本质上依然是对一堆0/1组成的浮点数组进行确定性的数学变换。


第3层:架构图纸——Transformer堆叠

把第2层的积木按蓝图组装,就得到了影响深远的Transformer架构

一个大语言模型(如GPT)的Transformer解码器,由数十到上百个结构相同的层串行堆叠而成。每一层内部:

  • 多头自注意力(让模型看清上下文)
  • 前馈网络(两个线性层+激活,进行知识存储和变换)
  • 残差连接 + 层归一化(让梯度和信号平稳流动)

此时得到一个空壳:架构有了,但所有参数张量(现在动辄上千亿个浮点数)还是随机值或零,生成的内容纯属乱码。它需要一个灵魂——那就是由数据雕刻而成的参数。


第4层:知识注入——海量预训练

把互联网级别的文本转换成0/1可处理的形态:
1. 分词:用分词器把自然语言切分成子词,并映射为整数ID序列(例如“人工智能”→[456, 789])。这是自然语言进入张量世界的桥梁
2. 嵌入:每个整数ID通过嵌入矩阵查表,变成固定长度的浮点数向量。输入序列就变成了一个形状为(批大小 × 序列长度 × 隐藏维度)的大张量
3. 训练任务:下一个词预测。模型读前文,吐出一个概率分布(softmax输出),预测下一个词是什么。然后和真实的下一词做交叉熵损失。
4. 反向传播更新万亿参数。在成千上万块GPU上运行数个月,每一步都在微调那些0/1。随着损失不断下降,参数张量中逐渐编码进语法规则、事实知识、推理模式甚至某种“世界模型”。

训练完成后的成果,是保存在硬盘上的一大块二进制文件——基座模型。它本身只是巨量的0/1,但结构化的参数值使它能够补全任意文本。


第5层:行为对齐——指令微调与人偏好学习

基座模型只会“续写文本”,不会“回答问题”。要变成可用自然语言对话的助手,还需要行为塑造:

  • 有监督微调:人工构造大量“用户提问→理想回答”的对话数据,用同样的梯度下降让模型模仿这种一问一答的格式。此时,参数张量被进一步修改,模型学会“对话”的范式。
  • 人类反馈强化学习:让模型对同一问题生成多个回答,由人类评委打分排序。训练一个“奖励模型”来模拟人的偏好,再用强化学习(如PPO算法)去更新模型参数,让它输出的回答更能让人满意——更准确、更安全、更有用。

这几步依然是在对那数千亿个浮点数做精细的加减调整,但效果是把知识从“存储态”转化为“交互态”,从只会做下一词预测的补全引擎,变成了能听从指令的对话智能体。


第6层:推理时刻——自然语言的来回

当我们打开Chatbot,输入一句话时,发生的情形是:
1. 分词/嵌入:输入文本瞬间转成整数ID,再查表映射为张量。
2. 模型前向传播:张量穿过几十层Transformer,每一步执行万亿次乘加运算(由底层逻辑门阵列完成),在最后一层输出一个向量,经softmax变成下一个词的概率分布。
3. 自回归生成:从概率分布中采样或选择最优的一个词ID,把它拼接到输入末尾,形成新的序列,再次喂入模型。如此循环,直到生成结束符。
4. 解码:产生的ID序列通过分词器反向映射回自然语言文本,输出在屏幕上。

整个过程从你按下回车到得到回复,可能在几百毫秒内完成,本质上是让精心编排好的0/1张量在GPU里疯狂流动、运算。


全景图:人工智能的“0/1栈”

类比于计算机的硬件分层,人工智能的智能栈可以总结为:

计算机硬件栈 人工智能栈
晶体管、逻辑门 0/1编码 + 张量表示(IEEE 754浮点数组)
ALU、寄存器、指令集 张量基本运算(矩阵乘、加法、激活、Softmax)
微架构、功能部件 自动微分引擎 + 优化器(反向传播、AdamW)
汇编/硬件抽象层 神经网络基础层(全连接、注意力、归一化)
操作系统、驱动 深度学习框架(PyTorch、JAX,管理张量运算和梯度)
应用软件 模型架构 + 训练策略(Transformer + 预训练/微调/RLHF)
用户界面、Shell 自然语言接口(分词↔解码、多轮对话管理)

所有所谓“智能”的涌现,没有一个超出0/1变换的物理范畴。但妙处就在于:通过把简单门电路组成的通用计算机作为土壤,再层层堆叠可微分的张量运算、自动优化算法、大容量架构和海量数据,最终铸成一台能从0/1中学习并理解自然语言的庞大虚拟机。 这正是从最底层“0/1”实现从0到1建立AI的全过程。