跳转到内容

大模型到底是怎么工作的(用人话讲)

📍 认识 AI 2/4 · 上一篇:← AI 是怎么走到今天的 · 下一篇:现在 AI 圈在卷什么 →

你按下回车那 3 秒,发生了什么

Section titled “你按下回车那 3 秒,发生了什么”

一只手指悬在回车键上,屏幕闪着橙色光

你在 ChatGPT 框里打「帮我写封请假邮件」,按回车。

等 3 秒。邮件出现。

这 3 秒里,模型到底干了什么?

不是查数据库——它内部没存任何具体的「请假邮件模板」。 不是拼模板——你提的奇葩问题它也能现编。 是一种很奇怪的操作——边猜边写,一个字一个字地把你的回答「生」出来。

上一篇我们讲了 70 年技术怎么走到今天。这一篇用 5 分钟讲清楚——大模型内部到底怎么转。

token、预训练、微调、RLHF、推理、上下文窗口 这 6 个术语全部用人话翻译一遍。

1. Token:模型不读字,读「积木」

Section titled “1. Token:模型不读字,读「积木」”

你读这段文字是一个字一个字读。

模型不是。

模型先把你的句子拆成「token」——一种比字大、比词小的单位。例子:

  • 请假邮件」可能被拆成「请假」+「邮件」两个 token
  • unbelievable」可能被拆成「un」+「believ」+「able」三个 token
  • 一个英文常见单词通常 1 个 token,中文一个汉字大约 1.5-2 个 token

打个比方:积木。每个 token 是一块积木——模型把你的话拆成积木堆,处理完再用积木拼回输出。

为什么这么干:词汇表小很多(几万个 token 就能拼出几乎所有文字),训练起来效率高。

这也是为什么所有 AI 服务商按 token 收费——你听过的「GPT-4 一次对话花了 5000 token」就是这个东西。

2. 预训练:让模型读完整个互联网

Section titled “2. 预训练:让模型读完整个互联网”

模型的「智能」从哪里来?

答案简单也奇怪:把它丢到几十 TB 的文字资料里泡几个月,让它一次次预测「下一个 token 是什么」

一个孩子坐在书架前戴着耳机听广播

打个比方:你想让小孩学会说话,不教语法书,直接让他听 24 小时英语广播听 10 年——他会自然学会语言规律。模型也是这套,只是「听」的是整个互联网(维基百科、书、论坛、新闻、代码、聊天记录……)。

这个过程叫 预训练(pre-training)——烧几百万到几亿美元算力,耗几周到几个月。Anthropic 训一次 Claude 大概要 5000-10000 张 H100 显卡跑两个月,电费就上千万。

训练完,模型有了基础语言能力:会写流畅的句子、会基本推理、知道这世界上有过什么人事物。

但它没人格、不懂礼貌、不知道怎么对话——这一步只学会了「下一个词最可能是什么」。

预训练完的模型就像一个饱读群书但不太会做人的怪学生——它知识够,但你叫它「写一封求职信」,它可能写到一半就跑题去给你讲求职信的历史。

一个学生在职场被 mentor 教规矩

微调(fine-tune)就是「再训练一小段」,让它学会特定任务的格式和规矩。

打个比方:饱读群书的学生进职场,需要再实习 3 个月学公司规矩——「邮件怎么写、会议怎么开、客户怎么聊」。微调干的就是这事儿。

预训练几个月,微调可能几小时。

光「微调」教格式还不够。模型还是可能写出语法完美但让人不舒服的回答——冷冰冰、自以为是、绕弯子。

OpenAI 想了个办法叫 RLHF(人类反馈强化学习),两步走:

  1. 训打分器:让真人对模型的回答打分(这个好 / 这个糟),用几万次打分训出一个「打分小模型」
  2. 用打分器调教主模型:让主模型不停生成回答,打分器评分,主模型逐渐学会「生成会被打分器打高分的回答」

妈妈在桌前耐心纠正孩子说话

打个比方:你刚学说话的孩子说「妈妈拿那个」,妈妈一直纠正「妈妈,请你帮我拿那个,谢谢」——孩子最后学会了怎么说人喜欢听的话。RLHF 干的也是这事,规模放大几百万倍。

最终效果:模型从「能生成文字的工具」变成「让人感觉自然在跟它聊天」。

—— ai-history 那篇里讲过:ChatGPT 之所以引爆全球,关键就是 RLHF 这一步。前面 GPT-3 早就有了,但没人愿意跟它聊天。RLHF 之后,所有人突然愿意了。

5. 推理:你提问那一刻,模型在算什么

Section titled “5. 推理:你提问那一刻,模型在算什么”

终于讲到核心。

你按回车那 3 秒,模型做的事其实很简单——

根据你输入的所有 token,一个一个地预测下一个 token。

具体过程:

  • 第 1 步:模型看你的全部输入「帮我写封请假邮件」,预测最可能的下一个 token——「亲」
  • 第 2 步:模型现在看「帮我写封请假邮件 亲」,预测下一个——「爱」
  • 第 3 步:模型看「帮我写封请假邮件 亲爱」,预测下一个——「的」
  • ……
  • 一直预测到模型自己决定「输出完了」(一个特殊的「停止 token」)

一个作家凭灵感一句句往下接小说,没有大纲

打个比方:你写小说时没有提前列大纲,纯粹凭灵感一句句往下接。模型生成回答也是这样——没有预先想好整段,是一个 token 一个 token 边猜边出

冷知识:所以「同一个问题问两次,回答会不一样」就是这个原因——每次预测下一个 token 时有一定随机性。

6. 上下文窗口:模型的「短期记忆」上限

Section titled “6. 上下文窗口:模型的「短期记忆」上限”

模型每次回答你时,能「同时看到」的输入有上限——这个上限叫 上下文窗口(context window),按 token 算。

主流模型现在的容量:

模型上下文窗口大约能装用户体感
豆包 / 文心32K-128K token6-25 万中文字聊半小时就开始忘事
ChatGPT 4 标准版128K token25 万中文字(≈ 半本《活着》)聊一两个小时
Claude Opus 4.71M token200 万中文字(≈ 一本《红楼梦》)聊一整天都记得
DeepSeek V41M token200 万中文字聊一整天都记得

类比:上下文窗口是模型的短期记忆容量。聊得太久,老内容就会被「挤出去」——模型会忘掉最早说过的话。

这也是为什么 Claude Code + DeepSeek 能干豆包干不了的事——单次任务能装的内容差了 8-30 倍。

为啥重要:这决定了模型能处理多大的任务。1M 上下文意味着你可以一次性把整个软件项目扔进去让它分析。

7. 所以模型不是「会查的百科全书」

Section titled “7. 所以模型不是「会查的百科全书」”

收尾用一个反直觉的事实——

很多人以为大模型像一本「巨大的百科全书」:你问什么,它从里面查出答案。

完全错了

模型本身没有存任何具体内容。它存的是「token 之间应该如何接龙」的概率规则。

一个厨师正在自信地颠勺,没有看食谱

打个比方:

模型不是「背熟所有食谱」的厨子。它是「学会炒菜本质规律」的厨子——给它任何食材组合,它都能现场炒出一道菜。可能炒得对,也可能炒得不对(这就是 AI **「幻觉」**的来源——后面单独写一篇)。

所以你跟模型对话,每次的回答都是它当场算出来的,不是从哪里翻出来的

这就是为什么它能回答你从来没人问过的问题,也是为什么它有时候自信满满地胡说八道。

下一篇我们看看:现在 AI 圈在卷什么? 基础模型 / RAG / Agent / 多模态 / 推理模型 5 大方向,让你看清 Claude Code 在大图里的位置。

评论

不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。

  • 加载中 …