大模型到底是怎么工作的（用人话讲）

📍 认识 AI 2/4 · 上一篇：← AI 是怎么走到今天的 · 下一篇：现在 AI 圈在卷什么 →

你按下回车那 3 秒，发生了什么

一只手指悬在回车键上，屏幕闪着橙色光

你在 ChatGPT 框里打「帮我写封请假邮件」，按回车。

等 3 秒。邮件出现。

这 3 秒里，模型到底干了什么？

不是查数据库——它内部没存任何具体的「请假邮件模板」。 不是拼模板——你提的奇葩问题它也能现编。 是一种很奇怪的操作——边猜边写，一个字一个字地把你的回答「生」出来。

上一篇我们讲了 70 年技术怎么走到今天。这一篇用 5 分钟讲清楚——大模型内部到底怎么转。

把 token、预训练、微调、RLHF、推理、上下文窗口 这 6 个术语全部用人话翻译一遍。

1. Token：模型不读字，读「积木」

你读这段文字是一个字一个字读。

模型不是。

模型先把你的句子拆成「token」——一种比字大、比词小的单位。例子：

「请假邮件」可能被拆成「请假」+「邮件」两个 token
「unbelievable」可能被拆成「un」+「believ」+「able」三个 token
一个英文常见单词通常 1 个 token，中文一个汉字大约 1.5-2 个 token

打个比方：积木。每个 token 是一块积木——模型把你的话拆成积木堆，处理完再用积木拼回输出。

为什么这么干：词汇表小很多（几万个 token 就能拼出几乎所有文字），训练起来效率高。

这也是为什么所有 AI 服务商按 token 收费——你听过的「GPT-4 一次对话花了 5000 token」就是这个东西。

2. 预训练：让模型读完整个互联网

模型的「智能」从哪里来？

答案简单也奇怪：把它丢到几十 TB 的文字资料里泡几个月，让它一次次预测「下一个 token 是什么」。

一个孩子坐在书架前戴着耳机听广播

打个比方：你想让小孩学会说话，不教语法书，直接让他听 24 小时英语广播听 10 年——他会自然学会语言规律。模型也是这套，只是「听」的是整个互联网（维基百科、书、论坛、新闻、代码、聊天记录……）。

这个过程叫 预训练（pre-training）——烧几百万到几亿美元算力，耗几周到几个月。Anthropic 训一次 Claude 大概要 5000-10000 张 H100 显卡跑两个月，电费就上千万。

训练完，模型有了基础语言能力：会写流畅的句子、会基本推理、知道这世界上有过什么人事物。

但它没人格、不懂礼貌、不知道怎么对话——这一步只学会了「下一个词最可能是什么」。

3. 微调：教模型守规矩

预训练完的模型就像一个饱读群书但不太会做人的怪学生——它知识够，但你叫它「写一封求职信」，它可能写到一半就跑题去给你讲求职信的历史。

一个学生在职场被 mentor 教规矩

微调（fine-tune）就是「再训练一小段」，让它学会特定任务的格式和规矩。

打个比方：饱读群书的学生进职场，需要再实习 3 个月学公司规矩——「邮件怎么写、会议怎么开、客户怎么聊」。微调干的就是这事儿。

预训练几个月，微调可能几小时。

4. RLHF：让模型学会「说人话」

光「微调」教格式还不够。模型还是可能写出语法完美但让人不舒服的回答——冷冰冰、自以为是、绕弯子。

OpenAI 想了个办法叫 RLHF（人类反馈强化学习），两步走：

训打分器：让真人对模型的回答打分（这个好 / 这个糟），用几万次打分训出一个「打分小模型」
用打分器调教主模型：让主模型不停生成回答，打分器评分，主模型逐渐学会「生成会被打分器打高分的回答」

妈妈在桌前耐心纠正孩子说话

打个比方：你刚学说话的孩子说「妈妈拿那个」，妈妈一直纠正「妈妈，请你帮我拿那个，谢谢」——孩子最后学会了怎么说人喜欢听的话。RLHF 干的也是这事，规模放大几百万倍。

最终效果：模型从「能生成文字的工具」变成「让人感觉自然在跟它聊天」。

—— ai-history 那篇里讲过：ChatGPT 之所以引爆全球，关键就是 RLHF 这一步。前面 GPT-3 早就有了，但没人愿意跟它聊天。RLHF 之后，所有人突然愿意了。

5. 推理：你提问那一刻，模型在算什么

终于讲到核心。

你按回车那 3 秒，模型做的事其实很简单——

根据你输入的所有 token，一个一个地预测下一个 token。

具体过程：

第 1 步：模型看你的全部输入「帮我写封请假邮件」，预测最可能的下一个 token——「亲」
第 2 步：模型现在看「帮我写封请假邮件亲」，预测下一个——「爱」
第 3 步：模型看「帮我写封请假邮件亲爱」，预测下一个——「的」
……
一直预测到模型自己决定「输出完了」（一个特殊的「停止 token」）

一个作家凭灵感一句句往下接小说，没有大纲

打个比方：你写小说时没有提前列大纲，纯粹凭灵感一句句往下接。模型生成回答也是这样——没有预先想好整段，是一个 token 一个 token 边猜边出。

冷知识：所以「同一个问题问两次，回答会不一样」就是这个原因——每次预测下一个 token 时有一定随机性。

6. 上下文窗口：模型的「短期记忆」上限

模型每次回答你时，能「同时看到」的输入有上限——这个上限叫 上下文窗口（context window），按 token 算。

主流模型现在的容量：

模型	上下文窗口	大约能装	用户体感
豆包 / 文心	32K-128K token	6-25 万中文字	聊半小时就开始忘事
ChatGPT 4 标准版	128K token	25 万中文字（≈ 半本《活着》）	聊一两个小时
Claude Opus 4.7	1M token	200 万中文字（≈ 一本《红楼梦》）	聊一整天都记得
DeepSeek V4	1M token	200 万中文字	聊一整天都记得

类比：上下文窗口是模型的短期记忆容量。聊得太久，老内容就会被「挤出去」——模型会忘掉最早说过的话。

这也是为什么 Claude Code + DeepSeek 能干豆包干不了的事——单次任务能装的内容差了 8-30 倍。

为啥重要：这决定了模型能处理多大的任务。1M 上下文意味着你可以一次性把整个软件项目扔进去让它分析。

7. 所以模型不是「会查的百科全书」

收尾用一个反直觉的事实——

很多人以为大模型像一本「巨大的百科全书」：你问什么，它从里面查出答案。

完全错了。

模型本身没有存任何具体内容。它存的是「token 之间应该如何接龙」的概率规则。

一个厨师正在自信地颠勺，没有看食谱

打个比方：

模型不是「背熟所有食谱」的厨子。它是「学会炒菜本质规律」的厨子——给它任何食材组合，它都能现场炒出一道菜。可能炒得对，也可能炒得不对（这就是 AI **「幻觉」**的来源——后面单独写一篇）。

所以你跟模型对话，每次的回答都是它当场算出来的，不是从哪里翻出来的。

这就是为什么它能回答你从来没人问过的问题，也是为什么它有时候自信满满地胡说八道。

—

下一篇我们看看：现在 AI 圈在卷什么？ 基础模型 / RAG / Agent / 多模态 / 推理模型 5 大方向，让你看清 Claude Code 在大图里的位置。

不记名、不需要注册——不要邮箱，不要手机号，不要任何身份信息，填个昵称就能留言。放心说。

加载中 …