AI 是怎么走到今天的(5 分钟看懂 70 年发展史)
📍 认识 AI 1/4 · 下一篇:大模型到底是怎么工作的 →
70 年,只为这一刻
Section titled “70 年,只为这一刻”
2022 年 11 月 30 日,一个叫 ChatGPT 的网页上线。
5 天后,它有了 100 万用户。
| 产品 | 达到 100 万用户用时 |
|---|---|
| Netflix | 3 年半 |
| 10 个月 | |
| 2.5 个月 | |
| ChatGPT | 5 天 |
这数据放进整个互联网史,一个字——离谱。
但你可能想过这个问题:为什么是 2022?不是 2010,不是 1995,不是 1980?
AI 这事儿其实是 1950 年就开始的。憋了 70 年才憋出这一刻。
5 分钟,我带你看一遍。
1950 年代 —— 一个英国人和一个奇怪的问题
Section titled “1950 年代 —— 一个英国人和一个奇怪的问题”1950 年的某个下午,阿兰·图灵坐在曼彻斯特大学的办公室里,盯着一台体积像衣柜的电子计算机发呆。

他刚在二战中破解了德军的恩尼格玛密码机——电影《模仿游戏》演的就是他。战后他闲下来,开始想一个奇怪的问题——
这玩意儿,能不能学会思考?
他给出了测试方法:把一个人和一台机器各关进一间屋子,你坐在外面跟两个人打字聊天,如果你分不出哪个是机器,那就算这机器「会思考」了——这就是著名的「图灵测试」。
那时候世界上还没有「人工智能」这个词。直到 1956 年,一群学者在美国达特茅斯学院开了个夏季会议,把这门学科定名为 Artificial Intelligence——AI 的元年。
会议上他们乐观地预测:20 年内,机器就能完成人类能做的任何脑力工作。
后来的故事证明:他们错了整整半个世纪。
第一波 —— 把人类专家的脑子,硬塞给机器
Section titled “第一波 —— 把人类专家的脑子,硬塞给机器”第一代 AI 走的路线特别朴素:人类懂什么,就写下来塞给机器。
想做诊断疾病的 AI?把所有「症状 → 病名」规则编出来——发烧+咳嗽+喉咙痛 → 感冒;胸痛+左臂麻 → 心脏病……写完几万条,机器就能像查字典一样诊断。
这种东西叫 专家系统。听起来挺酷,但很快碰壁——
打个比方:你要做一本两万页的医学厚词典,每翻一次只能匹配一个症状组合。医生看你三秒钟就懂的事,机器要翻五分钟,还查不全——因为现实里的症状组合无穷无尽。规则手册里没写的情况,机器一脸蒙圈。
70 年代末,资金、热情、研究人员同时枯竭。这就是历史书里写的「AI 第一次寒冬」。
第二波 —— Hinton 守了 20 年冷板凳
Section titled “第二波 —— Hinton 守了 20 年冷板凳”新方向叫 神经网络,反方向走——不写规则,让机器自己学。
灵感来自大脑。大脑里几百亿神经元互相连接,没人「告诉」它该怎么想,可它就是会思考。能不能在电脑里模拟这种网络,让机器自己从数据里悟出规律?
比如教机器认猫——不告诉它「猫有四条腿、毛茸茸、会喵」,而是丢给它 10 万张猫的图、10 万张不是猫的图,让它自己琢磨出「猫是什么」。
理论很美。关键算法(叫反向传播——就是「让机器一次次试错、自动纠错」的数学方法)1974 年就有人提了。1986 年,Geoffrey Hinton 和几个同事在论文里把它真正用到了神经网络上。
然后呢?没动静了,一停就是 20 年。
三座大山压着:算力不够(训练一个网络要算上亿次,电脑可能要算一整周)、数据不够(互联网没普及,哪儿弄 10 万张猫的图)、学术圈不信(神经网络被嘲笑成「玄学」,发论文都难)。
只有 Hinton 这种倔脾气的人不放弃,在加拿大多伦多大学守着这条冷门路线几十年。剧透一下结局:他熬到了 2024 年拿诺贝尔物理学奖——「冷板凳坐穿封神」本人。
2012 年 —— 救了 AI 的,是打游戏的人
Section titled “2012 年 —— 救了 AI 的,是打游戏的人”这是全文最戏剧性的反转。
显卡(GPU)本来是渲染 3D 游戏画面用的,跟 AI 八杆子打不着。但它有个特别能耐:能同时算几千次数学运算(普通 CPU 一次只能算几条)。
Hinton 的博士生 Alex Krizhevsky(跟另一个学生 Ilya Sutskever、加上 Hinton 自己,组成三人小团队)注意到了:神经网络的训练,不就是「大量数学乘法」吗?
2012 年的 ImageNet 大赛——从 120 万张图里认出 1000 种物体——成了引爆点。
2011 年全行业最好成绩:错误率 26%。
Alex 在自家卧室里,两张游戏显卡嗡嗡响了一个礼拜,做出了一个叫 AlexNet 的系统。

错误率:15%。
这不是赢了一点点。这是碾压——三个人 + 两张游戏卡,碾压了 Google、微软几十人的专业团队。
「深度学习」时代由此开始。AI 突然变得有用——会认图、会语音、会翻译。但还局限在单一任务上:会认猫的不会下棋,会下棋的不会写文章。
2017 年 —— 一篇没人转发的论文
Section titled “2017 年 —— 一篇没人转发的论文”2017 年 6 月的一个深夜,arXiv(免费论文上传站)上多出一篇新文章。
标题狂得理直气壮:《Attention Is All You Need》(你需要的只是「注意力」)。
没什么人转发。没什么人讨论。但几年后所有人才反应过来:那天 AI 的命运被改写了。
这篇论文提出了一种新的神经网络架构(机器思考的内部蓝图),叫 Transformer。
它解决了之前模型的两个老毛病:
老毛病 1:长文本读得慢,长距离效果还打折——之前的模型只能一个字一个字按顺序读。Transformer 让每个字跟所有其他字同时打个招呼,抓得住全局。
这个机制叫「注意力」(attention)。打个比方:你读一本小说,本能就知道哪几个角色重要、哪段对话是关键——你脑子里也有一种「注意力」机制。Transformer 让模型也学会了。
老毛病 2:训练慢得离谱——旧模型必须按顺序处理,不能并行。Transformer 一次性把整段输入扔进去,所有词同时处理,可以用几千张 GPU 并行训练。
后来你听过的所有大模型——GPT、Claude、Gemini、DeepSeek、Llama——无一例外都基于 Transformer。
2018-2022 —— OpenAI 梭哈,撞出了「涌现」
Section titled “2018-2022 —— OpenAI 梭哈,撞出了「涌现」”OpenAI 看完 Transformer 论文,直接梭哈。
他们做了越来越大的模型:
- GPT-1(2018):1.17 亿参数——模型「可调旋钮的数量」,越多越能拟合复杂规律
- GPT-2(2019):15 亿参数,能写完整文章
- GPT-3(2020):1750 亿参数——开始让人毛骨悚然
涌现:模型大到一定程度,会自己长出新能力
Section titled “涌现:模型大到一定程度,会自己长出新能力”研究员发现:GPT-3 居然能做多位数加法——尽管训练它的人压根没专门教过它做数学。给几个例子(「23+45=68,9+17=26」),它就能跟着做新题。再过一段,发现它还能跟着指令做逻辑推理、写代码、解古文……一项接一项的「新技能」自己冒出来。
这个现象就叫 「涌现」(emergence)。打个比方:你养了一只猫,每天就喂它吃饭睡觉。突然某天回家,它学会了自己打开冰箱拿火腿肠——你从来没教过,它自己悟的。

没人能完全解释为什么。
2022 年的临门一脚:让模型学会「跟人说话」
Section titled “2022 年的临门一脚:让模型学会「跟人说话」”2022 年 OpenAI 加了关键一步:RLHF(人类反馈强化学习)。两步走——
- 训打分器:让真人对模型回答打分(这个好、那个烂),用几万次打分训出一个能给答案评分的「小模型」
- 用打分器调主模型:让主模型学会生成「打分器会打高分」的答案
这一步把模型从「能生成文字的工具」变成了「懂得跟人对话的助手」。
11 月 30 日,ChatGPT 上线。然后就是开头那张图——5 天 100 万用户,地球被点着。
2022 至今 —— Agent 时代来了
Section titled “2022 至今 —— Agent 时代来了”ChatGPT 引爆后 3 年发生的事,比之前 70 年还密集:
| 年份 | 事件 |
|---|---|
| 2023 | GPT-4、Claude 2、Gemini 1 上线,三巨头格局形成 |
| 2024 | 开源模型(免费下载自己跑)崛起:Llama、Mistral、DeepSeek(国产之光) |
| 2024 | 多模态全面到位:模型从只能读文字升级到能看图、看视频、生成图像 |
| 2025 | 推理模型出现(如 DeepSeek R1、OpenAI o1):会先「内心思考」几十秒再答,比张口就来准得多 |
| 2026 | Agent 时代:Claude Code、Cursor 让 AI 不只是回答问题,而是真的替你干活——读文件、跑命令、改代码 |
最后这一行——Agent 时代——就是你看这个站的当下。
为什么是现在
Section titled “为什么是现在”回到开头那个问题:为什么是 2022 年,不是 1990 或 2010?
这就像火药——
硝石、硫磺、木炭,三样东西早就有了。但要凑齐完美配方、还要找到合适的引信,人类花了一千年。

AI 的「火药配方」需要 4 样东西:
- 架构:Transformer(2017)—— 让大模型可训练
- 算力:GPU 大规模集群 —— 能撑起千亿参数训练
- 数据:互联网积累 30 年的文本、图片、代码
- 对齐:RLHF(2022)—— 让模型学会跟人说话
前 3 样 2020 年 GPT-3 时其实已经齐了,但模型不会跟人对话,只能算研究玩具。2022 年 RLHF 是最后那根引信。
1990 年算力不够。2010 年架构不对。2022,引信终于点燃。
你现在用 Claude Code,本质上是骑在这 70 年技术积累的肩上。下一篇我们看:大模型到底是怎么工作的?「token」「预训练」「微调」那些名词全部用人话解释一遍。
评论
不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。