跳转到内容

AI 是怎么走到今天的(5 分钟看懂 70 年发展史)

📍 认识 AI 1/4 · 下一篇:大模型到底是怎么工作的 →

ChatGPT 上线后一周,全世界涌入

2022 年 11 月 30 日,一个叫 ChatGPT 的网页上线。

5 天后,它有了 100 万用户。

产品达到 100 万用户用时
Netflix3 年半
Facebook10 个月
Instagram2.5 个月
ChatGPT5 天

这数据放进整个互联网史,一个字——离谱

但你可能想过这个问题:为什么是 2022?不是 2010,不是 1995,不是 1980?

AI 这事儿其实是 1950 年就开始的。憋了 70 年才憋出这一刻。

5 分钟,我带你看一遍。

1950 年代 —— 一个英国人和一个奇怪的问题

Section titled “1950 年代 —— 一个英国人和一个奇怪的问题”

1950 年的某个下午,阿兰·图灵坐在曼彻斯特大学的办公室里,盯着一台体积像衣柜的电子计算机发呆。

图灵在曼彻斯特大学办公室对着早期电子计算机沉思

他刚在二战中破解了德军的恩尼格玛密码机——电影《模仿游戏》演的就是他。战后他闲下来,开始想一个奇怪的问题——

这玩意儿,能不能学会思考?

他给出了测试方法:把一个人和一台机器各关进一间屋子,你坐在外面跟两个人打字聊天,如果你分不出哪个是机器,那就算这机器「会思考」了——这就是著名的「图灵测试」。

那时候世界上还没有「人工智能」这个词。直到 1956 年,一群学者在美国达特茅斯学院开了个夏季会议,把这门学科定名为 Artificial Intelligence——AI 的元年。

会议上他们乐观地预测:20 年内,机器就能完成人类能做的任何脑力工作。

后来的故事证明:他们错了整整半个世纪。

第一波 —— 把人类专家的脑子,硬塞给机器

Section titled “第一波 —— 把人类专家的脑子,硬塞给机器”

第一代 AI 走的路线特别朴素:人类懂什么,就写下来塞给机器

想做诊断疾病的 AI?把所有「症状 → 病名」规则编出来——发烧+咳嗽+喉咙痛 → 感冒;胸痛+左臂麻 → 心脏病……写完几万条,机器就能像查字典一样诊断。

这种东西叫 专家系统。听起来挺酷,但很快碰壁——

打个比方:你要做一本两万页的医学厚词典,每翻一次只能匹配一个症状组合。医生看你三秒钟就懂的事,机器要翻五分钟,还查不全——因为现实里的症状组合无穷无尽。规则手册里没写的情况,机器一脸蒙圈

70 年代末,资金、热情、研究人员同时枯竭。这就是历史书里写的「AI 第一次寒冬」。

第二波 —— Hinton 守了 20 年冷板凳

Section titled “第二波 —— Hinton 守了 20 年冷板凳”

新方向叫 神经网络,反方向走——不写规则,让机器自己学。

灵感来自大脑。大脑里几百亿神经元互相连接,没人「告诉」它该怎么想,可它就是会思考。能不能在电脑里模拟这种网络,让机器自己从数据里悟出规律?

比如教机器认猫——不告诉它「猫有四条腿、毛茸茸、会喵」,而是丢给它 10 万张猫的图、10 万张不是猫的图,让它自己琢磨出「猫是什么」。

理论很美。关键算法(叫反向传播——就是「让机器一次次试错、自动纠错」的数学方法)1974 年就有人提了。1986 年,Geoffrey Hinton 和几个同事在论文里把它真正用到了神经网络上。

然后呢?没动静了,一停就是 20 年。

三座大山压着:算力不够(训练一个网络要算上亿次,电脑可能要算一整周)、数据不够(互联网没普及,哪儿弄 10 万张猫的图)、学术圈不信(神经网络被嘲笑成「玄学」,发论文都难)。

只有 Hinton 这种倔脾气的人不放弃,在加拿大多伦多大学守着这条冷门路线几十年。剧透一下结局:他熬到了 2024 年拿诺贝尔物理学奖——「冷板凳坐穿封神」本人

2012 年 —— 救了 AI 的,是打游戏的人

Section titled “2012 年 —— 救了 AI 的,是打游戏的人”

这是全文最戏剧性的反转。

显卡(GPU)本来是渲染 3D 游戏画面用的,跟 AI 八杆子打不着。但它有个特别能耐:能同时算几千次数学运算(普通 CPU 一次只能算几条)。

Hinton 的博士生 Alex Krizhevsky(跟另一个学生 Ilya Sutskever、加上 Hinton 自己,组成三人小团队)注意到了:神经网络的训练,不就是「大量数学乘法」吗?

2012 年的 ImageNet 大赛——从 120 万张图里认出 1000 种物体——成了引爆点。

2011 年全行业最好成绩:错误率 26%

Alex 在自家卧室里,两张游戏显卡嗡嗡响了一个礼拜,做出了一个叫 AlexNet 的系统。

Alex Krizhevsky 在卧室用两张游戏显卡训练 AlexNet(2012)

错误率:15%

这不是赢了一点点。这是碾压——三个人 + 两张游戏卡,碾压了 Google、微软几十人的专业团队。

深度学习」时代由此开始。AI 突然变得有用——会认图、会语音、会翻译。但还局限在单一任务上:会认猫的不会下棋,会下棋的不会写文章。

2017 年 —— 一篇没人转发的论文

Section titled “2017 年 —— 一篇没人转发的论文”

2017 年 6 月的一个深夜,arXiv(免费论文上传站)上多出一篇新文章。

标题狂得理直气壮:《Attention Is All You Need》(你需要的只是「注意力」)。

没什么人转发。没什么人讨论。但几年后所有人才反应过来:那天 AI 的命运被改写了

这篇论文提出了一种新的神经网络架构(机器思考的内部蓝图),叫 Transformer

它解决了之前模型的两个老毛病:

老毛病 1:长文本读得慢,长距离效果还打折——之前的模型只能一个字一个字按顺序读。Transformer 让每个字跟所有其他字同时打个招呼,抓得住全局。

这个机制叫「注意力」(attention)。打个比方:你读一本小说,本能就知道哪几个角色重要、哪段对话是关键——你脑子里也有一种「注意力」机制。Transformer 让模型也学会了。

老毛病 2:训练慢得离谱——旧模型必须按顺序处理,不能并行。Transformer 一次性把整段输入扔进去,所有词同时处理,可以用几千张 GPU 并行训练。

后来你听过的所有大模型——GPT、Claude、Gemini、DeepSeek、Llama——无一例外都基于 Transformer。

2018-2022 —— OpenAI 梭哈,撞出了「涌现」

Section titled “2018-2022 —— OpenAI 梭哈,撞出了「涌现」”

OpenAI 看完 Transformer 论文,直接梭哈。

他们做了越来越大的模型:

  • GPT-1(2018):1.17 亿参数——模型「可调旋钮的数量」,越多越能拟合复杂规律
  • GPT-2(2019):15 亿参数,能写完整文章
  • GPT-3(2020):1750 亿参数——开始让人毛骨悚然

涌现:模型大到一定程度,会自己长出新能力

Section titled “涌现:模型大到一定程度,会自己长出新能力”

研究员发现:GPT-3 居然能做多位数加法——尽管训练它的人压根没专门教过它做数学。给几个例子(「23+45=68,9+17=26」),它就能跟着做新题。再过一段,发现它还能跟着指令做逻辑推理、写代码、解古文……一项接一项的「新技能」自己冒出来。

这个现象就叫 「涌现」(emergence)。打个比方:你养了一只猫,每天就喂它吃饭睡觉。突然某天回家,它学会了自己打开冰箱拿火腿肠——你从来没教过,它自己悟的。

涌现:猫自己学会了打开冰箱拿火腿肠

没人能完全解释为什么。

2022 年的临门一脚:让模型学会「跟人说话」

Section titled “2022 年的临门一脚:让模型学会「跟人说话」”

2022 年 OpenAI 加了关键一步:RLHF(人类反馈强化学习)。两步走——

  1. 训打分器:让真人对模型回答打分(这个好、那个烂),用几万次打分训出一个能给答案评分的「小模型」
  2. 用打分器调主模型:让主模型学会生成「打分器会打高分」的答案

这一步把模型从「能生成文字的工具」变成了「懂得跟人对话的助手」

11 月 30 日,ChatGPT 上线。然后就是开头那张图——5 天 100 万用户,地球被点着。

ChatGPT 引爆后 3 年发生的事,比之前 70 年还密集:

年份事件
2023GPT-4、Claude 2、Gemini 1 上线,三巨头格局形成
2024开源模型(免费下载自己跑)崛起:Llama、Mistral、DeepSeek(国产之光)
2024多模态全面到位:模型从只能读文字升级到能看图、看视频、生成图像
2025推理模型出现(如 DeepSeek R1、OpenAI o1):会先「内心思考」几十秒再答,比张口就来准得多
2026Agent 时代:Claude Code、Cursor 让 AI 不只是回答问题,而是真的替你干活——读文件、跑命令、改代码

最后这一行——Agent 时代——就是你看这个站的当下。

回到开头那个问题:为什么是 2022 年,不是 1990 或 2010?

这就像火药——

硝石、硫磺、木炭,三样东西早就有了。但要凑齐完美配方、还要找到合适的引信,人类花了一千年

三样原料早就有了,差的只是那根点燃的火柴

AI 的「火药配方」需要 4 样东西:

  • 架构:Transformer(2017)—— 让大模型可训练
  • 算力:GPU 大规模集群 —— 能撑起千亿参数训练
  • 数据:互联网积累 30 年的文本、图片、代码
  • 对齐:RLHF(2022)—— 让模型学会跟人说话

前 3 样 2020 年 GPT-3 时其实已经齐了,但模型不会跟人对话,只能算研究玩具。2022 年 RLHF 是最后那根引信

1990 年算力不够。2010 年架构不对。2022,引信终于点燃。


你现在用 Claude Code,本质上是骑在这 70 年技术积累的肩上。下一篇我们看:大模型到底是怎么工作的?「token」「预训练」「微调」那些名词全部用人话解释一遍。

评论

不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。

  • 加载中 …