现在 AI 圈在卷什么(5 大技术方向科普)
📍 认识 AI 3/4 · 上一篇:← 大模型怎么工作的 · 下一篇:AI 端到端流程 →
每周都有新名词
Section titled “每周都有新名词”上周还在聊 GPT-5。这周冒出来 Claude Opus 4.7、DeepSeek R2、Gemini 3、Sora 2、Devin、Cursor、Manus。
你脑子里塞了一堆名字,但搞不清谁跟谁是一回事。

其实这些产品全部在卷 5 个方向之一。看懂这 5 个方向,整个 AI 圈在你眼里就整齐了。
5 分钟,我带你看一遍——顺便告诉你 Claude Code 在哪一层。
第一卷|基础模型(Foundation Models)
Section titled “第一卷|基础模型(Foundation Models)”「基础模型」= 大模型本体。所有 AI 产品的能力天花板由它决定。

打个比方:手机芯片。
你买 iPhone / 三星 / 华为,看似在选品牌,其实选的是里面的「A19 / 骁龙 / 麒麟」——芯片决定了手机能跑多快。
AI 产品也一样。你用豆包、ChatGPT 应用、Notion AI、Cursor,它们背后跑的都是「基础模型」——基础模型每升级一代,所有用它的产品一起变强。
谁在卷:
- OpenAI:GPT-5
- Anthropic:Claude Opus 4.7
- Google:Gemini 3
- DeepSeek:V4(国产之光)
- 字节:豆包 V2
卷什么:参数数量、训练数据规模、上下文窗口长度(能记多少东西)、推理能力、价格。
普通人能感觉到啥:每次「基础模型」升级,你用的所有 AI 产品同步变聪明——这就是为什么去年 4 月豆包升级后,你突然觉得它「会写小说了」。
第二卷|RAG(检索增强生成)
Section titled “第二卷|RAG(检索增强生成)”问题:基础模型有一个硬伤——它只知道训练截止那天之前的事。
今年开了什么新店、你公司昨天发的公告、最新的政策、上周的赛事结果,它一无所知。问它,它要么承认不知道,要么硬编(编出来的就是 AI「幻觉」)。
RAG 的解法:在 AI 回答之前,先去外面查一波资料——查互联网、查你的私有文档、查最新数据——把查到的内容塞进 prompt 里,再让 AI 答。
打个比方:开卷考试 vs 闭卷考试。
- 基础模型是闭卷(凭脑子里有的答)
- RAG 是开卷(边查资料边答)
谁在卷:
- Perplexity:「会查最新资料的 AI 搜索」
- Notion AI:能查你笔记里所有内容回答你
- 企业内部 AI:各公司搭的「我们公司专属 ChatGPT」
- 豆包搜索 / Kimi 搜索:你问最近的事,它去网上现查
普通人能感觉到啥:豆包搜索时给你的最新答案、公司内 AI 知道公司内部资料、AI 总结一篇你刚发的文章——这背后都是 RAG。
第三卷|Agent(智能体)—— Claude Code 在这里
Section titled “第三卷|Agent(智能体)—— Claude Code 在这里”这是 2025-2026 最热的赛道。
问题:以前的 AI 只能「告诉你怎么做」。
你问:「我桌面上 50 张报销发票怎么整理?」 它答:「你可以打开 Excel,然后……」
然后呢?然后你自己去开 Excel,自己一张张录,自己算。AI 在屋外指挥,你在屋里干活。
Agent 的解法:让 AI 真的去做——读你的文件、跑你的命令、点你的网页、调你的 API、改你的代码——一个任务分成多步它自己走完。

打个比方:
以前的 AI 是「客服告诉你怎么改密码」——你照着教程一步步做。
Agent 是「客服直接帮你改了密码并给你截图确认」——你只看结果。
谁在卷:
| 类型 | 代表产品 |
|---|---|
| 代码 Agent | Claude Code、Cursor、Codex CLI、Devin、Cognition |
| 通用 Agent | Manus、字节豆包 Agent、OpenAI Operator |
| 企业 Agent | Salesforce Agentforce、Glean 等 |
普通人能感觉到啥:从「我问 AI 怎么整理 50 份发票」变成「我让 AI 去 整理 50 份发票」——回来 Excel 已经在桌面上了。
Claude Code 就在 Agent 这一层。这是 niuxue.org 主推的方向。
为什么?因为前面 4 个方向都还是「AI 给你信息」,只有 Agent 是「AI 替你干活」——直接帮你省时间 / 赚钱。普通人 2026 年最该学的就是这一层。
第四卷|多模态
Section titled “第四卷|多模态”问题:早期 AI 只能处理文字。
但人类世界 80% 的信息在图、视频、声音里——你拍一张冰箱里的菜,想问「今晚做啥」;你录一段会议,想要纪要;你画一个 UI 草图,想要前端代码。文字 AI 全部抓瞎。
多模态的解法:让一个模型同时能读懂 / 生成 文字 + 图 + 视频 + 音频。

打个比方:早期 AI 是只会读字的盲人。多模态是能看能听能说的全能人。
谁在卷:
| 方向 | 代表产品 |
|---|---|
| 视觉理解 | GPT-4V、Claude 看图、Gemini Vision |
| 图像生成 | Midjourney、Stable Diffusion、即梦、可灵 |
| 视频生成 | Sora 2、Runway、可灵、Veo |
| 语音 / 音乐 | ElevenLabs、Suno |
普通人能感觉到啥:拍照丢给 AI 让它分析、让 AI 帮你做短视频、让 AI 配音、让 AI 把你画的草图变成产品。
第五卷|推理模型(Reasoning Models)
Section titled “第五卷|推理模型(Reasoning Models)”这是 ai-history 那篇里提过的——2025 突破,2026 爆发的方向。
问题:普通模型「张口就来」——你按回车它就开始打字。遇到简单问题没事,遇到复杂数学题、长链 debug、设计题,容易瞎答(凭直觉硬编,答错了还很自信)。
推理模型的解法:让模型先「内心思考」十几秒到几分钟,把推理过程一步步写出来,再给最终答案。

打个比方:考试场上——
- 简单填空题:秒答(不用打草稿)
- 复杂应用题:先打草稿,反复推,再写答案
普通模型只会秒答。推理模型学会了打草稿再答。
谁在卷:
| 厂商 | 产品 |
|---|---|
| OpenAI | o1、o3 系列 |
| Anthropic | Claude extended thinking 模式 |
| DeepSeek | R1、R2 |
| Gemini Pro Thinking |
普通人能感觉到啥:让 AI 解奥数题、规划复杂行程(5 天 6 城路线 + 预算)、debug 一个反复改不对的 bug——质量明显比 GPT-4o 时代好。
Claude Code 在哪一层
Section titled “Claude Code 在哪一层”到这里你脑子里应该有这张图了——
基础模型(GPT / Claude / DeepSeek / Gemini) ↓ 是所有 AI 产品的「芯片」(能力天花板) ↓ ┌──────────┬──────────┬─────────┬─────────┐ │ │ │ │ │ RAG Agent 多模态 推理模型 外挂资料 真的干活 看听说全能 打草稿再答 │ │ │ │ Perplexity Claude Sora DeepSeek R1 Notion AI Code Midjourney OpenAI o3 公司内 AI Cursor 可灵 Manus ↑ Claude Code 在这普通人 2026 年最值得花时间学的就是 Agent 这一层。
为什么?前面 4 层都还停留在「AI 给你信息」——你拿到回答之后还要自己动手。
只有 Agent 是「AI 替你干活」——你给一个目标,它从头跑到尾。
这就是为什么 niuxue.org 把 Claude Code 当主线讲——它是当下 Agent 形态最成熟、最适合普通人入门的代表。
—
下一篇我们看 AI 是怎么训练出来的 + 怎么被用的端到端流程——两条线一次讲清楚。
评论
不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。