现在 AI 圈在卷什么（5 大技术方向科普）

📍 认识 AI 3/4 · 上一篇：← 大模型怎么工作的 · 下一篇：AI 端到端流程 →

每周都有新名词

上周还在聊 GPT-5。这周冒出来 Claude Opus 4.7、DeepSeek R2、Gemini 3、Sora 2、Devin、Cursor、Manus。

你脑子里塞了一堆名字，但搞不清谁跟谁是一回事。

5 条平行的赛道，各自延伸向不同方向

其实这些产品全部在卷 5 个方向之一。看懂这 5 个方向，整个 AI 圈在你眼里就整齐了。

5 分钟，我带你看一遍——顺便告诉你 Claude Code 在哪一层。

第一卷｜基础模型（Foundation Models）

「基础模型」= 大模型本体。所有 AI 产品的能力天花板由它决定。

一块发光的 AI 芯片特写

打个比方：手机芯片。

你买 iPhone / 三星 / 华为，看似在选品牌，其实选的是里面的「A19 / 骁龙 / 麒麟」——芯片决定了手机能跑多快。

AI 产品也一样。你用豆包、ChatGPT 应用、Notion AI、Cursor，它们背后跑的都是「基础模型」——基础模型每升级一代，所有用它的产品一起变强。

谁在卷：

OpenAI：GPT-5
Anthropic：Claude Opus 4.7
Google：Gemini 3
DeepSeek：V4（国产之光）
字节：豆包 V2

卷什么：参数数量、训练数据规模、上下文窗口长度（能记多少东西）、推理能力、价格。

普通人能感觉到啥：每次「基础模型」升级，你用的所有 AI 产品同步变聪明——这就是为什么去年 4 月豆包升级后，你突然觉得它「会写小说了」。

第二卷｜RAG（检索增强生成）

问题：基础模型有一个硬伤——它只知道训练截止那天之前的事。

今年开了什么新店、你公司昨天发的公告、最新的政策、上周的赛事结果，它一无所知。问它，它要么承认不知道，要么硬编（编出来的就是 AI「幻觉」）。

RAG 的解法：在 AI 回答之前，先去外面查一波资料——查互联网、查你的私有文档、查最新数据——把查到的内容塞进 prompt 里，再让 AI 答。

打个比方：开卷考试 vs 闭卷考试。

基础模型是闭卷（凭脑子里有的答）
RAG 是开卷（边查资料边答）

谁在卷：

Perplexity：「会查最新资料的 AI 搜索」
Notion AI：能查你笔记里所有内容回答你
企业内部 AI：各公司搭的「我们公司专属 ChatGPT」
豆包搜索 / Kimi 搜索：你问最近的事，它去网上现查

普通人能感觉到啥：豆包搜索时给你的最新答案、公司内 AI 知道公司内部资料、AI 总结一篇你刚发的文章——这背后都是 RAG。

第三卷｜Agent（智能体）—— Claude Code 在这里

这是 2025-2026 最热的赛道。

问题：以前的 AI 只能「告诉你怎么做」。

你问：「我桌面上 50 张报销发票怎么整理？」它答：「你可以打开 Excel，然后……」

然后呢？然后你自己去开 Excel，自己一张张录，自己算。AI 在屋外指挥，你在屋里干活。

Agent 的解法：让 AI 真的去做——读你的文件、跑你的命令、点你的网页、调你的 API、改你的代码——一个任务分成多步它自己走完。

客服两种姿态对比：左边只动嘴指路，右边伸手替你操作

打个比方：

以前的 AI 是「客服告诉你怎么改密码」——你照着教程一步步做。

Agent 是「客服直接帮你改了密码并给你截图确认」——你只看结果。

谁在卷：

类型	代表产品
代码 Agent	Claude Code、Cursor、Codex CLI、Devin、Cognition
通用 Agent	Manus、字节豆包 Agent、OpenAI Operator
企业 Agent	Salesforce Agentforce、Glean 等

普通人能感觉到啥：从「我问 AI 怎么整理 50 份发票」变成「我让 AI 去整理 50 份发票」——回来 Excel 已经在桌面上了。

Claude Code 就在 Agent 这一层。这是 niuxue.org 主推的方向。

为什么？因为前面 4 个方向都还是「AI 给你信息」，只有 Agent 是「AI 替你干活」——直接帮你省时间 / 赚钱。普通人 2026 年最该学的就是这一层。

第四卷｜多模态

问题：早期 AI 只能处理文字。

但人类世界 80% 的信息在图、视频、声音里——你拍一张冰箱里的菜，想问「今晚做啥」；你录一段会议，想要纪要；你画一个 UI 草图，想要前端代码。文字 AI 全部抓瞎。

多模态的解法：让一个模型同时能读懂 / 生成 文字 + 图 + 视频 + 音频。

一个抽象 AI 头像同时长出眼睛、耳朵、嘴巴、天线

打个比方：早期 AI 是只会读字的盲人。多模态是能看能听能说的全能人。

谁在卷：

方向	代表产品
视觉理解	GPT-4V、Claude 看图、Gemini Vision
图像生成	Midjourney、Stable Diffusion、即梦、可灵
视频生成	Sora 2、Runway、可灵、Veo
语音 / 音乐	ElevenLabs、Suno

普通人能感觉到啥：拍照丢给 AI 让它分析、让 AI 帮你做短视频、让 AI 配音、让 AI 把你画的草图变成产品。

第五卷｜推理模型（Reasoning Models）

这是 ai-history 那篇里提过的——2025 突破，2026 爆发的方向。

问题：普通模型「张口就来」——你按回车它就开始打字。遇到简单问题没事，遇到复杂数学题、长链 debug、设计题，容易瞎答（凭直觉硬编，答错了还很自信）。

推理模型的解法：让模型先「内心思考」十几秒到几分钟，把推理过程一步步写出来，再给最终答案。

一个学生在考场上认真写草稿纸

打个比方：考试场上——

简单填空题：秒答（不用打草稿）
复杂应用题：先打草稿，反复推，再写答案

普通模型只会秒答。推理模型学会了打草稿再答。

谁在卷：

厂商	产品
OpenAI	o1、o3 系列
Anthropic	Claude extended thinking 模式
DeepSeek	R1、R2
Google	Gemini Pro Thinking

普通人能感觉到啥：让 AI 解奥数题、规划复杂行程（5 天 6 城路线 + 预算）、debug 一个反复改不对的 bug——质量明显比 GPT-4o 时代好。

Claude Code 在哪一层

到这里你脑子里应该有这张图了——

       基础模型（GPT / Claude / DeepSeek / Gemini）
                       ↓
         是所有 AI 产品的「芯片」（能力天花板）
                       ↓
       ┌──────────┬──────────┬─────────┬─────────┐
       │          │          │         │         │
     RAG       Agent      多模态     推理模型
   外挂资料    真的干活   看听说全能   打草稿再答
       │          │          │         │
   Perplexity  Claude     Sora      DeepSeek R1
   Notion AI   Code       Midjourney  OpenAI o3
   公司内 AI   Cursor     可灵
               Manus
                  ↑
            Claude Code 在这

普通人 2026 年最值得花时间学的就是 Agent 这一层。

为什么？前面 4 层都还停留在「AI 给你信息」——你拿到回答之后还要自己动手。

只有 Agent 是「AI 替你干活」——你给一个目标，它从头跑到尾。

这就是为什么 niuxue.org 把 Claude Code 当主线讲——它是当下 Agent 形态最成熟、最适合普通人入门的代表。

—

下一篇我们看 AI 是怎么训练出来的 + 怎么被用的端到端流程——两条线一次讲清楚。

不记名、不需要注册——不要邮箱，不要手机号，不要任何身份信息，填个昵称就能留言。放心说。

加载中 …

现在 AI 圈在卷什么（5 大技术方向科普）

每周都有新名词

第一卷｜基础模型（Foundation Models）

第二卷｜RAG（检索增强生成）

第三卷｜Agent（智能体）—— Claude Code 在这里

第四卷｜多模态

第五卷｜推理模型（Reasoning Models）

Claude Code 在哪一层

🍊 觉得这篇有用？

相关阅读

评论