协议与上下文八股:AI PM 面试必会的 6 个工程术语
📍 AI 求职速查 5/6 · 上一篇:← Agent 编排八股

你会遇到的开场
Section titled “你会遇到的开场”这一组术语是 2026 年面试的”新八股” —— 2024 年还没人问,现在面试官几乎一定要扫一遍:
“MCP 是啥?你用过吗?"
"你做过 Tool Use / Function Calling 吗?和 MCP 啥关系?"
"Long Context 200K 是不是越大越好?"
"你怎么把 LLM 成本砍一半?”
答得准 = 显示你真做过生产环境的 AI 产品;答不出 = 被归到”只看过 demo”。
这一篇把 6 个核心术语讲清楚 —— 重点是实战判断口径。
先建立大局观
Section titled “先建立大局观”这一组 6 个术语分两组:
协议组(3 个):怎么让 LLM 接外部世界(数据 / 工具 / API)
- MCP / Tool Use / Custom MCP Server
上下文 + 成本组(3 个):怎么让 LLM 跑得起 + 跑得便宜
- Long Context / Prompt Caching / Token Cost 管控
两组合起来 = 生产环境 LLM 产品的两个核心工程问题。
一、MCP(Model Context Protocol)
Section titled “一、MCP(Model Context Protocol)”是啥:Anthropic 2024 年底推出的协议 —— AI 圈的 USB-C。让 LLM 能用标准化方式接外部工具 / 数据 / 系统。
核心 4 个概念:
| 概念 | 啥意思 | 例子 |
|---|---|---|
| Server(服务端) | 提供工具 / 资源 / 提示词 | GitHub MCP / Slack MCP / Postgres MCP |
| Client(客户端) | LLM 端,调 MCP server | Claude Desktop / Claude Code / Cursor |
| Tool(工具) | 函数调用 | github_create_issue |
| Resource(资源) | 可读数据 | 文件 / 数据库一行 |
为啥 2026 年特别热:
- Anthropic 推 Claude 生态标配 —— Claude Desktop / Claude Code 原生支持
- OpenAI Codex 2026 也兼容 MCP —— 出现了跨厂商标准
- 2025 年底 Anthropic 把 MCP 捐给 Linux Foundation —— 成立中立的 Agentic AI Foundation,MCP 从一家公司的协议变成全行业标准(这是 2026 年面试官最爱问的关键事件)
- SaaS 厂商都在推自家 MCP(Slack / Linear / Notion / GitHub / 字节 / 国内厂商)
面试怎么答:
“MCP 是 2026 年最值得关注的标准 —— 解决”每家 LLM 都自己定义工具协议”的乱象。类比 USB-C:以前 iPhone 一个口 / 安卓一个口 / 电脑一个口,USB-C 统一后大家都能用。MCP 给 LLM 生态干一样的事。Anthropic 推动 + OpenAI 跟进 = 这个标准基本稳了。”
💡 想深入 MCP 协议设计哲学 → MCP 协议详解 那一篇。
二、Tool Use / Function Calling
Section titled “二、Tool Use / Function Calling”是啥:LLM 决定调用外部函数。流程:
1. 用户提问 ↓2. LLM 判断:"这个问题我自己答不了,得调函数" ↓3. LLM 输出:"请调用 X 函数,参数 Y" ↓4. 后端执行函数,拿到结果 ↓5. 结果返给 LLM ↓6. LLM 基于结果生成最终答案
Tool Use vs RAG:
| 维度 | RAG | Tool Use |
|---|---|---|
| 数据 | 静态文档(知识库) | 动态计算(实时查 API / 改数据) |
| 例子 | 查公司政策 | 查实时天气 / 下单 / 发邮件 |
| 状态 | 只读 | 可读可写 |
主流实现:
| 厂商 | 协议名 |
|---|---|
| OpenAI | Function Calling(OpenAI 规范) |
| Anthropic | Tool Use(Anthropic 规范) |
| 跨厂商 | MCP(推荐) |
面试怎么答:
“Tool Use 跟 RAG 是 agent 接外部世界的两条腿 —— RAG 拿信息,Tool Use 干事情。我做产品时区分:只读 + 静态文档 走 RAG,实时 / 可写 / 副作用 走 Tool Use。两者经常组合用 —— 先 RAG 拿背景,再 Tool Use 执行操作。“
三、Custom MCP Server(自建 MCP 服务)
Section titled “三、Custom MCP Server(自建 MCP 服务)”是啥:自己写一个 MCP server,把自家内部 API / 数据暴露给 LLM 调用。
典型用例:
公司内部 CRM / 数据库 / 监控系统包成 MCP server → 让 Claude Code / Cursor / 字节 IDE 等所有支持 MCP 的客户端都能调用。
啥时候自建 vs 直接 API:
| 场景 | 选什么 |
|---|---|
| 多个客户端要复用(Claude / Cursor / 字节 IDE) | 自建 MCP server |
| 只有一个客户端用 | 直接 API(MCP 多此一举) |
| 要跟开源生态对接 | MCP server(社区已经有 Notion / Linear / GitHub 等开源 MCP) |
实操(简化版,Python + FastMCP):
from mcp.server.fastmcp import FastMCP
mcp = FastMCP("我的公司 CRM")
@mcp.tool()def get_customer(customer_id: str) -> dict: """查询客户信息""" return crm_api.fetch(customer_id)
if __name__ == "__main__": mcp.run()10 行代码,就这样。
面试怎么答:
“PM 不必亲自写 MCP server,但要知道啥时候建议团队建 MCP。判断口径:这个内部 API 是不是会被多个 LLM 客户端用? 是的话建 MCP(一次写多处复用),不是的话直接 API(MCP 反而是工程负担)。”
💡 想看 MCP server 完整写法 → MCP 协议详解 里有 Python 10 行写完整 demo。
四、Long Context(超长上下文)
Section titled “四、Long Context(超长上下文)”是啥:大上下文窗口模型能装一本书 / 一个仓库 / 几百页文档。

主流 200K+ 模型(2026 年) —— 模型表 RAG 八股 那篇已经列过,这里从账单视角换个切入角度:
真实账单震撼:
假设你做一个公司客服 bot,每天 1 万次提问。系统提示词 5K + 检索文档 20K + 用户问题 1K = 每次 26K 输入。
| 方案 | 每次 input cost | 月度 cost(30 天 × 1 万次) |
|---|---|---|
| 不开 Prompt Caching | $0.078 (Sonnet 4.6 $3/M) | $23,400 |
| 开 Prompt Caching(系统 + 文档稳定) | ~$0.012 | $3,600 |
| 降到 100K 上下文 + 开 cache(实际只用 100K) | ~$0.005 | $1,500 |
数字直观告诉你:上下文不是越长越省事,是越长越烧钱。
3 个权衡(详细比对见 RAG 八股 Long Context 段):
- 越长越贵 —— 按输入 token 算钱
- 越长越慢 —— 200K 输入要 30-60 秒返回
- 「中间丢失」效应 —— 太长上下文里中间的内容模型注意力弱化
面试怎么答:
“我看一个 AI 产品的 Long Context 策略,先看月账单数字:如果系统 + 检索内容占 80% 是稳定的,先上 Prompt Caching 立省 80% +;如果你真的每次都要 200K,先反问’真的需要 200K 吗,80K + 分层摘要能不能等效?’ —— 大部分 200K 用法是过度设计。“
五、Prompt Caching(提示词缓存)
Section titled “五、Prompt Caching(提示词缓存)”是啥:Anthropic / OpenAI 都推出的成本优化机制。把 prompt 中不变的部分(system prompt / 知识库 / 历史对话)缓存起来,下次调用直接用缓存,不重新计算。

Anthropic Prompt Caching:
| 操作 | 价格 |
|---|---|
| 写入缓存 | 1.25x 普通输入价 |
| 读取缓存 | 0.1x 普通输入价(10 倍便宜) |
| 默认有效期 | 5 分钟(读一次会续期) |
| 长有效期 | 1 小时(2x 写入价,适合系统提示词稳定的场景) |
OpenAI Prompt Caching:
- 自动缓存(不用手动开)
- 读缓存 GPT-5 系列约 90% 折扣(4o-mini 这种早期模型还是 50%)
省钱直观例子:
场景:100K system prompt 不变,每次 1K 用户提问。
| 方案 | 单次成本 |
|---|---|
| 不开缓存 | 100K × 普通价 = $0.30 |
| 开缓存 | 缓存读 $0.03 + 1K 提问 $0.003 ≈ $0.033 |
| 节省 | 约 90% |
面试怎么答(高频题):
“Prompt Caching 是 2025-2026 年成本优化的必修招。我看到团队 LLM 月账单超预算,第一招就是开 prompt caching。关键判断:你的 prompt 里多少 % 是不变的(system prompt + 知识库)—— 90% 不变就 90% 省。注意默认 5 分钟有效期,系统提示词长期稳定可以开 1 小时 TTL(多花 2x 写入价但读取省更多);要保活就定期”热”一下(不要等用户调用)。“
六、Token Cost 管控
Section titled “六、Token Cost 管控”是啥:管 LLM 输入 + 输出 token 消耗,控制月度账单。
3 个核心指标:
| 指标 | 含义 |
|---|---|
| token / user / month | 每用户月度 token 消耗 |
| $ / user / month | 每用户月度成本 |
| $ / answered query | 每答一个问题的成本 |
6 个优化手段(优先级从高到低):
| # | 手段 | 省多少 |
|---|---|---|
| 1 | Prompt Caching | 60-90%(不变 prompt 占比高时) |
| 2 | 便宜模型干便宜活(Haiku 4.5 跑分类 / 摘要,Opus 跑复杂推理) | 3-5x |
| 3 | 缩短 system prompt(去废话 + 用结构化代替散文) | 30-70% |
| 4 | 限制输出长度(max_tokens 上限) | 20-50% |
| 5 | 限制上下文(RAG 头部 K 砍小 / 切分块砍小) | 20-40% |
| 6 | 用户提问缓存(相同提问重用历史答案) | 看场景 |
面试怎么答(高频题 + jackpot 题):
“Token Cost 管控我有套先开个大招,再精修的口径:第一招开 Prompt Caching(60-90% 立省),第二招按任务分级用模型(Haiku 跑简单 / Opus 跑复杂),第三招缩短系统提示词(从散文式改成结构化经常能砍 50%+),后面再调输出长度 / 上下文 / 缓存提问。先做大的,小的不动也行;盲目调 K 或者切分块,收益小还容易副作用。”
💡 想看一个把 prompt token 砍掉大半的真实案例 → Mold 案例篇。
总结:6 个术语怎么记
Section titled “总结:6 个术语怎么记”按协议组 vs 上下文成本组分:
协议组(让 LLM 接外部世界):
- MCP —— 跨厂商标准
- Tool Use —— 单厂商函数调用
- Custom MCP Server —— 自家系统接进来
上下文成本组(让 LLM 跑得起 + 跑得便宜): 4. Long Context —— 能装多少 5. Prompt Caching —— 怎么省 6. Token Cost 管控 —— 整体管控
面试加分小贴士
Section titled “面试加分小贴士”- 能讲 MCP 跟 Tool Use 的关系 > 单独讲 MCP(显示你懂演化)
- 能讲 Long Context 不是越长越好 > 鼓吹”Gemini 1M 牛”(显示成熟度)
- 能给省钱数字 > 泛泛说”prompt caching 有用”(90% / 60-90% / 3-5x)
- 能讲优化优先级 > 列所有手段(知道先做啥后做啥)
- 能讲为啥不上 MCP > 万物 MCP 化(单客户端不必上)
牛学板块导航
Section titled “牛学板块导航”- 上一篇:← Agent 编排八股
- 本板块:AI 求职速查
- 1/6 Prompt 工程八股
- 2/6 数据与评估八股
- 3/6 RAG 八股
- 4/6 Agent 编排八股
- 5/6 协议与上下文八股(就是这一篇)
- 6/6 工程与商业八股
- 想深入 MCP 协议 → MCP 协议详解
评论
不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。