协议与上下文八股:AI PM 面试必会的 6 个工程术语

📍 AI 求职速查 5/6 · 上一篇:← Agent 编排八股

中心 USB-C 接口,左边机器人,右边外部服务图标(齿轮/云/数据库)用曲线连接

你会遇到的开场

这一组术语是 2026 年面试的”新八股” —— 2024 年还没人问,现在面试官几乎一定要扫一遍:

“MCP 是啥?你用过吗?"
"你做过 Tool Use / Function Calling 吗?和 MCP 啥关系?"
"Long Context 200K 是不是越大越好?"
"你怎么把 LLM 成本砍一半?”

答得准 = 显示你真做过生产环境的 AI 产品;答不出 = 被归到”只看过 demo”。

这一篇把 6 个核心术语讲清楚 —— 重点是实战判断口径。

先建立大局观

这一组 6 个术语分两组:

协议组(3 个):怎么让 LLM 接外部世界(数据 / 工具 / API)

MCP / Tool Use / Custom MCP Server

上下文 + 成本组(3 个):怎么让 LLM 跑得起 + 跑得便宜

Long Context / Prompt Caching / Token Cost 管控

两组合起来 = 生产环境 LLM 产品的两个核心工程问题。

一、MCP(Model Context Protocol)

是啥:Anthropic 2024 年底推出的协议 —— AI 圈的 USB-C。让 LLM 能用标准化方式接外部工具 / 数据 / 系统。

核心 4 个概念:

概念	啥意思	例子
Server(服务端)	提供工具 / 资源 / 提示词	GitHub MCP / Slack MCP / Postgres MCP
Client(客户端)	LLM 端,调 MCP server	Claude Desktop / Claude Code / Cursor
Tool(工具)	函数调用	`github_create_issue`
Resource(资源)	可读数据	文件 / 数据库一行

为啥 2026 年特别热:

Anthropic 推 Claude 生态标配 —— Claude Desktop / Claude Code 原生支持
OpenAI Codex 2026 也兼容 MCP —— 出现了跨厂商标准
2025 年底 Anthropic 把 MCP 捐给 Linux Foundation —— 成立中立的 Agentic AI Foundation,MCP 从一家公司的协议变成全行业标准(这是 2026 年面试官最爱问的关键事件)
SaaS 厂商都在推自家 MCP(Slack / Linear / Notion / GitHub / 字节 / 国内厂商)

面试怎么答:

“MCP 是 2026 年最值得关注的标准 —— 解决”每家 LLM 都自己定义工具协议”的乱象。类比 USB-C:以前 iPhone 一个口 / 安卓一个口 / 电脑一个口,USB-C 统一后大家都能用。MCP 给 LLM 生态干一样的事。Anthropic 推动 + OpenAI 跟进 = 这个标准基本稳了。”

💡 想深入 MCP 协议设计哲学 → MCP 协议详解那一篇。

二、Tool Use / Function Calling

是啥:LLM 决定调用外部函数。流程:

1. 用户提问
   ↓
2. LLM 判断:"这个问题我自己答不了,得调函数"
   ↓
3. LLM 输出:"请调用 X 函数,参数 Y"
   ↓
4. 后端执行函数,拿到结果
   ↓
5. 结果返给 LLM
   ↓
6. LLM 基于结果生成最终答案

机器人发出 JSON 函数调用,流向外部工具图标

Tool Use vs RAG:

维度	RAG	Tool Use
数据	静态文档(知识库)	动态计算(实时查 API / 改数据)
例子	查公司政策	查实时天气 / 下单 / 发邮件
状态	只读	可读可写

主流实现:

厂商	协议名
OpenAI	Function Calling(OpenAI 规范)
Anthropic	Tool Use(Anthropic 规范)
跨厂商	MCP(推荐)

面试怎么答:

“Tool Use 跟 RAG 是 agent 接外部世界的两条腿 —— RAG 拿信息,Tool Use 干事情。我做产品时区分:只读 + 静态文档 走 RAG,实时 / 可写 / 副作用 走 Tool Use。两者经常组合用 —— 先 RAG 拿背景,再 Tool Use 执行操作。“

三、Custom MCP Server(自建 MCP 服务)

是啥:自己写一个 MCP server,把自家内部 API / 数据暴露给 LLM 调用。

典型用例:

公司内部 CRM / 数据库 / 监控系统包成 MCP server → 让 Claude Code / Cursor / 字节 IDE 等所有支持 MCP 的客户端都能调用。

啥时候自建 vs 直接 API:

场景	选什么
多个客户端要复用(Claude / Cursor / 字节 IDE)	自建 MCP server
只有一个客户端用	直接 API(MCP 多此一举)
要跟开源生态对接	MCP server(社区已经有 Notion / Linear / GitHub 等开源 MCP)

实操(简化版,Python + FastMCP):

from mcp.server.fastmcp import FastMCP

mcp = FastMCP("我的公司 CRM")

@mcp.tool()
def get_customer(customer_id: str) -> dict:
    """查询客户信息"""
    return crm_api.fetch(customer_id)

if __name__ == "__main__":
    mcp.run()

10 行代码,就这样。

面试怎么答:

“PM 不必亲自写 MCP server,但要知道啥时候建议团队建 MCP。判断口径:这个内部 API 是不是会被多个 LLM 客户端用? 是的话建 MCP(一次写多处复用),不是的话直接 API(MCP 反而是工程负担)。”

💡 想看 MCP server 完整写法 → MCP 协议详解里有 Python 10 行写完整 demo。

四、Long Context(超长上下文)

是啥:大上下文窗口模型能装一本书 / 一个仓库 / 几百页文档。

一卷超长卷轴从机器人手里展开,字迹隐约可见

主流 200K+ 模型(2026 年) —— 模型表 RAG 八股那篇已经列过,这里从账单视角换个切入角度:

真实账单震撼:

假设你做一个公司客服 bot,每天 1 万次提问。系统提示词 5K + 检索文档 20K + 用户问题 1K = 每次 26K 输入。

方案	每次 input cost	月度 cost(30 天 × 1 万次)
不开 Prompt Caching	$0.078 (Sonnet 4.6 $3/M)	$23,400
开 Prompt Caching(系统 + 文档稳定)	~$0.012	$3,600
降到 100K 上下文 + 开 cache(实际只用 100K)	~$0.005	$1,500

数字直观告诉你:上下文不是越长越省事,是越长越烧钱。

3 个权衡(详细比对见 RAG 八股 Long Context 段):

越长越贵 —— 按输入 token 算钱
越长越慢 —— 200K 输入要 30-60 秒返回
「中间丢失」效应 —— 太长上下文里中间的内容模型注意力弱化

面试怎么答:

“我看一个 AI 产品的 Long Context 策略,先看月账单数字:如果系统 + 检索内容占 80% 是稳定的,先上 Prompt Caching 立省 80% +;如果你真的每次都要 200K,先反问’真的需要 200K 吗,80K + 分层摘要能不能等效?’ —— 大部分 200K 用法是过度设计。“

五、Prompt Caching(提示词缓存)

是啥:Anthropic / OpenAI 都推出的成本优化机制。把 prompt 中不变的部分(system prompt / 知识库 / 历史对话)缓存起来,下次调用直接用缓存,不重新计算。

一个标着时钟的缓存盒,里面有重复的文档令牌,箭头表示重用

Anthropic Prompt Caching:

操作	价格
写入缓存	1.25x 普通输入价
读取缓存	0.1x 普通输入价(10 倍便宜)
默认有效期	5 分钟(读一次会续期)
长有效期	1 小时(2x 写入价,适合系统提示词稳定的场景)

OpenAI Prompt Caching:

自动缓存(不用手动开)
读缓存 GPT-5 系列约 90% 折扣(4o-mini 这种早期模型还是 50%)

省钱直观例子:

场景:100K system prompt 不变,每次 1K 用户提问。

方案	单次成本
不开缓存	100K × 普通价 = $0.30
开缓存	缓存读 $0.03 + 1K 提问 $0.003 ≈ $0.033
节省	约 90%

面试怎么答(高频题):

“Prompt Caching 是 2025-2026 年成本优化的必修招。我看到团队 LLM 月账单超预算,第一招就是开 prompt caching。关键判断:你的 prompt 里多少 % 是不变的(system prompt + 知识库)—— 90% 不变就 90% 省。注意默认 5 分钟有效期,系统提示词长期稳定可以开 1 小时 TTL(多花 2x 写入价但读取省更多);要保活就定期”热”一下(不要等用户调用)。“

六、Token Cost 管控

是啥:管 LLM 输入 + 输出 token 消耗,控制月度账单。

3 个核心指标:

指标	含义
token / user / month	每用户月度 token 消耗
$ / user / month	每用户月度成本
$ / answered query	每答一个问题的成本

6 个优化手段(优先级从高到低):

#	手段	省多少
1	Prompt Caching	60-90%(不变 prompt 占比高时)
2	便宜模型干便宜活(Haiku 4.5 跑分类 / 摘要,Opus 跑复杂推理)	3-5x
3	缩短 system prompt(去废话 + 用结构化代替散文)	30-70%
4	限制输出长度(`max_tokens` 上限)	20-50%
5	限制上下文(RAG 头部 K 砍小 / 切分块砍小)	20-40%
6	用户提问缓存(相同提问重用历史答案)	看场景

面试怎么答(高频题 + jackpot 题):

“Token Cost 管控我有套先开个大招,再精修的口径:第一招开 Prompt Caching(60-90% 立省),第二招按任务分级用模型(Haiku 跑简单 / Opus 跑复杂),第三招缩短系统提示词(从散文式改成结构化经常能砍 50%+),后面再调输出长度 / 上下文 / 缓存提问。先做大的,小的不动也行;盲目调 K 或者切分块,收益小还容易副作用。”

💡 想看一个把 prompt token 砍掉大半的真实案例 → Mold 案例篇。

总结:6 个术语怎么记

按协议组 vs 上下文成本组分:

协议组(让 LLM 接外部世界):

MCP —— 跨厂商标准
Tool Use —— 单厂商函数调用
Custom MCP Server —— 自家系统接进来

上下文成本组(让 LLM 跑得起 + 跑得便宜): 4. Long Context —— 能装多少 5. Prompt Caching —— 怎么省 6. Token Cost 管控 —— 整体管控

面试加分小贴士

能讲 MCP 跟 Tool Use 的关系 > 单独讲 MCP(显示你懂演化)
能讲 Long Context 不是越长越好 > 鼓吹”Gemini 1M 牛”(显示成熟度)
能给省钱数字 > 泛泛说”prompt caching 有用”(90% / 60-90% / 3-5x)
能讲优化优先级 > 列所有手段(知道先做啥后做啥)
能讲为啥不上 MCP > 万物 MCP 化(单客户端不必上)

牛学板块导航

上一篇:← Agent 编排八股
本板块:AI 求职速查
- 1/6 Prompt 工程八股
- 2/6 数据与评估八股
- 3/6 RAG 八股
- 4/6 Agent 编排八股
- 5/6 协议与上下文八股(就是这一篇)
- 6/6 工程与商业八股
想深入 MCP 协议 → MCP 协议详解

不记名、不需要注册——不要邮箱，不要手机号，不要任何身份信息，填个昵称就能留言。放心说。

加载中 …

协议与上下文八股:AI PM 面试必会的 6 个工程术语

你会遇到的开场

先建立大局观

一、MCP(Model Context Protocol)

二、Tool Use / Function Calling

三、Custom MCP Server(自建 MCP 服务)

四、Long Context(超长上下文)

五、Prompt Caching(提示词缓存)

六、Token Cost 管控

总结:6 个术语怎么记

面试加分小贴士

牛学板块导航

🍊 觉得这篇有用？

相关阅读

评论