跳转到内容

协议与上下文八股:AI PM 面试必会的 6 个工程术语

📍 AI 求职速查 5/6 · 上一篇:← Agent 编排八股

中心 USB-C 接口,左边机器人,右边外部服务图标(齿轮/云/数据库)用曲线连接

这一组术语是 2026 年面试的”新八股” —— 2024 年还没人问,现在面试官几乎一定要扫一遍:

MCP 是啥?你用过吗?"
"你做过 Tool Use / Function Calling 吗?和 MCP 啥关系?"
"Long Context 200K 是不是越大越好?"
"你怎么把 LLM 成本砍一半?

答得准 = 显示你真做过生产环境的 AI 产品;答不出 = 被归到”只看过 demo”。

这一篇把 6 个核心术语讲清楚 —— 重点是实战判断口径


这一组 6 个术语分两组:

协议组(3 个):怎么让 LLM 接外部世界(数据 / 工具 / API)

  • MCP / Tool Use / Custom MCP Server

上下文 + 成本组(3 个):怎么让 LLM 跑得起 + 跑得便宜

  • Long Context / Prompt Caching / Token Cost 管控

两组合起来 = 生产环境 LLM 产品的两个核心工程问题


是啥:Anthropic 2024 年底推出的协议 —— AI 圈的 USB-C。让 LLM 能用标准化方式接外部工具 / 数据 / 系统。

核心 4 个概念:

概念啥意思例子
Server(服务端)提供工具 / 资源 / 提示词GitHub MCP / Slack MCP / Postgres MCP
Client(客户端)LLM 端,调 MCP serverClaude Desktop / Claude Code / Cursor
Tool(工具)函数调用github_create_issue
Resource(资源)可读数据文件 / 数据库一行

为啥 2026 年特别热:

  • Anthropic 推 Claude 生态标配 —— Claude Desktop / Claude Code 原生支持
  • OpenAI Codex 2026 也兼容 MCP —— 出现了跨厂商标准
  • 2025 年底 Anthropic 把 MCP 捐给 Linux Foundation —— 成立中立的 Agentic AI Foundation,MCP 从一家公司的协议变成全行业标准(这是 2026 年面试官最爱问的关键事件)
  • SaaS 厂商都在推自家 MCP(Slack / Linear / Notion / GitHub / 字节 / 国内厂商)

面试怎么答:

“MCP 是 2026 年最值得关注的标准 —— 解决”每家 LLM 都自己定义工具协议”的乱象。类比 USB-C:以前 iPhone 一个口 / 安卓一个口 / 电脑一个口,USB-C 统一后大家都能用。MCP 给 LLM 生态干一样的事。Anthropic 推动 + OpenAI 跟进 = 这个标准基本稳了。”

💡 想深入 MCP 协议设计哲学 → MCP 协议详解 那一篇。


是啥:LLM 决定调用外部函数。流程:

1. 用户提问
2. LLM 判断:"这个问题我自己答不了,得调函数"
3. LLM 输出:"请调用 X 函数,参数 Y"
4. 后端执行函数,拿到结果
5. 结果返给 LLM
6. LLM 基于结果生成最终答案

机器人发出 JSON 函数调用,流向外部工具图标

Tool Use vs RAG:

维度RAGTool Use
数据静态文档(知识库)动态计算(实时查 API / 改数据)
例子查公司政策查实时天气 / 下单 / 发邮件
状态只读可读可写

主流实现:

厂商协议名
OpenAIFunction Calling(OpenAI 规范)
AnthropicTool Use(Anthropic 规范)
跨厂商MCP(推荐)

面试怎么答:

“Tool Use 跟 RAG 是 agent 接外部世界的两条腿 —— RAG 拿信息,Tool Use 干事情。我做产品时区分:只读 + 静态文档 走 RAG,实时 / 可写 / 副作用 走 Tool Use。两者经常组合用 —— 先 RAG 拿背景,再 Tool Use 执行操作。“


三、Custom MCP Server(自建 MCP 服务)

Section titled “三、Custom MCP Server(自建 MCP 服务)”

是啥:自己写一个 MCP server,把自家内部 API / 数据暴露给 LLM 调用。

典型用例:

公司内部 CRM / 数据库 / 监控系统包成 MCP server → 让 Claude Code / Cursor / 字节 IDE 等所有支持 MCP 的客户端都能调用。

啥时候自建 vs 直接 API:

场景选什么
多个客户端要复用(Claude / Cursor / 字节 IDE)自建 MCP server
只有一个客户端用直接 API(MCP 多此一举)
要跟开源生态对接MCP server(社区已经有 Notion / Linear / GitHub 等开源 MCP)

实操(简化版,Python + FastMCP):

from mcp.server.fastmcp import FastMCP
mcp = FastMCP("我的公司 CRM")
@mcp.tool()
def get_customer(customer_id: str) -> dict:
"""查询客户信息"""
return crm_api.fetch(customer_id)
if __name__ == "__main__":
mcp.run()

10 行代码,就这样

面试怎么答:

“PM 不必亲自写 MCP server,但要知道啥时候建议团队建 MCP。判断口径:这个内部 API 是不是会被多个 LLM 客户端用? 是的话建 MCP(一次写多处复用),不是的话直接 API(MCP 反而是工程负担)。”

💡 想看 MCP server 完整写法 → MCP 协议详解 里有 Python 10 行写完整 demo。


是啥:大上下文窗口模型能装一本书 / 一个仓库 / 几百页文档。

一卷超长卷轴从机器人手里展开,字迹隐约可见

主流 200K+ 模型(2026 年) —— 模型表 RAG 八股 那篇已经列过,这里从账单视角换个切入角度:

真实账单震撼:

假设你做一个公司客服 bot,每天 1 万次提问。系统提示词 5K + 检索文档 20K + 用户问题 1K = 每次 26K 输入

方案每次 input cost月度 cost(30 天 × 1 万次)
不开 Prompt Caching$0.078 (Sonnet 4.6 $3/M)$23,400
开 Prompt Caching(系统 + 文档稳定)~$0.012$3,600
降到 100K 上下文 + 开 cache(实际只用 100K)~$0.005$1,500

数字直观告诉你:上下文不是越长越省事,是越长越烧钱

3 个权衡(详细比对见 RAG 八股 Long Context 段):

  1. 越长越贵 —— 按输入 token 算钱
  2. 越长越慢 —— 200K 输入要 30-60 秒返回
  3. 「中间丢失」效应 —— 太长上下文里中间的内容模型注意力弱化

面试怎么答:

“我看一个 AI 产品的 Long Context 策略,先看月账单数字:如果系统 + 检索内容占 80% 是稳定的,先上 Prompt Caching 立省 80% +;如果你真的每次都要 200K,先反问’真的需要 200K 吗,80K + 分层摘要能不能等效?’ —— 大部分 200K 用法是过度设计。“


是啥:Anthropic / OpenAI 都推出的成本优化机制。把 prompt 中不变的部分(system prompt / 知识库 / 历史对话)缓存起来,下次调用直接用缓存,不重新计算。

一个标着时钟的缓存盒,里面有重复的文档令牌,箭头表示重用

Anthropic Prompt Caching:

操作价格
写入缓存1.25x 普通输入价
读取缓存0.1x 普通输入价(10 倍便宜)
默认有效期5 分钟(读一次会续期)
长有效期1 小时(2x 写入价,适合系统提示词稳定的场景)

OpenAI Prompt Caching:

  • 自动缓存(不用手动开)
  • 读缓存 GPT-5 系列约 90% 折扣(4o-mini 这种早期模型还是 50%)

省钱直观例子:

场景:100K system prompt 不变,每次 1K 用户提问。

方案单次成本
不开缓存100K × 普通价 = $0.30
开缓存缓存读 $0.03 + 1K 提问 $0.003 ≈ $0.033
节省约 90%

面试怎么答(高频题):

“Prompt Caching 是 2025-2026 年成本优化的必修招。我看到团队 LLM 月账单超预算,第一招就是开 prompt caching关键判断:你的 prompt 里多少 % 是不变的(system prompt + 知识库)—— 90% 不变就 90% 省。注意默认 5 分钟有效期,系统提示词长期稳定可以开 1 小时 TTL(多花 2x 写入价但读取省更多);要保活就定期”热”一下(不要等用户调用)。“


是啥:管 LLM 输入 + 输出 token 消耗,控制月度账单。

3 个核心指标:

指标含义
token / user / month每用户月度 token 消耗
$ / user / month每用户月度成本
$ / answered query每答一个问题的成本

6 个优化手段(优先级从高到低):

#手段省多少
1Prompt Caching60-90%(不变 prompt 占比高时)
2便宜模型干便宜活(Haiku 4.5 跑分类 / 摘要,Opus 跑复杂推理)3-5x
3缩短 system prompt(去废话 + 用结构化代替散文)30-70%
4限制输出长度(max_tokens 上限)20-50%
5限制上下文(RAG 头部 K 砍小 / 切分块砍小)20-40%
6用户提问缓存(相同提问重用历史答案)看场景

面试怎么答(高频题 + jackpot 题):

“Token Cost 管控我有套先开个大招,再精修的口径:第一招开 Prompt Caching(60-90% 立省),第二招按任务分级用模型(Haiku 跑简单 / Opus 跑复杂),第三招缩短系统提示词(从散文式改成结构化经常能砍 50%+),后面再调输出长度 / 上下文 / 缓存提问。先做大的,小的不动也行;盲目调 K 或者切分块,收益小还容易副作用。”

💡 想看一个把 prompt token 砍掉大半的真实案例 → Mold 案例篇


协议组 vs 上下文成本组分:

协议组(让 LLM 接外部世界):

  1. MCP —— 跨厂商标准
  2. Tool Use —— 单厂商函数调用
  3. Custom MCP Server —— 自家系统接进来

上下文成本组(让 LLM 跑得起 + 跑得便宜): 4. Long Context —— 能装多少 5. Prompt Caching —— 怎么省 6. Token Cost 管控 —— 整体管控


  • 能讲 MCP 跟 Tool Use 的关系 > 单独讲 MCP(显示你懂演化)
  • 能讲 Long Context 不是越长越好 > 鼓吹”Gemini 1M 牛”(显示成熟度)
  • 能给省钱数字 > 泛泛说”prompt caching 有用”(90% / 60-90% / 3-5x)
  • 能讲优化优先级 > 列所有手段(知道先做啥后做啥)
  • 能讲为啥不上 MCP > 万物 MCP 化(单客户端不必上)

评论

不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。

  • 加载中 …