RAG 八股:AI PM 面试必会的 7 个检索术语
📍 AI 求职速查 3/6 · 上一篇:← 数据与评估八股

你会遇到的开场
Section titled “你会遇到的开场”只要你简历写过”做过 AI 产品”,RAG 几乎一定问:
“简单讲一下 RAG 是啥,流程长啥样?”
或者升级:
“RAG 答跑偏怎么 debug?"
"Chunking 怎么切?切 500 还是 1000?"
"Reranking 加不加,加哪个?"
"Context Window 200K 是不是越大越好?”
这一篇把 7 个 RAG 核心术语讲清楚 —— 不只是定义,还配带 debug 判断口径(面试 jackpot)。
先建立大局观
Section titled “先建立大局观”RAG 解决的核心问题:LLM 训练数据是死的(截止某个日期),公司的私有知识 / 实时数据它不知道。
RAG = 给 LLM 装个”私人图书馆” —— 答问题前先去图书馆翻资料,再带着资料回答。
跟微调相比的两个根本优势:
- 知识可以实时更新(改库就行,不用重训模型)
- 答案可追溯(每个答案能 link 回原文档,合规友好)
下面 7 个术语就是构成这个”私人图书馆 + 检索 + 喂答案”的完整链条。
一、RAG(Retrieval-Augmented Generation)总览
Section titled “一、RAG(Retrieval-Augmented Generation)总览”是啥:给 LLM 答问题前,先从知识库搜相关文档,把文档当作上下文喂给 LLM。
4 步流程:

1. 用户提问 "公司退款政策是啥?" ↓2. 用向量模型编码问题 → 查询向量 ↓3. 向量数据库搜头部 K 个相关文档 (FAISS / Pinecone / Chroma) ↓4. (可选)重排 → 精选头部 N 个 (Reranker 二次排序) ↓5. 拼成 prompt 给 LLM: <context>检索到的文档</context> <question>用户原问题</question> ↓6. LLM 基于上下文生成答案RAG 的 4 大调优点(下面 6 个术语都对应这 4 个点):
- 向量模型(Embedding)—— 决定语义相似度判断准不准
- 切分(Chunking)—— 决定每个检索单元的粒度
- 重排(Reranking)—— 决定最终送 LLM 的文档质量
- 上下文窗口(Context Window)—— 决定能送多少文档
面试怎么答:
“RAG 4 步走 —— 编码 / 检索 / 增强 / 生成。90% 的 RAG 调优都在前两步(检索环节)。如果用户反馈”答案不准”,我会先看是不是没搜到对的文档(召回率)再看”是不是搜到了但太多噪声”(精确率)。这两个都对了再考虑模型生成环节。“
二、召回率(Recall)
Section titled “二、召回率(Recall)”先用图书馆员的故事看懂:你跟图书管理员说”我想找一本讲咖啡历史的书”,图书馆真有 10 本相关书。
- 管理员只搬回来 6 本 → 召回率 60%(漏了 4 本)
- 管理员搬回来全 10 本 → 召回率 100%(一本不漏)
是啥:知识库里真有 100 篇相关文档,系统搜回 80 篇 = 80% 召回率。
公式:Recall = 搜回的相关数 / 知识库中所有相关的总数
召回率低意味着:
- 重要文档没搜到 → LLM 答案缺关键信息 → 用户体验差
- 用户提的问题在知识库里明明有答案,但 RAG 答不出来
怎么优化:
- 换更好的向量模型(英文换 OpenAI / 中文换 BGE)
- 加大头部 K(原来取头部 5,改成头部 20-50,相当于让管理员多搬几本)
- 加 BM25 + 语义混合搜索(关键词搜召回长尾词 + 语义搜召回语义相近)
- 加元数据过滤(按文档类型 / 时间 / 部门预筛)
三、精确率(Precision)
Section titled “三、精确率(Precision)”还是图书馆员的故事:管理员这次很积极,搬回来 20 本书。
- 但其中只有 8 本真讲咖啡历史,12 本是混进来的(讲咖啡冲泡 / 茶叶 / 农产品) → 精确率 8/20 = 40%
- 你被一堆无关书淹没,没耐心翻
是啥:搜回 100 篇,真相关的 70 篇 = 70% 精确率。
公式:Precision = 搜回的相关数 / 搜回的总数
精确率低意味着:
- 搜回了一堆噪声文档 → 上下文被无关内容污染
- LLM 答跑偏(被噪声带节奏)+ token 浪费
怎么优化:
- 加 Reranker(下一节详讲,相当于让管理员搬来后再筛一遍)
- 提高相似度阈值(只要 score > 0.7 的文档)
- 加元数据过滤(精排掉时间过期 / 类别不符的)
关键认知:
Recall ↑ 和 Precision ↑ 通常互相打架 —— 多搜回点(K 加大)Recall 升 + Precision 跌。RAG 调优本质就是平衡这两个。
四、Reranking(重排)
Section titled “四、Reranking(重排)”是啥:向量搜回头部 K 个(比如 K=50)后,**用一个更精细的”交叉编码器”模型再排一次,取头部 N 个(N=5)**喂给 LLM。

为啥需要两阶段:
| 阶段 | 用啥 | 速度 | 精度 |
|---|---|---|---|
| 1. 召回 | 双塔编码器(问题 / 文档独立编码) | 快(向量库一次性算 millions) | 一般 |
| 2. 重排 | 交叉编码器(问题 + 文档一起编码) | 慢 | 高 |
双塔编码器 像”先粗看简介”,交叉编码器 像”对照问题逐句精读” —— 后者精度高但慢,所以只对头部 50 个用。
主流 Reranker:
- BGE-Reranker(开源,国内推荐)
- Cohere Rerank(海外商用,效果稳)
- Voyage Rerank(海外商用)
面试怎么答(高频题):
“面试官问’RAG 答不准怎么办’,我第一答先加 Reranker。相比 chunking 调优(改切分策略要重灌库,成本高),Reranker 是纯增量(在检索 pipeline 后插一层),通常一加就能把精确率从 60% 拉到 85%,投入产出比最高。“
五、上下文窗口(Context Window)
Section titled “五、上下文窗口(Context Window)”是啥:LLM 单次 prompt 能装多少 token。决定 RAG 能塞多少检索文档。
主流模型(2026 年):
| 模型 | 上下文 |
|---|---|
| Claude Haiku 4.5 | 200K |
| Claude Sonnet 4.6 | 200K-1M |
| Claude Opus 4.7 | 200K-1M |
| Gemini 2.5 / 3 Pro | 1M-2M(业界最长) |
| GPT-5 系列 | 200K-400K |
| DeepSeek-V3 / V4 | 128K-256K |
3 个权衡:
- 上下文越长越贵(按输入 token 算钱)
- 上下文越长越慢(模型处理 latency 上升)
- 「中间丢失」效应 —— 太长上下文里中间的内容模型 注意力弱化,常常被忽略(Stanford 2023 年研究)
面试怎么答(进阶题):
“Long Context 不是魔法 —— 200K 不代表 200K token 全部有效。我实战一般 cap 在 50K-100K,再长就上分层摘要(把 100K 先压成 10K 主旨,再喂模型)。比硬塞 200K 效果好,成本也低。“
六、知识库切分(Chunking)
Section titled “六、知识库切分(Chunking)”是啥:把长文档切成小块(chunk),每块单独做向量 + 存到向量库。

为啥要切:
- 整本文档 200 页一次性做向量 → 信息被平均化 → 检索时找不到具体段落
- 切成 500-token 一块 → 每块是特定话题 → 检索更精准
5 种切分策略:
| 策略 | 怎么切 | 适合 |
|---|---|---|
| 定长切 | 每 500 token 一刀 | 简单,但可能截断语义 |
| 按句子切 | 按句号分,凑到 500 token | 保留语义 |
| 递归切 | 先按段落,段落太长再按句 | LangChain 默认推荐 |
| 语义切 | 用向量看相邻句子语义跳跃在哪,在跳跃点切 | 最精,但慢 |
| 结构切 | 按 markdown 标题 / Word 章节 | 适合结构化文档 |
Chunk size 怎么选:
| size | 问题 |
|---|---|
| 太小(100 token) | 上下文不够,LLM 答缺信息 |
| 太大(2000 token) | 检索不精,且 token 浪费 |
| 推荐 | 500-1000 token + 100-200 token 重叠 |
重叠的作用:防止关键信息正好被切在两个 chunk 边界(切一半)。
面试怎么答(超高频题):
“面试问’RAG 答跑偏但文档明明有答案’,我第一直觉就 check chunking。90% 的 RAG 问题是切分策略没调好。常规组合:递归切 + 500-800 token + 150 token 重叠,先跑一版评估;不行再换语义切。“
七、向量模型(Embedding Model)
Section titled “七、向量模型(Embedding Model)”是啥:把文本转成高维向量(比如 1536 维)的模型。向量距离 ≈ 语义距离。

主流向量模型:
| 来源 | 模型 | 适合 |
|---|---|---|
| OpenAI | text-embedding-3-small / large | 英文 / 多语言 通用 |
| Cohere | embed-multilingual | 多语言强 |
| 国内 | BGE(北京智源) | 中文最强,开源 |
| Voyage | voyage-3 | 海外商用,长文档强 |
| 国内 | M3E / Qwen Embedding | 中文备选 |
评估基准:MTEB(Massive Text Embedding Benchmark) —— 业界公认的向量模型综合评测榜。
面试怎么答:
“选向量模型按 3 个维度:任务 / 语言 / 成本。英文通用场景 OpenAI 起,中文必上 BGE,多语言要稳就 Cohere。成本敏感场景把开源模型本地部署,延迟敏感场景上 API。别盲目追新,中文 BGE 已经够,英文 OpenAI 已经够,RAG 真正的瓶颈在切分 + 重排不在向量模型。“
RAG Debug 决策树(超实用)
Section titled “RAG Debug 决策树(超实用)”把上面 7 个术语串起来,就是一棵 debug 树 —— 这是面试现场最容易拿分的部分。你能现场在白板上画出这棵树,基本就拉开了跟其他候选人的差距:
用户反馈"答案不准" ↓先看 Groundedness(答案是否真用了检索内容) ↓┌──── Groundedness 高 但 准确率低 ────┐│ = 检索没拿对内容 ││ → 看 Recall: ││ 低 → 改向量模型 / 加大 K ││ 高 → 看 Precision: ││ 低 → 加 Reranker ││ 高 → 看 Chunking 切分 ││ │├──── Groundedness 低 ────────────────┤│ = 模型自己幻觉 ││ → 加 prompt 约束 ││ → 换更强模型 ││ → 或者强制 "只用提供文档作答" │└─────────────────────────────────────┘面试加分:不是看到准确率低就瞎调,而是先定位是哪一环出问题。
总结:7 个术语怎么记
Section titled “总结:7 个术语怎么记”按 RAG 4 步流程组织:
| 流程步骤 | 涉及术语 |
|---|---|
| 编码 | Embedding 向量模型 |
| 检索 | Recall / Precision / Chunking |
| 精选 | Reranking |
| 生成 | Context Window |
记完之后,看「RAG Debug 决策树」练习 —— 从准确率倒推每个术语在哪个位置救火。
面试加分小贴士
Section titled “面试加分小贴士”- 能讲 Recall vs Precision 互相打架 > 单独讲一个(显示你做过调优)
- 能讲 Reranker 投入产出比 > 单纯说”有用”(数字 60→85)
- 能讲 Chunking 是 90% 问题的根源 > 泛泛说”chunking 重要”
- 能现场画 RAG Debug 决策树 > 背术语清单
牛学板块导航
Section titled “牛学板块导航”- 上一篇:← 数据与评估八股
- 本板块:AI 求职速查
- 1/6 Prompt 工程八股
- 2/6 数据与评估八股
- 3/6 RAG 八股(就是这一篇)
- 4/6 Agent 编排八股
- 5/6 协议与上下文八股
- 6/6 工程与商业八股
评论
不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。