RAG 八股:AI PM 面试必会的 7 个检索术语

📍 AI 求职速查 3/6 · 上一篇:← 数据与评估八股

机器人从档案柜抽出文档,旁边窗口显示用它回答用户问题

你会遇到的开场

只要你简历写过”做过 AI 产品”,RAG 几乎一定问:

“简单讲一下 RAG 是啥,流程长啥样?”

或者升级:

“RAG 答跑偏怎么 debug?"
"Chunking 怎么切?切 500 还是 1000?"
"Reranking 加不加,加哪个?"
"Context Window 200K 是不是越大越好?”

这一篇把 7 个 RAG 核心术语讲清楚 —— 不只是定义,还配带 debug 判断口径(面试 jackpot)。

先建立大局观

RAG 解决的核心问题:LLM 训练数据是死的(截止某个日期),公司的私有知识 / 实时数据它不知道。

RAG = 给 LLM 装个”私人图书馆” —— 答问题前先去图书馆翻资料,再带着资料回答。

跟微调相比的两个根本优势:

知识可以实时更新(改库就行,不用重训模型)
答案可追溯(每个答案能 link 回原文档,合规友好)

下面 7 个术语就是构成这个”私人图书馆 + 检索 + 喂答案”的完整链条。

一、RAG(Retrieval-Augmented Generation)总览

是啥:给 LLM 答问题前,先从知识库搜相关文档,把文档当作上下文喂给 LLM。

4 步流程:

4 步面板 → 检索 → 增强 → 生成,箭头连接

1. 用户提问                           "公司退款政策是啥?"
   ↓
2. 用向量模型编码问题 → 查询向量
   ↓
3. 向量数据库搜头部 K 个相关文档    (FAISS / Pinecone / Chroma)
   ↓
4. (可选)重排 → 精选头部 N 个      (Reranker 二次排序)
   ↓
5. 拼成 prompt 给 LLM:
   <context>检索到的文档</context>
   <question>用户原问题</question>
   ↓
6. LLM 基于上下文生成答案

RAG 的 4 大调优点(下面 6 个术语都对应这 4 个点):

向量模型(Embedding)—— 决定语义相似度判断准不准
切分(Chunking)—— 决定每个检索单元的粒度
重排(Reranking)—— 决定最终送 LLM 的文档质量
上下文窗口(Context Window)—— 决定能送多少文档

面试怎么答:

“RAG 4 步走 —— 编码 / 检索 / 增强 / 生成。90% 的 RAG 调优都在前两步(检索环节)。如果用户反馈”答案不准”,我会先看是不是没搜到对的文档(召回率)再看”是不是搜到了但太多噪声”(精确率)。这两个都对了再考虑模型生成环节。“

二、召回率(Recall)

先用图书馆员的故事看懂:你跟图书管理员说”我想找一本讲咖啡历史的书”,图书馆真有 10 本相关书。

管理员只搬回来 6 本 → 召回率 60%(漏了 4 本)
管理员搬回来全 10 本 → 召回率 100%(一本不漏)

是啥:知识库里真有 100 篇相关文档,系统搜回 80 篇 = 80% 召回率。

公式:Recall = 搜回的相关数 / 知识库中所有相关的总数

召回率低意味着:

重要文档没搜到 → LLM 答案缺关键信息 → 用户体验差
用户提的问题在知识库里明明有答案,但 RAG 答不出来

怎么优化:

换更好的向量模型(英文换 OpenAI / 中文换 BGE)
加大头部 K(原来取头部 5,改成头部 20-50,相当于让管理员多搬几本)
加 BM25 + 语义混合搜索(关键词搜召回长尾词 + 语义搜召回语义相近)
加元数据过滤(按文档类型 / 时间 / 部门预筛)

三、精确率(Precision)

还是图书馆员的故事:管理员这次很积极,搬回来 20 本书。

但其中只有 8 本真讲咖啡历史,12 本是混进来的(讲咖啡冲泡 / 茶叶 / 农产品) → 精确率 8/20 = 40%
你被一堆无关书淹没,没耐心翻

是啥:搜回 100 篇,真相关的 70 篇 = 70% 精确率。

公式:Precision = 搜回的相关数 / 搜回的总数

精确率低意味着:

搜回了一堆噪声文档 → 上下文被无关内容污染
LLM 答跑偏(被噪声带节奏)+ token 浪费

怎么优化:

加 Reranker(下一节详讲,相当于让管理员搬来后再筛一遍)
提高相似度阈值(只要 score > 0.7 的文档)
加元数据过滤(精排掉时间过期 / 类别不符的)

关键认知:

Recall ↑ 和 Precision ↑ 通常互相打架 —— 多搜回点(K 加大)Recall 升 + Precision 跌。RAG 调优本质就是平衡这两个。

四、Reranking(重排)

是啥:向量搜回头部 K 个(比如 K=50)后,**用一个更精细的”交叉编码器”模型再排一次,取头部 N 个(N=5)**喂给 LLM。

一列 5 张排序卡片,手在重新排列变成新顺序,箭头标示重排

为啥需要两阶段:

阶段	用啥	速度	精度
1. 召回	双塔编码器(问题 / 文档独立编码)	快(向量库一次性算 millions)	一般
2. 重排	交叉编码器(问题 + 文档一起编码)	慢	高

双塔编码器 像”先粗看简介”,交叉编码器 像”对照问题逐句精读” —— 后者精度高但慢,所以只对头部 50 个用。

主流 Reranker:

BGE-Reranker(开源,国内推荐)
Cohere Rerank(海外商用,效果稳)
Voyage Rerank(海外商用)

面试怎么答(高频题):

“面试官问’RAG 答不准怎么办’,我第一答先加 Reranker。相比 chunking 调优(改切分策略要重灌库,成本高),Reranker 是纯增量(在检索 pipeline 后插一层),通常一加就能把精确率从 60% 拉到 85%,投入产出比最高。“

五、上下文窗口(Context Window)

是啥:LLM 单次 prompt 能装多少 token。决定 RAG 能塞多少检索文档。

主流模型(2026 年):

模型	上下文
Claude Haiku 4.5	200K
Claude Sonnet 4.6	200K-1M
Claude Opus 4.7	200K-1M
Gemini 2.5 / 3 Pro	1M-2M(业界最长)
GPT-5 系列	200K-400K
DeepSeek-V3 / V4	128K-256K

3 个权衡:

上下文越长越贵(按输入 token 算钱)
上下文越长越慢(模型处理 latency 上升)
「中间丢失」效应 —— 太长上下文里中间的内容模型注意力弱化,常常被忽略(Stanford 2023 年研究)

面试怎么答(进阶题):

“Long Context 不是魔法 —— 200K 不代表 200K token 全部有效。我实战一般 cap 在 50K-100K,再长就上分层摘要(把 100K 先压成 10K 主旨,再喂模型)。比硬塞 200K 效果好,成本也低。“

六、知识库切分(Chunking)

是啥:把长文档切成小块(chunk),每块单独做向量 + 存到向量库。

一本打开的书被切成卡片,卡片码成整齐一摞

为啥要切:

整本文档 200 页一次性做向量 → 信息被平均化 → 检索时找不到具体段落
切成 500-token 一块 → 每块是特定话题 → 检索更精准

5 种切分策略:

策略	怎么切	适合
定长切	每 500 token 一刀	简单,但可能截断语义
按句子切	按句号分,凑到 500 token	保留语义
递归切	先按段落,段落太长再按句	LangChain 默认推荐
语义切	用向量看相邻句子语义跳跃在哪,在跳跃点切	最精,但慢
结构切	按 markdown 标题 / Word 章节	适合结构化文档

Chunk size 怎么选:

size	问题
太小(100 token)	上下文不够,LLM 答缺信息
太大(2000 token)	检索不精,且 token 浪费
推荐	500-1000 token + 100-200 token 重叠

重叠的作用:防止关键信息正好被切在两个 chunk 边界(切一半)。

面试怎么答(超高频题):

“面试问’RAG 答跑偏但文档明明有答案’,我第一直觉就 check chunking。90% 的 RAG 问题是切分策略没调好。常规组合:递归切 + 500-800 token + 150 token 重叠,先跑一版评估;不行再换语义切。“

七、向量模型(Embedding Model)

是啥:把文本转成高维向量(比如 1536 维)的模型。向量距离 ≈ 语义距离。

词在二维坐标轴里成为彩色点云,语义相近的点聚集在一起

主流向量模型:

来源	模型	适合
OpenAI	text-embedding-3-small / large	英文 / 多语言通用
Cohere	embed-multilingual	多语言强
国内	BGE(北京智源)	中文最强,开源
Voyage	voyage-3	海外商用,长文档强
国内	M3E / Qwen Embedding	中文备选

评估基准:MTEB(Massive Text Embedding Benchmark) —— 业界公认的向量模型综合评测榜。

面试怎么答:

“选向量模型按 3 个维度:任务 / 语言 / 成本。英文通用场景 OpenAI 起,中文必上 BGE,多语言要稳就 Cohere。成本敏感场景把开源模型本地部署,延迟敏感场景上 API。别盲目追新,中文 BGE 已经够,英文 OpenAI 已经够,RAG 真正的瓶颈在切分 + 重排不在向量模型。“

RAG Debug 决策树(超实用)

把上面 7 个术语串起来,就是一棵 debug 树 —— 这是面试现场最容易拿分的部分。你能现场在白板上画出这棵树,基本就拉开了跟其他候选人的差距:

用户反馈"答案不准"
   ↓
先看 Groundedness(答案是否真用了检索内容)
   ↓
┌──── Groundedness 高 但 准确率低 ────┐
│   = 检索没拿对内容                  │
│   → 看 Recall:                     │
│     低 → 改向量模型 / 加大 K       │
│     高 → 看 Precision:             │
│       低 → 加 Reranker             │
│       高 → 看 Chunking 切分        │
│                                     │
├──── Groundedness 低 ────────────────┤
│   = 模型自己幻觉                    │
│   → 加 prompt 约束                  │
│   → 换更强模型                      │
│   → 或者强制 "只用提供文档作答"    │
└─────────────────────────────────────┘

面试加分:不是看到准确率低就瞎调,而是先定位是哪一环出问题。

总结:7 个术语怎么记

按 RAG 4 步流程组织:

流程步骤	涉及术语
编码	Embedding 向量模型
检索	Recall / Precision / Chunking
精选	Reranking
生成	Context Window

记完之后,看「RAG Debug 决策树」练习 —— 从准确率倒推每个术语在哪个位置救火。

面试加分小贴士

能讲 Recall vs Precision 互相打架 > 单独讲一个(显示你做过调优)
能讲 Reranker 投入产出比 > 单纯说”有用”(数字 60→85)
能讲 Chunking 是 90% 问题的根源 > 泛泛说”chunking 重要”
能现场画 RAG Debug 决策树 > 背术语清单

牛学板块导航

上一篇:← 数据与评估八股
本板块:AI 求职速查
- 1/6 Prompt 工程八股
- 2/6 数据与评估八股
- 3/6 RAG 八股(就是这一篇)
- 4/6 Agent 编排八股
- 5/6 协议与上下文八股
- 6/6 工程与商业八股

不记名、不需要注册——不要邮箱，不要手机号，不要任何身份信息，填个昵称就能留言。放心说。

加载中 …