跳转到内容

RAG 八股:AI PM 面试必会的 7 个检索术语

📍 AI 求职速查 3/6 · 上一篇:← 数据与评估八股

机器人从档案柜抽出文档,旁边窗口显示用它回答用户问题

只要你简历写过”做过 AI 产品”,RAG 几乎一定问:

简单讲一下 RAG 是啥,流程长啥样?

或者升级:

RAG 答跑偏怎么 debug?"
"Chunking 怎么切?切 500 还是 1000?"
"Reranking 加不加,加哪个?"
"Context Window 200K 是不是越大越好?

这一篇把 7 个 RAG 核心术语讲清楚 —— 不只是定义,还配带 debug 判断口径(面试 jackpot)。


RAG 解决的核心问题:LLM 训练数据是死的(截止某个日期),公司的私有知识 / 实时数据它不知道。

RAG = 给 LLM 装个”私人图书馆” —— 答问题前先去图书馆翻资料,再带着资料回答。

跟微调相比的两个根本优势:

  • 知识可以实时更新(改库就行,不用重训模型)
  • 答案可追溯(每个答案能 link 回原文档,合规友好)

下面 7 个术语就是构成这个”私人图书馆 + 检索 + 喂答案”的完整链条。


一、RAG(Retrieval-Augmented Generation)总览

Section titled “一、RAG(Retrieval-Augmented Generation)总览”

是啥:给 LLM 答问题前,先从知识库搜相关文档,把文档当作上下文喂给 LLM。

4 步流程:

4 步面板 → 检索 → 增强 → 生成,箭头连接

1. 用户提问 "公司退款政策是啥?"
2. 用向量模型编码问题 → 查询向量
3. 向量数据库搜头部 K 个相关文档 (FAISS / Pinecone / Chroma)
4. (可选)重排 → 精选头部 N 个 (Reranker 二次排序)
5. 拼成 prompt 给 LLM:
<context>检索到的文档</context>
<question>用户原问题</question>
6. LLM 基于上下文生成答案

RAG 的 4 大调优点(下面 6 个术语都对应这 4 个点):

  • 向量模型(Embedding)—— 决定语义相似度判断准不准
  • 切分(Chunking)—— 决定每个检索单元的粒度
  • 重排(Reranking)—— 决定最终送 LLM 的文档质量
  • 上下文窗口(Context Window)—— 决定能送多少文档

面试怎么答:

“RAG 4 步走 —— 编码 / 检索 / 增强 / 生成。90% 的 RAG 调优都在前两步(检索环节)。如果用户反馈”答案不准”,我会先看是不是没搜到对的文档(召回率)再看”是不是搜到了但太多噪声”(精确率)。这两个都对了再考虑模型生成环节。“


先用图书馆员的故事看懂:你跟图书管理员说”我想找一本讲咖啡历史的书”,图书馆真有 10 本相关书。

  • 管理员只搬回来 6 本召回率 60%(漏了 4 本)
  • 管理员搬回来全 10 本召回率 100%(一本不漏)

是啥:知识库里真有 100 篇相关文档,系统搜回 80 篇 = 80% 召回率

公式:Recall = 搜回的相关数 / 知识库中所有相关的总数

召回率低意味着:

  • 重要文档没搜到 → LLM 答案缺关键信息 → 用户体验差
  • 用户提的问题在知识库里明明有答案,但 RAG 答不出来

怎么优化:

  1. 换更好的向量模型(英文换 OpenAI / 中文换 BGE)
  2. 加大头部 K(原来取头部 5,改成头部 20-50,相当于让管理员多搬几本)
  3. 加 BM25 + 语义混合搜索(关键词搜召回长尾词 + 语义搜召回语义相近)
  4. 加元数据过滤(按文档类型 / 时间 / 部门预筛)

还是图书馆员的故事:管理员这次很积极,搬回来 20 本书。

  • 但其中只有 8 本真讲咖啡历史,12 本是混进来的(讲咖啡冲泡 / 茶叶 / 农产品) → 精确率 8/20 = 40%
  • 你被一堆无关书淹没,没耐心翻

是啥:搜回 100 篇,真相关的 70 篇 = 70% 精确率

公式:Precision = 搜回的相关数 / 搜回的总数

精确率低意味着:

  • 搜回了一堆噪声文档 → 上下文被无关内容污染
  • LLM 答跑偏(被噪声带节奏)+ token 浪费

怎么优化:

  1. 加 Reranker(下一节详讲,相当于让管理员搬来后再筛一遍)
  2. 提高相似度阈值(只要 score > 0.7 的文档)
  3. 加元数据过滤(精排掉时间过期 / 类别不符的)

关键认知:

Recall ↑ 和 Precision ↑ 通常互相打架 —— 多搜回点(K 加大)Recall 升 + Precision 跌。RAG 调优本质就是平衡这两个


是啥:向量搜回头部 K 个(比如 K=50)后,**用一个更精细的”交叉编码器”模型再排一次,取头部 N 个(N=5)**喂给 LLM。

一列 5 张排序卡片,手在重新排列变成新顺序,箭头标示重排

为啥需要两阶段:

阶段用啥速度精度
1. 召回双塔编码器(问题 / 文档独立编码)快(向量库一次性算 millions)一般
2. 重排交叉编码器(问题 + 文档一起编码)

双塔编码器 像”先粗看简介”,交叉编码器 像”对照问题逐句精读” —— 后者精度高但慢,所以只对头部 50 个用。

主流 Reranker:

  • BGE-Reranker(开源,国内推荐)
  • Cohere Rerank(海外商用,效果稳)
  • Voyage Rerank(海外商用)

面试怎么答(高频题):

“面试官问’RAG 答不准怎么办’,我第一答先加 Reranker。相比 chunking 调优(改切分策略要重灌库,成本高),Reranker 是纯增量(在检索 pipeline 后插一层),通常一加就能把精确率从 60% 拉到 85%,投入产出比最高。“


是啥:LLM 单次 prompt 能装多少 token。决定 RAG 能塞多少检索文档

主流模型(2026 年):

模型上下文
Claude Haiku 4.5200K
Claude Sonnet 4.6200K-1M
Claude Opus 4.7200K-1M
Gemini 2.5 / 3 Pro1M-2M(业界最长)
GPT-5 系列200K-400K
DeepSeek-V3 / V4128K-256K

3 个权衡:

  1. 上下文越长越贵(按输入 token 算钱)
  2. 上下文越长越慢(模型处理 latency 上升)
  3. 「中间丢失」效应 —— 太长上下文里中间的内容模型 注意力弱化,常常被忽略(Stanford 2023 年研究)

面试怎么答(进阶题):

“Long Context 不是魔法 —— 200K 不代表 200K token 全部有效。我实战一般 cap 在 50K-100K,再长就上分层摘要(把 100K 先压成 10K 主旨,再喂模型)。比硬塞 200K 效果好,成本也低。“


是啥:把长文档切成小块(chunk),每块单独做向量 + 存到向量库。

一本打开的书被切成卡片,卡片码成整齐一摞

为啥要切:

  • 整本文档 200 页一次性做向量 → 信息被平均化 → 检索时找不到具体段落
  • 切成 500-token 一块 → 每块是特定话题 → 检索更精准

5 种切分策略:

策略怎么切适合
定长切每 500 token 一刀简单,但可能截断语义
按句子切按句号分,凑到 500 token保留语义
递归切先按段落,段落太长再按句LangChain 默认推荐
语义切用向量看相邻句子语义跳跃在哪,在跳跃点切最精,但慢
结构切按 markdown 标题 / Word 章节适合结构化文档

Chunk size 怎么选:

size问题
太小(100 token)上下文不够,LLM 答缺信息
太大(2000 token)检索不精,且 token 浪费
推荐500-1000 token + 100-200 token 重叠

重叠的作用:防止关键信息正好被切在两个 chunk 边界(切一半)。

面试怎么答(超高频题):

“面试问’RAG 答跑偏但文档明明有答案’,我第一直觉就 check chunking90% 的 RAG 问题是切分策略没调好。常规组合:递归切 + 500-800 token + 150 token 重叠,先跑一版评估;不行再换语义切。“


是啥:把文本转成高维向量(比如 1536 维)的模型。向量距离 ≈ 语义距离

词在二维坐标轴里成为彩色点云,语义相近的点聚集在一起

主流向量模型:

来源模型适合
OpenAItext-embedding-3-small / large英文 / 多语言 通用
Cohereembed-multilingual多语言强
国内BGE(北京智源)中文最强,开源
Voyagevoyage-3海外商用,长文档强
国内M3E / Qwen Embedding中文备选

评估基准:MTEB(Massive Text Embedding Benchmark) —— 业界公认的向量模型综合评测榜。

面试怎么答:

“选向量模型按 3 个维度:任务 / 语言 / 成本。英文通用场景 OpenAI 起,中文必上 BGE,多语言要稳就 Cohere。成本敏感场景把开源模型本地部署,延迟敏感场景上 API。别盲目追新,中文 BGE 已经够,英文 OpenAI 已经够,RAG 真正的瓶颈在切分 + 重排不在向量模型。“


把上面 7 个术语串起来,就是一棵 debug 树 —— 这是面试现场最容易拿分的部分。你能现场在白板上画出这棵树,基本就拉开了跟其他候选人的差距:

用户反馈"答案不准"
先看 Groundedness(答案是否真用了检索内容)
┌──── Groundedness 高 但 准确率低 ────┐
│ = 检索没拿对内容 │
│ → 看 Recall: │
│ 低 → 改向量模型 / 加大 K │
│ 高 → 看 Precision: │
│ 低 → 加 Reranker │
│ 高 → 看 Chunking 切分 │
│ │
├──── Groundedness 低 ────────────────┤
│ = 模型自己幻觉 │
│ → 加 prompt 约束 │
│ → 换更强模型 │
│ → 或者强制 "只用提供文档作答" │
└─────────────────────────────────────┘

面试加分:不是看到准确率低就瞎调,而是先定位是哪一环出问题


按 RAG 4 步流程组织:

流程步骤涉及术语
编码Embedding 向量模型
检索Recall / Precision / Chunking
精选Reranking
生成Context Window

记完之后,看「RAG Debug 决策树」练习 —— 从准确率倒推每个术语在哪个位置救火


  • 能讲 Recall vs Precision 互相打架 > 单独讲一个(显示你做过调优)
  • 能讲 Reranker 投入产出比 > 单纯说”有用”(数字 60→85)
  • 能讲 Chunking 是 90% 问题的根源 > 泛泛说”chunking 重要”
  • 能现场画 RAG Debug 决策树 > 背术语清单

评论

不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。

  • 加载中 …