数据与评估八股:AI PM 面试必会的 7 个数据术语
📍 AI 求职速查 2/6 · 上一篇:← Prompt 工程八股

你会遇到的开场
Section titled “你会遇到的开场”简历上写”做过 AI 产品”,面试官扔给你一道案例题:
“接手一个 RAG 项目,准确率只有 60%,你怎么 debug?”
或者:
“怎么 measure 一个 AI feature 上线后效果好不好?"
"你训过 LoRA 吗?数据配比怎么定?"
"给你一个 200 条 query 集让你写评估表,你列哪些指标?”
答得稀里糊涂 = 被归到「只看过演示没做过生产环境」。
这一篇把 AI PM 实战必会的 7 个数据术语讲清楚 —— 都是面试现场会手撕的题。
先建立大局观
Section titled “先建立大局观”任何一个 AI 模型 / 产品的”质量”最终靠两件事撑起来:
- 数据怎么来(数据配比 / 清洗 / 准备)
- 怎么测好不好(评估指标 / 埋点 / 评估表 / Badcase 分析)
前 3 个术语是”数据进来”,后 4 个是”质量出去”,这一篇把两端打通。
一、数据配比(Data Mixing Ratio)
Section titled “一、数据配比(Data Mixing Ratio)”是啥:微调或训练模型时,不同类型数据(通用语料 / 行业语料 / 任务样本)的比例。
举例(训一个法律 AI):
- 60% 通用语料(让模型保持基本语言能力)
- 30% 法律语料(让模型懂行话 / 法条引用风格)
- 10% 任务样本(QA 对话对,让模型学怎么回答)
经验值:
| 占比 | 结果 |
|---|---|
| 行业语料 太低(< 10%) | 模型学不到领域 |
| 行业语料 太高(> 50%) | 灾难性遗忘 —— 通用能力被覆盖,反而变笨 |
| 常见范围 | 行业占比 20-40% |
面试怎么答:
“PM 不亲自调比例,但要懂权衡。‘怎么平衡通用 vs 领域?’ —— 我的判断是领域占 20-40% 是起点,看任务复杂度 + 通用能力保留要求调。纯领域数据不会让模型更强,反而忘掉本来会的。“
二、评估指标(Evaluation Metrics)
Section titled “二、评估指标(Evaluation Metrics)”是啥:量化模型输出好不好的工具。最常被问的就是”你怎么选指标”。

经典指标(必背)
Section titled “经典指标(必背)”| 指标 | 用在哪 | 解释 |
|---|---|---|
| Perplexity 困惑度 | 模型本身 | 模型对测试集的不确定性,越低越好 |
| BLEU | 机器翻译 | n-gram 重合度(译文跟参考译文比) |
| ROUGE | 摘要 | 4 个变种(ROUGE-1 / 2 / L / W) |
| F1 / Precision / Recall | 分类 / 检索 | 召回率 / 精确率 / 调和平均 |
| Human Eval | 任何 | 人工评分,最靠谱但最贵 |
| LLM-as-Judge | 任何 | 用另一个模型(比如 GPT-5 / Claude Opus 4.7)当评委,速度快但有偏 |
新指标(2025-2026 业界常用)
Section titled “新指标(2025-2026 业界常用)”| 指标 | 测啥 |
|---|---|
| MMLU | 综合知识 |
| HellaSwag | 常识推理 |
| GSM8K | 数学题 |
| HumanEval | 代码生成 |
| MT-Bench / Arena Elo | 对话能力(人类盲测投票排名) |
面试怎么答:
“看任务选指标 —— 翻译看 BLEU,摘要看 ROUGE,对话看 Arena Elo,综合能力看 MMLU。成本上,便宜模型先跑小评估集(200-500 条),通过再上生产环境。LLM-as-Judge 适合做规模化筛选,但高风险决策(医疗 / 法律)必须人工兜底。“
三、微调数据清洗(Data Cleaning for Fine-tuning)
Section titled “三、微调数据清洗(Data Cleaning for Fine-tuning)”是啥:训练前把数据 cleanup 一遍。5 个核心步骤:
| 步骤 | 干啥 | 工具 |
|---|---|---|
| 1. 去重(Dedup) | 删重复样本 | hash / 向量相似度 |
| 2. 标签对齐 | 多标注员的标签要统一,不一致就仲裁 | 标注员评分 + PM 仲裁 |
| 3. 噪声过滤 | 错标 / 模糊标 / 低质样本删 | 规则 + 人工抽检 |
| 4. 采样平衡 | 不同类别样本数不能太悬殊 | 上采样 / 下采样 |
| 5. 去敏感 | 隐私 / 偏见 / 政治敏感数据删 | 正则 + 关键词 + 人工 |
PM 产出:一份「数据清洗规则」文档,数据团队按规则执行。
面试怎么答:
“5 步法不是死流程,是优先级。生产环境数据百万级时,优先做去重 + 噪声过滤(成本低 / 收益高),再做标签对齐 + 采样平衡(成本高)。去敏感是合规底线,跑数据前先过。“
四、埋点(Event Tracking)
Section titled “四、埋点(Event Tracking)”是啥:在产品关键节点(用户点击 / 浏览 / AI 回答)插一段追踪代码,记录用户行为数据。
![]()
例:用户点”登录”按钮 → 数据库写一条记录:
{ "event_name": "login_click", "user_id": "U123", "timestamp": 1734567890, "page": "/login", "device": "iOS", "context": {...}}AI PM 关心的埋点:
- 哪些 prompt 用户高频输入? → 找 hot use case
- 哪些 AI 回答让用户立刻关页面? → 找 bad UX
- 哪些 AI 功能用了一次就再也不用? → 找无价值功能
- 跨多轮对话用户卡在哪一步? → 找体验断点
面试怎么答:
“我在做 AI 功能时埋点必含三个核心事件:
ai_response_shown(AI 答案渲染完成)/ai_response_rated(用户评分)/ai_session_abandoned(用户没评分就关页面)。这三个串起来 = 日活 + 留存 + 评分分布 + 异常率 全有了。“
五、埋点需求文档(Event Tracking Spec)
Section titled “五、埋点需求文档(Event Tracking Spec)”是啥:PM 写给工程的文档,列清要追踪的每个事件 + 每个事件记什么字段。
标准格式:
| 事件名 | 触发时机 | 字段 |
|---|---|---|
ai_response_shown | AI 答案渲染完成 | model / input_token / output_token / response_time |
ai_response_rated | 用户评分 | rating (1-5) / user_id / response_id |
ai_session_abandoned | 用户关页面(无评分) | session_duration / last_message_count |
面试常见手撕题:“现场写一个 AI 聊天机器人的埋点规范,列 5 个事件 + 3-5 个字段。”
加分点:
- 解释为什么选这些字段(漏掉某些字段后续分析会做不下去)
- 解释字段命名规范(snake_case / 名词性 / 跟前端组件名一致)
- 提数据隐私(user_id 是否脱敏 / GDPR 合规)
面试怎么答(手撕题):
“我会按用户旅程列事件:进入 → 输入 → AI 响应 → 用户反馈 → 离开。每个事件至少 3 个字段:业务字段(如 rating)+ 关联字段(user_id, session_id)+ 诊断字段(timestamp, model_version)。没有关联字段后续无法 join,没有诊断字段无法定位问题。“
六、RAG 效果评估表
Section titled “六、RAG 效果评估表”是啥:跑 200-500 个测试 query,每个 query 算 4 个指标,出报告。
4 大指标:
| 指标 | 测啥 | 怎么算 |
|---|---|---|
| Recall 召回率 | 真有 N 篇相关文档,搜回多少 | 搜回的相关数 / 总相关数 |
| Precision 精确率 | 搜回 N 篇,真相关多少 | 搜回的相关数 / 搜回总数 |
| 答案准确率 | 答案对不对 | 人评 / LLM 评 |
| Groundedness 事实扎根 | 答案是否真用了检索到的内容 | 答案 vs 检索内容比对 |
标准评估表样式:
| Query | Recall | Precision | 答案准确率 | Groundedness | 备注 |
|---|---|---|---|---|---|
| 公司 X 2024 年报 EPS | 80% | 70% | 对 | 90% | 漏表格数据 |
| 客户退款政策 | 60% | 90% | 部分对 | 70% | 分块切碎 |
面试怎么答(手撕题):
“RAG 评估必看 4 个指标,缺一个都不完整。Recall + Precision 测检索环节,答案准确率 + Groundedness 测生成环节。这两段任何一段出问题最终答案就崩。我看到答案准确率低,会先看 Groundedness:如果 Groundedness 高但准确率低 = 检索没拿对内容(回去 fix 召回 / 分块);如果 Groundedness 低 = 模型幻觉(回去加 prompt 约束或换强模型)。”
这是 RAG debug 必杀技 —— 不是看到准确率低就瞎调,是先定位是哪一环出问题。
七、Badcase 分析
Section titled “七、Badcase 分析”是啥:AI 给的错答 / 怪答 / 不可用的答,一条条复盘 + 归类 + 找根本原因。

典型 Badcase 类别:
| 类别 | 表现 | 根本原因 |
|---|---|---|
| 幻觉 Hallucination | 编不存在的事实 | 模型本身 / prompt 约束不够 |
| RAG 漏召回 | 知识库有答案但搜不到 | 分块 / 向量 / 召回策略问题 |
| 微调过拟合 | 模型学特定模式过度 | 数据配比 / 训练步数问题 |
| 格式出错 | JSON 不合法 / Markdown 跑偏 | 输出约束 / 结构化 API 没用 |
| 越权 | 给政策不允许的答(法律 / 医疗建议) | system prompt + 内容审核 |
PM 工作流:
- 每周 review badcase
- 归类频率 + 优先级(高频高害的 fix 优先)
- 排进迭代(交工程修)
面试怎么答(这是 jackpot 答):
“我做 badcase 分析关键不是 fix 一个 case,是找根本原因类别。RAG 漏召回 = 分块 / 向量问题,微调过拟合 = 数据配比问题,越权 = system prompt + 内容审核问题。一类 fix 一批,比逐个 fix 高效 10 倍。我在 PM review 文档里就按”根本原因类别 + 频率 + 优先级”三列组织 badcase,这样工程不会被 100 个 case 淹没。“
总结:7 个术语怎么记
Section titled “总结:7 个术语怎么记”按”数据进来 → 质量出去”两段记:
数据进来(前 3 个):
- 数据配比 —— 进什么比例的数据
- 数据清洗 —— 数据怎么 cleanup
- (隐藏 #0:数据从哪儿来 —— 标注 / 爬取 / 用户产生)
质量出去(后 4 个): 4. 评估指标 —— 怎么量化好不好 5. 埋点 —— 上线后跟踪 6. 埋点规范 —— PM 标准产出 7. RAG 评估表 + Badcase —— 上线前后的诊断
面试加分小贴士
Section titled “面试加分小贴士”- 能讲根本原因 > 能讲表面现象(badcase 时不说”幻觉”,说”是 prompt 约束不够还是模型本身能力不行”)
- 能讲优先级 > 能讲全清单(数据清洗 5 步,知道哪步先做)
- 能讲 trade-off > 单点指标(LLM-as-Judge 跟 Human Eval 各自的代价)
- 手撕题敢现场列 > 背 spec 模板(埋点规范 / RAG 评估表 现场用纸笔写)
牛学板块导航
Section titled “牛学板块导航”- 上一篇:← Prompt 工程八股
- 本板块:AI 求职速查
- 1/6 Prompt 工程八股
- 2/6 数据与评估八股(就是这一篇)
- 3/6 RAG 八股
- 4/6 Agent 编排八股
- 5/6 协议与上下文八股
- 6/6 工程与商业八股
评论
不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。