数据与评估八股:AI PM 面试必会的 7 个数据术语

📍 AI 求职速查 2/6 · 上一篇:← Prompt 工程八股

机器人在分拣数据卡片,有的打勾有的标红 X,旁边放着放大镜和笔

你会遇到的开场

简历上写”做过 AI 产品”,面试官扔给你一道案例题:

“接手一个 RAG 项目,准确率只有 60%,你怎么 debug?”

或者:

“怎么 measure 一个 AI feature 上线后效果好不好?"
"你训过 LoRA 吗?数据配比怎么定?"
"给你一个 200 条 query 集让你写评估表,你列哪些指标?”

答得稀里糊涂 = 被归到「只看过演示没做过生产环境」。

这一篇把 AI PM 实战必会的 7 个数据术语讲清楚 —— 都是面试现场会手撕的题。

先建立大局观

任何一个 AI 模型 / 产品的”质量”最终靠两件事撑起来:

数据怎么来(数据配比 / 清洗 / 准备)
怎么测好不好(评估指标 / 埋点 / 评估表 / Badcase 分析)

前 3 个术语是”数据进来”,后 4 个是”质量出去”,这一篇把两端打通。

一、数据配比(Data Mixing Ratio)

是啥:微调或训练模型时,不同类型数据(通用语料 / 行业语料 / 任务样本)的比例。

举例(训一个法律 AI):

60% 通用语料(让模型保持基本语言能力)
30% 法律语料(让模型懂行话 / 法条引用风格)
10% 任务样本(QA 对话对,让模型学怎么回答)

经验值:

占比	结果
行业语料太低(< 10%)	模型学不到领域
行业语料太高(> 50%)	灾难性遗忘 —— 通用能力被覆盖,反而变笨
常见范围	行业占比 20-40%

面试怎么答:

“PM 不亲自调比例,但要懂权衡。‘怎么平衡通用 vs 领域?’ —— 我的判断是领域占 20-40% 是起点,看任务复杂度 + 通用能力保留要求调。纯领域数据不会让模型更强,反而忘掉本来会的。“

二、评估指标(Evaluation Metrics)

是啥:量化模型输出好不好的工具。最常被问的就是”你怎么选指标”。

三张并排卡片,每张有不同的柱状图和星级,代表不同评估指标

经典指标(必背)

指标	用在哪	解释
Perplexity 困惑度	模型本身	模型对测试集的不确定性,越低越好
BLEU	机器翻译	n-gram 重合度(译文跟参考译文比)
ROUGE	摘要	4 个变种(ROUGE-1 / 2 / L / W)
F1 / Precision / Recall	分类 / 检索	召回率 / 精确率 / 调和平均
Human Eval	任何	人工评分,最靠谱但最贵
LLM-as-Judge	任何	用另一个模型(比如 GPT-5 / Claude Opus 4.7)当评委,速度快但有偏

新指标(2025-2026 业界常用)

指标	测啥
MMLU	综合知识
HellaSwag	常识推理
GSM8K	数学题
HumanEval	代码生成
MT-Bench / Arena Elo	对话能力(人类盲测投票排名)

面试怎么答:

“看任务选指标 —— 翻译看 BLEU,摘要看 ROUGE,对话看 Arena Elo,综合能力看 MMLU。成本上,便宜模型先跑小评估集(200-500 条),通过再上生产环境。LLM-as-Judge 适合做规模化筛选,但高风险决策(医疗 / 法律)必须人工兜底。“

三、微调数据清洗(Data Cleaning for Fine-tuning)

是啥:训练前把数据 cleanup 一遍。5 个核心步骤:

步骤	干啥	工具
1. 去重(Dedup)	删重复样本	hash / 向量相似度
2. 标签对齐	多标注员的标签要统一,不一致就仲裁	标注员评分 + PM 仲裁
3. 噪声过滤	错标 / 模糊标 / 低质样本删	规则 + 人工抽检
4. 采样平衡	不同类别样本数不能太悬殊	上采样 / 下采样
5. 去敏感	隐私 / 偏见 / 政治敏感数据删	正则 + 关键词 + 人工

PM 产出:一份「数据清洗规则」文档,数据团队按规则执行。

面试怎么答:

“5 步法不是死流程,是优先级。生产环境数据百万级时,优先做去重 + 噪声过滤(成本低 / 收益高),再做标签对齐 + 采样平衡(成本高)。去敏感是合规底线,跑数据前先过。“

四、埋点(Event Tracking)

是啥:在产品关键节点(用户点击 / 浏览 / AI 回答)插一段追踪代码,记录用户行为数据。

鼠标指针在网页上留下数据点轨迹,数据图标收集这些点

例:用户点”登录”按钮 → 数据库写一条记录:

{
  "event_name": "login_click",
  "user_id": "U123",
  "timestamp": 1734567890,
  "page": "/login",
  "device": "iOS",
  "context": {...}
}

AI PM 关心的埋点:

哪些 prompt 用户高频输入? → 找 hot use case
哪些 AI 回答让用户立刻关页面? → 找 bad UX
哪些 AI 功能用了一次就再也不用? → 找无价值功能
跨多轮对话用户卡在哪一步? → 找体验断点

面试怎么答:

“我在做 AI 功能时埋点必含三个核心事件:ai_response_shown(AI 答案渲染完成)/ ai_response_rated(用户评分)/ ai_session_abandoned(用户没评分就关页面)。这三个串起来 = 日活 + 留存 + 评分分布 + 异常率全有了。“

五、埋点需求文档(Event Tracking Spec)

是啥:PM 写给工程的文档,列清要追踪的每个事件 + 每个事件记什么字段。

标准格式:

事件名	触发时机	字段
`ai_response_shown`	AI 答案渲染完成	model / input_token / output_token / response_time
`ai_response_rated`	用户评分	rating (1-5) / user_id / response_id
`ai_session_abandoned`	用户关页面(无评分)	session_duration / last_message_count

面试常见手撕题:“现场写一个 AI 聊天机器人的埋点规范,列 5 个事件 + 3-5 个字段。”

加分点:

解释为什么选这些字段(漏掉某些字段后续分析会做不下去)
解释字段命名规范(snake_case / 名词性 / 跟前端组件名一致)
提数据隐私(user_id 是否脱敏 / GDPR 合规)

面试怎么答(手撕题):

“我会按用户旅程列事件:进入 → 输入 → AI 响应 → 用户反馈 → 离开。每个事件至少 3 个字段:业务字段(如 rating)+ 关联字段(user_id, session_id)+ 诊断字段(timestamp, model_version)。没有关联字段后续无法 join,没有诊断字段无法定位问题。“

六、RAG 效果评估表

是啥:跑 200-500 个测试 query,每个 query 算 4 个指标,出报告。

4 大指标:

指标	测啥	怎么算
Recall 召回率	真有 N 篇相关文档,搜回多少	搜回的相关数 / 总相关数
Precision 精确率	搜回 N 篇,真相关多少	搜回的相关数 / 搜回总数
答案准确率	答案对不对	人评 / LLM 评
Groundedness 事实扎根	答案是否真用了检索到的内容	答案 vs 检索内容比对

标准评估表样式:

Query	Recall	Precision	答案准确率	Groundedness	备注
公司 X 2024 年报 EPS	80%	70%	对	90%	漏表格数据
客户退款政策	60%	90%	部分对	70%	分块切碎

面试怎么答(手撕题):

“RAG 评估必看 4 个指标,缺一个都不完整。Recall + Precision 测检索环节,答案准确率 + Groundedness 测生成环节。这两段任何一段出问题最终答案就崩。我看到答案准确率低,会先看 Groundedness:如果 Groundedness 高但准确率低 = 检索没拿对内容(回去 fix 召回 / 分块);如果 Groundedness 低 = 模型幻觉(回去加 prompt 约束或换强模型)。”

这是 RAG debug 必杀技 —— 不是看到准确率低就瞎调,是先定位是哪一环出问题。

七、Badcase 分析

是啥:AI 给的错答 / 怪答 / 不可用的答,一条条复盘 + 归类 + 找根本原因。

一堆样本卡片中拉出一张标红 X 的问题样本,放大镜检查,机器人思考

典型 Badcase 类别:

类别	表现	根本原因
幻觉 Hallucination	编不存在的事实	模型本身 / prompt 约束不够
RAG 漏召回	知识库有答案但搜不到	分块 / 向量 / 召回策略问题
微调过拟合	模型学特定模式过度	数据配比 / 训练步数问题
格式出错	JSON 不合法 / Markdown 跑偏	输出约束 / 结构化 API 没用
越权	给政策不允许的答(法律 / 医疗建议)	system prompt + 内容审核

PM 工作流:

每周 review badcase
归类频率 + 优先级(高频高害的 fix 优先)
排进迭代(交工程修)

面试怎么答(这是 jackpot 答):

“我做 badcase 分析关键不是 fix 一个 case,是找根本原因类别。RAG 漏召回 = 分块 / 向量问题,微调过拟合 = 数据配比问题,越权 = system prompt + 内容审核问题。一类 fix 一批,比逐个 fix 高效 10 倍。我在 PM review 文档里就按”根本原因类别 + 频率 + 优先级”三列组织 badcase,这样工程不会被 100 个 case 淹没。“

总结:7 个术语怎么记

按”数据进来 → 质量出去”两段记:

数据进来(前 3 个):

数据配比 —— 进什么比例的数据
数据清洗 —— 数据怎么 cleanup
(隐藏 #0:数据从哪儿来 —— 标注 / 爬取 / 用户产生)

质量出去(后 4 个): 4. 评估指标 —— 怎么量化好不好 5. 埋点 —— 上线后跟踪 6. 埋点规范 —— PM 标准产出 7. RAG 评估表 + Badcase —— 上线前后的诊断

面试加分小贴士

能讲根本原因 > 能讲表面现象(badcase 时不说”幻觉”,说”是 prompt 约束不够还是模型本身能力不行”)
能讲优先级 > 能讲全清单(数据清洗 5 步,知道哪步先做)
能讲 trade-off > 单点指标(LLM-as-Judge 跟 Human Eval 各自的代价)
手撕题敢现场列 > 背 spec 模板(埋点规范 / RAG 评估表现场用纸笔写)

牛学板块导航

上一篇:← Prompt 工程八股
本板块:AI 求职速查
- 1/6 Prompt 工程八股
- 2/6 数据与评估八股(就是这一篇)
- 3/6 RAG 八股
- 4/6 Agent 编排八股
- 5/6 协议与上下文八股
- 6/6 工程与商业八股

不记名、不需要注册——不要邮箱，不要手机号，不要任何身份信息，填个昵称就能留言。放心说。

加载中 …

数据与评估八股:AI PM 面试必会的 7 个数据术语

你会遇到的开场

先建立大局观

一、数据配比(Data Mixing Ratio)

二、评估指标(Evaluation Metrics)

经典指标(必背)

新指标(2025-2026 业界常用)

三、微调数据清洗(Data Cleaning for Fine-tuning)

四、埋点(Event Tracking)

五、埋点需求文档(Event Tracking Spec)

六、RAG 效果评估表

七、Badcase 分析

总结:7 个术语怎么记

面试加分小贴士

牛学板块导航

🍊 觉得这篇有用？

相关阅读

评论