跳转到内容

数据与评估八股:AI PM 面试必会的 7 个数据术语

📍 AI 求职速查 2/6 · 上一篇:← Prompt 工程八股

机器人在分拣数据卡片,有的打勾有的标红 X,旁边放着放大镜和笔

简历上写”做过 AI 产品”,面试官扔给你一道案例题:

接手一个 RAG 项目,准确率只有 60%,你怎么 debug?

或者:

怎么 measure 一个 AI feature 上线后效果好不好?"
"你训过 LoRA 吗?数据配比怎么定?"
"给你一个 200 条 query 集让你写评估表,你列哪些指标?

答得稀里糊涂 = 被归到「只看过演示没做过生产环境」。

这一篇把 AI PM 实战必会的 7 个数据术语讲清楚 —— 都是面试现场会手撕的题


任何一个 AI 模型 / 产品的”质量”最终靠两件事撑起来:

  1. 数据怎么来(数据配比 / 清洗 / 准备)
  2. 怎么测好不好(评估指标 / 埋点 / 评估表 / Badcase 分析)

前 3 个术语是”数据进来”,后 4 个是”质量出去”,这一篇把两端打通。


是啥:微调或训练模型时,不同类型数据(通用语料 / 行业语料 / 任务样本)的比例。

举例(训一个法律 AI):

  • 60% 通用语料(让模型保持基本语言能力)
  • 30% 法律语料(让模型懂行话 / 法条引用风格)
  • 10% 任务样本(QA 对话对,让模型学怎么回答)

经验值:

占比结果
行业语料 太低(< 10%)模型学不到领域
行业语料 太高(> 50%)灾难性遗忘 —— 通用能力被覆盖,反而变笨
常见范围行业占比 20-40%

面试怎么答:

“PM 不亲自调比例,但要懂权衡。‘怎么平衡通用 vs 领域?’ —— 我的判断是领域占 20-40% 是起点,看任务复杂度 + 通用能力保留要求调。纯领域数据不会让模型更强,反而忘掉本来会的。“


是啥:量化模型输出好不好的工具。最常被问的就是”你怎么选指标”

三张并排卡片,每张有不同的柱状图和星级,代表不同评估指标

指标用在哪解释
Perplexity 困惑度模型本身模型对测试集的不确定性,越低越好
BLEU机器翻译n-gram 重合度(译文跟参考译文比)
ROUGE摘要4 个变种(ROUGE-1 / 2 / L / W)
F1 / Precision / Recall分类 / 检索召回率 / 精确率 / 调和平均
Human Eval任何人工评分,最靠谱但最贵
LLM-as-Judge任何用另一个模型(比如 GPT-5 / Claude Opus 4.7)当评委,速度快但有偏
指标测啥
MMLU综合知识
HellaSwag常识推理
GSM8K数学题
HumanEval代码生成
MT-Bench / Arena Elo对话能力(人类盲测投票排名)

面试怎么答:

“看任务选指标 —— 翻译看 BLEU,摘要看 ROUGE,对话看 Arena Elo,综合能力看 MMLU。成本上,便宜模型先跑小评估集(200-500 条),通过再上生产环境。LLM-as-Judge 适合做规模化筛选,但高风险决策(医疗 / 法律)必须人工兜底。“


三、微调数据清洗(Data Cleaning for Fine-tuning)

Section titled “三、微调数据清洗(Data Cleaning for Fine-tuning)”

是啥:训练前把数据 cleanup 一遍。5 个核心步骤:

步骤干啥工具
1. 去重(Dedup)删重复样本hash / 向量相似度
2. 标签对齐多标注员的标签要统一,不一致就仲裁标注员评分 + PM 仲裁
3. 噪声过滤错标 / 模糊标 / 低质样本删规则 + 人工抽检
4. 采样平衡不同类别样本数不能太悬殊上采样 / 下采样
5. 去敏感隐私 / 偏见 / 政治敏感数据删正则 + 关键词 + 人工

PM 产出:一份「数据清洗规则」文档,数据团队按规则执行。

面试怎么答:

“5 步法不是死流程,是优先级。生产环境数据百万级时,优先做去重 + 噪声过滤(成本低 / 收益高),再做标签对齐 + 采样平衡(成本高)。去敏感是合规底线,跑数据前先过。“


是啥:在产品关键节点(用户点击 / 浏览 / AI 回答)插一段追踪代码,记录用户行为数据

鼠标指针在网页上留下数据点轨迹,数据图标收集这些点

例:用户点”登录”按钮 → 数据库写一条记录:

{
"event_name": "login_click",
"user_id": "U123",
"timestamp": 1734567890,
"page": "/login",
"device": "iOS",
"context": {...}
}

AI PM 关心的埋点:

  • 哪些 prompt 用户高频输入? → 找 hot use case
  • 哪些 AI 回答让用户立刻关页面? → 找 bad UX
  • 哪些 AI 功能用了一次就再也不用? → 找无价值功能
  • 跨多轮对话用户卡在哪一步? → 找体验断点

面试怎么答:

“我在做 AI 功能时埋点必含三个核心事件:ai_response_shown(AI 答案渲染完成)/ ai_response_rated(用户评分)/ ai_session_abandoned(用户没评分就关页面)。这三个串起来 = 日活 + 留存 + 评分分布 + 异常率 全有了。“


五、埋点需求文档(Event Tracking Spec)

Section titled “五、埋点需求文档(Event Tracking Spec)”

是啥:PM 写给工程的文档,列清要追踪的每个事件 + 每个事件记什么字段。

标准格式:

事件名触发时机字段
ai_response_shownAI 答案渲染完成model / input_token / output_token / response_time
ai_response_rated用户评分rating (1-5) / user_id / response_id
ai_session_abandoned用户关页面(无评分)session_duration / last_message_count

面试常见手撕题:“现场写一个 AI 聊天机器人的埋点规范,列 5 个事件 + 3-5 个字段。”

加分点:

  • 解释为什么选这些字段(漏掉某些字段后续分析会做不下去)
  • 解释字段命名规范(snake_case / 名词性 / 跟前端组件名一致)
  • 数据隐私(user_id 是否脱敏 / GDPR 合规)

面试怎么答(手撕题):

“我会按用户旅程列事件:进入 → 输入 → AI 响应 → 用户反馈 → 离开。每个事件至少 3 个字段:业务字段(如 rating)+ 关联字段(user_id, session_id)+ 诊断字段(timestamp, model_version)。没有关联字段后续无法 join,没有诊断字段无法定位问题。“


是啥:跑 200-500 个测试 query,每个 query 算 4 个指标,出报告。

4 大指标:

指标测啥怎么算
Recall 召回率真有 N 篇相关文档,搜回多少搜回的相关数 / 总相关数
Precision 精确率搜回 N 篇,真相关多少搜回的相关数 / 搜回总数
答案准确率答案对不对人评 / LLM 评
Groundedness 事实扎根答案是否真用了检索到的内容答案 vs 检索内容比对

标准评估表样式:

QueryRecallPrecision答案准确率Groundedness备注
公司 X 2024 年报 EPS80%70%90%漏表格数据
客户退款政策60%90%部分对70%分块切碎

面试怎么答(手撕题):

“RAG 评估必看 4 个指标,缺一个都不完整。Recall + Precision 测检索环节,答案准确率 + Groundedness 测生成环节。这两段任何一段出问题最终答案就崩。我看到答案准确率低,会先看 Groundedness:如果 Groundedness 高但准确率低 = 检索没拿对内容(回去 fix 召回 / 分块);如果 Groundedness 低 = 模型幻觉(回去加 prompt 约束或换强模型)。”

这是 RAG debug 必杀技 —— 不是看到准确率低就瞎调,是先定位是哪一环出问题


是啥:AI 给的错答 / 怪答 / 不可用的答,一条条复盘 + 归类 + 找根本原因

一堆样本卡片中拉出一张标红 X 的问题样本,放大镜检查,机器人思考

典型 Badcase 类别:

类别表现根本原因
幻觉 Hallucination编不存在的事实模型本身 / prompt 约束不够
RAG 漏召回知识库有答案但搜不到分块 / 向量 / 召回策略问题
微调过拟合模型学特定模式过度数据配比 / 训练步数问题
格式出错JSON 不合法 / Markdown 跑偏输出约束 / 结构化 API 没用
越权给政策不允许的答(法律 / 医疗建议)system prompt + 内容审核

PM 工作流:

  • 每周 review badcase
  • 归类频率 + 优先级(高频高害的 fix 优先)
  • 排进迭代(交工程修)

面试怎么答(这是 jackpot 答):

“我做 badcase 分析关键不是 fix 一个 case,是找根本原因类别。RAG 漏召回 = 分块 / 向量问题,微调过拟合 = 数据配比问题,越权 = system prompt + 内容审核问题。一类 fix 一批,比逐个 fix 高效 10 倍。我在 PM review 文档里就按”根本原因类别 + 频率 + 优先级”三列组织 badcase,这样工程不会被 100 个 case 淹没。“


按”数据进来 → 质量出去”两段记:

数据进来(前 3 个):

  1. 数据配比 —— 进什么比例的数据
  2. 数据清洗 —— 数据怎么 cleanup
  3. (隐藏 #0:数据从哪儿来 —— 标注 / 爬取 / 用户产生)

质量出去(后 4 个): 4. 评估指标 —— 怎么量化好不好 5. 埋点 —— 上线后跟踪 6. 埋点规范 —— PM 标准产出 7. RAG 评估表 + Badcase —— 上线前后的诊断


  • 能讲根本原因 > 能讲表面现象(badcase 时不说”幻觉”,说”是 prompt 约束不够还是模型本身能力不行”)
  • 能讲优先级 > 能讲全清单(数据清洗 5 步,知道哪步先做)
  • 能讲 trade-off > 单点指标(LLM-as-Judge 跟 Human Eval 各自的代价)
  • 手撕题敢现场列 > 背 spec 模板(埋点规范 / RAG 评估表 现场用纸笔写)

评论

不记名、不需要注册——不要邮箱,不要手机号,不要任何身份信息,填个昵称就能留言。放心说。

  • 加载中 …