Day 20:如何用测试集证明RAG不是凭感觉好用

整改版本:按Day01工程化标准重写|不是泛泛课程笔记

生成时间:2026-06-09 15:32

今日实战:RAG 20题评测集。
业务场景:设计文档内、模糊、无依据问题,记录召回和答案。

1. 当天学习目标

2. 精准视频定位

学习模块视频 / 分P / 章节建议观看重点
检索命中LangGraph教程:RAG实战Indexing、Retrieval、如何提升RAG质量。重点看它如何支撑“RAG 20题评测集”,不要全刷,只按关键词定位。
答案准确LangGraph教程:RAG实战Indexing、Retrieval、如何提升RAG质量。重点看它如何支撑“RAG 20题评测集”,不要全刷,只按关键词定位。
引用准确LangGraph教程:RAG实战Indexing、Retrieval、如何提升RAG质量。重点看它如何支撑“RAG 20题评测集”,不要全刷,只按关键词定位。
拒答率LangGraph教程:RAG实战Indexing、Retrieval、如何提升RAG质量。重点看它如何支撑“RAG 20题评测集”,不要全刷,只按关键词定位。
失败归因LangGraph教程:RAG实战Indexing、Retrieval、如何提升RAG质量。重点看它如何支撑“RAG 20题评测集”,不要全刷,只按关键词定位。

如果原视频分P标题变化,请按模块关键词人工定位;不要全刷。

3. 背诵版核心内容

3.1 检索命中

一句话理解:检索命中 是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会:检索命中 不是孤立概念,它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用:在“RAG 20题评测集”中,我要用它解决:设计文档内、模糊、无依据问题,记录召回和答案。

面试时怎么说:我会把 检索命中 放到业务场景里讲,先说明它解决什么问题,再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答:如果被追问,我会补充它的输入、输出、异常情况和工程边界,避免只背定义。

3.2 答案准确

一句话理解:答案准确 是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会:答案准确 不是孤立概念,它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用:在“RAG 20题评测集”中,我要用它解决:设计文档内、模糊、无依据问题,记录召回和答案。

面试时怎么说:我会把 答案准确 放到业务场景里讲,先说明它解决什么问题,再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答:如果被追问,我会补充它的输入、输出、异常情况和工程边界,避免只背定义。

3.3 引用准确

一句话理解:引用准确 是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会:引用准确 不是孤立概念,它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用:在“RAG 20题评测集”中,我要用它解决:设计文档内、模糊、无依据问题,记录召回和答案。

面试时怎么说:我会把 引用准确 放到业务场景里讲,先说明它解决什么问题,再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答:如果被追问,我会补充它的输入、输出、异常情况和工程边界,避免只背定义。

3.4 拒答率

一句话理解:拒答率 是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会:拒答率 不是孤立概念,它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用:在“RAG 20题评测集”中,我要用它解决:设计文档内、模糊、无依据问题,记录召回和答案。

面试时怎么说:我会把 拒答率 放到业务场景里讲,先说明它解决什么问题,再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答:如果被追问,我会补充它的输入、输出、异常情况和工程边界,避免只背定义。

3.5 失败归因

一句话理解:失败归因 是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会:失败归因 不是孤立概念,它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用:在“RAG 20题评测集”中,我要用它解决:设计文档内、模糊、无依据问题,记录召回和答案。

面试时怎么说:我会把 失败归因 放到业务场景里讲,先说明它解决什么问题,再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答:如果被追问,我会补充它的输入、输出、异常情况和工程边界,避免只背定义。

4. 必须掌握原理

原理 1:RAG评测的工程本质

一句话解释:它的本质是让“设计文档内、模糊、无依据问题,记录召回和答案。”变成可执行、可验证、可复用的工程流程。

为什么重要:AI工程面试不只考知道概念,更考能否把概念变成项目产出。

在 AI 工程里的使用场景:FastAPI接口、DEAP工作流、RAG知识库、Agent工具、制造业数据分析。

面试表达:我会先讲业务问题,再讲RAG评测如何支撑这个问题的解决。

原理 2:结构化输入输出

一句话解释:企业AI应用要把自然语言、业务字段、接口返回和模型回答整理成结构化输入输出。

为什么重要:没有结构化输入输出,工作流和Agent就无法稳定复用。

在 AI 工程里的使用场景:JSON、API参数、Pydantic模型、Tool Schema、AI表格字段、RAG片段。

面试表达:我会关注每一步的输入、输出和字段含义,而不是只追求模型回答。

原理 3:工程边界与风险控制

一句话解释:AI能力必须有边界:权限、日志、错误兜底、拒答、人审和测试。

为什么重要:企业场景中误调用接口、误写数据、编造答案都会产生真实风险。

在 AI 工程里的使用场景:销帮帮写入、财务问答、合同分析、制造业订单风险预警。

面试表达:我会明确哪些可以自动化,哪些必须人工确认。

5. 当天实战小项目 / 产物

产物目录:/Users/hejunkai/Documents/AI工程师/28天每日背诵文档/Day20_RAG评测_实战项目

核心文件:day20_rag_eval_set.json

{
  "day": 20,
  "theme": "如何用测试集证明RAG不是凭感觉好用",
  "modules": [
    "检索命中",
    "答案准确",
    "引用准确",
    "拒答率",
    "失败归因"
  ],
  "expected": "能用评测定位解析/切分/召回/Prompt问题。"
}

验收目标:能用评测定位解析/切分/召回/Prompt问题。

6. 当天必须会写 / 会操作的内容

操作任务要求验收方式
完成当天实战产物生成或阅读 day20_rag_eval_set.json能用评测定位解析/切分/召回/Prompt问题。
解释输入数据说清用户问题、字段、接口参数或文档来源能说出每个字段的业务含义
解释处理过程按步骤说明筛选、校验、调用、检索、生成或汇总逻辑别人能按你的说明复现
解释输出结果说明输出JSON、Markdown、Schema、流程图或讲解稿的用途能关联FastAPI/Agent/悟空/DEAP
准备面试表达用2-3分钟讲清当天主题能回答至少3个追问

7. 当天验收标准:8道硬题

验收题 1:概念理解题
问题:RAG评测在企业AI项目中解决什么问题?
操作过程 / 思考过程:
  1. 先用一句话说本质
  2. 结合当天场景举例
  3. 补充工程边界
标准答案:RAG评测不是孤立概念,它服务于“设计文档内、模糊、无依据问题,记录召回和答案。”。在项目里要关注输入、处理、输出和风险。
掌握标准:能用业务场景解释,而不是只背定义。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 2:视频定位复盘题
问题:今天视频定位里最关键的模块是哪几个?
操作过程 / 思考过程:
  1. 列出模块
  2. 说明每个模块的作用
  3. 对应到实战产物
标准答案:关键模块包括:检索命中、答案准确、引用准确、拒答率、失败归因。
掌握标准:能把模块和实战任务对应起来。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 3:操作题1
问题:请完成当天产物:day20_rag_eval_set.json
操作过程 / 思考过程:
  1. 打开实战项目目录
  2. 查看或运行示例文件
  3. 说明产物用途
标准答案:能用评测定位解析/切分/召回/Prompt问题。
掌握标准:能展示文件并解释其用途。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 4:操作题2
问题:请说明这个产物如何升级成FastAPI接口或Agent Tool。
操作过程 / 思考过程:
  1. 识别输入参数
  2. 封装业务逻辑
  3. 定义接口或Tool Schema
  4. 说明返回JSON
标准答案:升级路径是:先把逻辑封装成函数或服务,再用FastAPI暴露接口,最后给Agent/悟空/DEAP配置为可调用工具。
掌握标准:能说出输入、输出和调用方式。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 5:原理解释题
问题:为什么企业AI应用不能只靠Prompt解决这个问题?
操作过程 / 思考过程:
  1. 说明Prompt局限
  2. 说明数据/接口/工具的重要性
  3. 说明风险控制
标准答案:Prompt适合表达规则和生成话术,但稳定的数据查询、金额计算、接口调用、权限控制和日志记录需要工程能力完成。
掌握标准:能区分模型生成和程序执行。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 6:易错题
问题:学习RAG评测时最容易犯什么错?
操作过程 / 思考过程:
  1. 指出一个常见误区
  2. 给出正确理解
  3. 说明项目后果
标准答案:常见错误是只记概念、不做产物,或把平台配置当成底层原理。正确做法是形成可解释、可演示、可验证的产出。
掌握标准:能主动指出误区。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 7:面试表达题
问题:请用2分钟讲清:如何用测试集证明RAG不是凭感觉好用
操作过程 / 思考过程:
  1. 业务背景
  2. 技术实现
  3. 产出结果
  4. 边界风险
标准答案:我会从“设计文档内、模糊、无依据问题,记录召回和答案。”讲起,再说明用RAG评测完成工程闭环,最后说明如何接入FastAPI/RAG/Agent/悟空/DEAP。
掌握标准:能自然讲,不像背书。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。
验收题 8:迁移应用题
问题:如果换成制造业订单/库存/工单场景,你怎么迁移今天的方法?
操作过程 / 思考过程:
  1. 找到同类业务对象
  2. 设计字段和接口
  3. 复用处理流程
  4. 补充异常兜底
标准答案:方法可以迁移到ERP、MES、WMS、财务等系统,只要重新定义业务对象、字段映射、接口参数和输出模板。
掌握标准:能从一个场景迁移到另一个场景。
面试官可能追问:如果真实落地,你还要补什么?
追问回答:我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制,不会把原型说成生产系统。

8. 面试高频问法:候选人现场回答版

  1. 面试官可能问:你怎么理解RAG评测在AI工程里的作用?
    候选人现场回答版:我会从业务场景讲:设计文档内、模糊、无依据问题,记录召回和答案。。RAG评测的价值是把这个问题变成可执行、可验证的工程流程。
  2. 面试官可能问:这个知识点和你的简历项目有什么关系?
    候选人现场回答版:它可以对应我的悟空/DEAP技能、FastAPI接口、RAG知识库、Agent工具或制造业多系统Agent项目。
  3. 面试官可能问:你能现场展示什么?
    候选人现场回答版:我可以展示当天产物 day20_rag_eval_set.json,说明输入、处理过程、输出和后续升级路径。
  4. 面试官可能问:它如何升级成Agent Tool?
    候选人现场回答版:先封装成函数或API,再定义工具名称、描述和参数Schema,让Agent在合适场景调用。
  5. 面试官可能问:它如何接入悟空/DEAP?
    候选人现场回答版:通过工作流节点传入参数、调用API或读取AI表格,再把结果交给模型生成回复或报告。
  6. 面试官可能问:如果数据错了怎么办?
    候选人现场回答版:先检查字段映射、数据类型、接口返回、日志和测试集,必要时转人工确认。
  7. 面试官可能问:如何向非技术客户解释?
    候选人现场回答版:我会用业务语言说它如何减少手工整理、提升响应速度、让数据分析可追溯。
  8. 面试官可能问:它和制造业有什么关系?
    候选人现场回答版:制造业ERP/MES/WMS/财务数据都需要通过结构化数据、接口、工具和工作流连接起来。
  9. 面试官可能问:你目前做到什么程度?
    候选人现场回答版:我会如实说明是学习验证、原型、联调还是可演示项目,不编造上线效果。
  10. 面试官可能问:你如何证明自己掌握了?
    候选人现场回答版:我能讲清原理,完成RAG 20题评测集,并把它映射到真实AI应用场景。

9. 当天易忘点提醒

易忘点正确理解错误理解
只背定义要结合业务输入、处理、输出讲把技术点说成百科解释
忽略产物每天必须有代码、JSON、Schema、流程图或讲解稿只看视频不做东西
混淆原型和生产原型要如实说,生产还需权限/日志/测试/部署把MVP说成已上线系统
忽略字段和数据结构企业AI落地关键是字段、接口、数据结构只关注模型回答
忽略异常兜底接口失败、资料不足、写入风险都要处理假设每次都成功

10. 当天复盘背诵稿

今天我复盘的是“如何用测试集证明RAG不是凭感觉好用”。我不能把它当成孤立知识点来背,而要把它放到企业AI应用工程里理解。当天场景是:设计文档内、模糊、无依据问题,记录召回和答案。。围绕这个场景,我需要掌握检索命中、答案准确、引用准确、拒答率、失败归因,并形成产物 day20_rag_eval_set.json。面试时我会先讲业务背景,再讲技术实现,再讲输出结果和工程边界。这个知识点可以和我的FastAPI接口、RAG知识库、Agent Tool、悟空/DEAP工作流、AI表格以及制造业ERP/MES/WMS数据分析联系起来。我需要强调,AI工程不是只会调用模型或写Prompt,而是要把业务数据结构化、把能力封装成函数或接口、让工作流或Agent能够稳定调用,并通过日志、测试、权限和人审控制风险。如果面试官追问我做到什么程度,我会如实说明当前是学习验证、原型还是可演示项目,并展示当天产物。最终我要表达的是:我不是纯算法研究员,而是偏AI应用落地、企业系统连接和制造业场景解决方案的候选人。