Day 20：如何用测试集证明RAG不是凭感觉好用

整改版本：按Day01工程化标准重写｜不是泛泛课程笔记

生成时间：2026-06-09 15:32

今日实战：RAG 20题评测集。
业务场景：设计文档内、模糊、无依据问题，记录召回和答案。

1. 当天学习目标

能围绕“如何用测试集证明RAG不是凭感觉好用”讲清楚是什么、为什么、怎么用、项目里怎么落地。
能完成当天实战任务：RAG 20题评测集。
能把当天知识点关联到你的AI应用岗位定位：AI工程师、AI Agent应用工程师、AI解决方案顾问。
能用业务场景表达技术，不只背概念。
能拿出当天产物 day20_rag_eval_set.json 作为面试证据。

2. 精准视频定位

学习模块	视频 / 分P / 章节	建议观看重点
检索命中	LangGraph教程：RAG实战Indexing、Retrieval、如何提升RAG质量。	重点看它如何支撑“RAG 20题评测集”，不要全刷，只按关键词定位。
答案准确	LangGraph教程：RAG实战Indexing、Retrieval、如何提升RAG质量。	重点看它如何支撑“RAG 20题评测集”，不要全刷，只按关键词定位。
引用准确	LangGraph教程：RAG实战Indexing、Retrieval、如何提升RAG质量。	重点看它如何支撑“RAG 20题评测集”，不要全刷，只按关键词定位。
拒答率	LangGraph教程：RAG实战Indexing、Retrieval、如何提升RAG质量。	重点看它如何支撑“RAG 20题评测集”，不要全刷，只按关键词定位。
失败归因	LangGraph教程：RAG实战Indexing、Retrieval、如何提升RAG质量。	重点看它如何支撑“RAG 20题评测集”，不要全刷，只按关键词定位。

如果原视频分P标题变化，请按模块关键词人工定位；不要全刷。

3. 背诵版核心内容

3.1 检索命中

一句话理解：检索命中是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会：检索命中不是孤立概念，它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用：在“RAG 20题评测集”中，我要用它解决：设计文档内、模糊、无依据问题，记录召回和答案。

面试时怎么说：我会把检索命中放到业务场景里讲，先说明它解决什么问题，再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答：如果被追问，我会补充它的输入、输出、异常情况和工程边界，避免只背定义。

3.2 答案准确

一句话理解：答案准确是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会：答案准确不是孤立概念，它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用：在“RAG 20题评测集”中，我要用它解决：设计文档内、模糊、无依据问题，记录召回和答案。

面试时怎么说：我会把答案准确放到业务场景里讲，先说明它解决什么问题，再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答：如果被追问，我会补充它的输入、输出、异常情况和工程边界，避免只背定义。

3.3 引用准确

一句话理解：引用准确是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会：引用准确不是孤立概念，它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用：在“RAG 20题评测集”中，我要用它解决：设计文档内、模糊、无依据问题，记录召回和答案。

面试时怎么说：我会把引用准确放到业务场景里讲，先说明它解决什么问题，再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答：如果被追问，我会补充它的输入、输出、异常情况和工程边界，避免只背定义。

3.4 拒答率

一句话理解：拒答率是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会：拒答率不是孤立概念，它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用：在“RAG 20题评测集”中，我要用它解决：设计文档内、模糊、无依据问题，记录召回和答案。

面试时怎么说：我会把拒答率放到业务场景里讲，先说明它解决什么问题，再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答：如果被追问，我会补充它的输入、输出、异常情况和工程边界，避免只背定义。

3.5 失败归因

一句话理解：失败归因是完成“RAG 20题评测集”这个任务时必须掌握的一个工程环节。

AI 工程里为什么必须会：失败归因不是孤立概念，它会影响接口参数、JSON结构、工作流节点、Agent工具、RAG结果或制造业业务数据能否被稳定处理。

项目里怎么用：在“RAG 20题评测集”中，我要用它解决：设计文档内、模糊、无依据问题，记录召回和答案。

面试时怎么说：我会把失败归因放到业务场景里讲，先说明它解决什么问题，再说明它如何支撑 FastAPI、RAG、Agent、悟空/DEAP 或 AI表格的落地。

面试官追问怎么答：如果被追问，我会补充它的输入、输出、异常情况和工程边界，避免只背定义。

4. 必须掌握原理

原理 1：RAG评测的工程本质

一句话解释：它的本质是让“设计文档内、模糊、无依据问题，记录召回和答案。”变成可执行、可验证、可复用的工程流程。

为什么重要：AI工程面试不只考知道概念，更考能否把概念变成项目产出。

在 AI 工程里的使用场景：FastAPI接口、DEAP工作流、RAG知识库、Agent工具、制造业数据分析。

面试表达：我会先讲业务问题，再讲RAG评测如何支撑这个问题的解决。

原理 2：结构化输入输出

一句话解释：企业AI应用要把自然语言、业务字段、接口返回和模型回答整理成结构化输入输出。

为什么重要：没有结构化输入输出，工作流和Agent就无法稳定复用。

在 AI 工程里的使用场景：JSON、API参数、Pydantic模型、Tool Schema、AI表格字段、RAG片段。

面试表达：我会关注每一步的输入、输出和字段含义，而不是只追求模型回答。

原理 3：工程边界与风险控制

一句话解释：AI能力必须有边界：权限、日志、错误兜底、拒答、人审和测试。

为什么重要：企业场景中误调用接口、误写数据、编造答案都会产生真实风险。

在 AI 工程里的使用场景：销帮帮写入、财务问答、合同分析、制造业订单风险预警。

面试表达：我会明确哪些可以自动化，哪些必须人工确认。

5. 当天实战小项目 / 产物

产物目录：/Users/hejunkai/Documents/AI工程师/28天每日背诵文档/Day20_RAG评测_实战项目

核心文件：day20_rag_eval_set.json

{
  "day": 20,
  "theme": "如何用测试集证明RAG不是凭感觉好用",
  "modules": [
    "检索命中",
    "答案准确",
    "引用准确",
    "拒答率",
    "失败归因"
  ],
  "expected": "能用评测定位解析/切分/召回/Prompt问题。"
}

验收目标：能用评测定位解析/切分/召回/Prompt问题。

6. 当天必须会写 / 会操作的内容

操作任务	要求	验收方式
完成当天实战产物	生成或阅读 day20_rag_eval_set.json	能用评测定位解析/切分/召回/Prompt问题。
解释输入数据	说清用户问题、字段、接口参数或文档来源	能说出每个字段的业务含义
解释处理过程	按步骤说明筛选、校验、调用、检索、生成或汇总逻辑	别人能按你的说明复现
解释输出结果	说明输出JSON、Markdown、Schema、流程图或讲解稿的用途	能关联FastAPI/Agent/悟空/DEAP
准备面试表达	用2-3分钟讲清当天主题	能回答至少3个追问

7. 当天验收标准：8道硬题

验收题 1：概念理解题
问题：RAG评测在企业AI项目中解决什么问题？

操作过程 / 思考过程：

先用一句话说本质
结合当天场景举例
补充工程边界

标准答案：RAG评测不是孤立概念，它服务于“设计文档内、模糊、无依据问题，记录召回和答案。”。在项目里要关注输入、处理、输出和风险。

掌握标准：能用业务场景解释，而不是只背定义。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 2：视频定位复盘题
问题：今天视频定位里最关键的模块是哪几个？

操作过程 / 思考过程：

列出模块
说明每个模块的作用
对应到实战产物

标准答案：关键模块包括：检索命中、答案准确、引用准确、拒答率、失败归因。

掌握标准：能把模块和实战任务对应起来。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 3：操作题1
问题：请完成当天产物：day20_rag_eval_set.json

操作过程 / 思考过程：

打开实战项目目录
查看或运行示例文件
说明产物用途

标准答案：能用评测定位解析/切分/召回/Prompt问题。

掌握标准：能展示文件并解释其用途。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 4：操作题2
问题：请说明这个产物如何升级成FastAPI接口或Agent Tool。

操作过程 / 思考过程：

识别输入参数
封装业务逻辑
定义接口或Tool Schema
说明返回JSON

标准答案：升级路径是：先把逻辑封装成函数或服务，再用FastAPI暴露接口，最后给Agent/悟空/DEAP配置为可调用工具。

掌握标准：能说出输入、输出和调用方式。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 5：原理解释题
问题：为什么企业AI应用不能只靠Prompt解决这个问题？

操作过程 / 思考过程：

说明Prompt局限
说明数据/接口/工具的重要性
说明风险控制

标准答案：Prompt适合表达规则和生成话术，但稳定的数据查询、金额计算、接口调用、权限控制和日志记录需要工程能力完成。

掌握标准：能区分模型生成和程序执行。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 6：易错题
问题：学习RAG评测时最容易犯什么错？

操作过程 / 思考过程：

指出一个常见误区
给出正确理解
说明项目后果

标准答案：常见错误是只记概念、不做产物，或把平台配置当成底层原理。正确做法是形成可解释、可演示、可验证的产出。

掌握标准：能主动指出误区。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 7：面试表达题
问题：请用2分钟讲清：如何用测试集证明RAG不是凭感觉好用

操作过程 / 思考过程：

业务背景
技术实现
产出结果
边界风险

标准答案：我会从“设计文档内、模糊、无依据问题，记录召回和答案。”讲起，再说明用RAG评测完成工程闭环，最后说明如何接入FastAPI/RAG/Agent/悟空/DEAP。

掌握标准：能自然讲，不像背书。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

验收题 8：迁移应用题
问题：如果换成制造业订单/库存/工单场景，你怎么迁移今天的方法？

操作过程 / 思考过程：

找到同类业务对象
设计字段和接口
复用处理流程
补充异常兜底

标准答案：方法可以迁移到ERP、MES、WMS、财务等系统，只要重新定义业务对象、字段映射、接口参数和输出模板。

掌握标准：能从一个场景迁移到另一个场景。

面试官可能追问：如果真实落地，你还要补什么？

追问回答：我会补权限、日志、异常兜底、测试数据、真实接口和人工确认机制，不会把原型说成生产系统。

8. 面试高频问法：候选人现场回答版

面试官可能问：你怎么理解RAG评测在AI工程里的作用？
候选人现场回答版：我会从业务场景讲：设计文档内、模糊、无依据问题，记录召回和答案。。RAG评测的价值是把这个问题变成可执行、可验证的工程流程。
面试官可能问：这个知识点和你的简历项目有什么关系？
候选人现场回答版：它可以对应我的悟空/DEAP技能、FastAPI接口、RAG知识库、Agent工具或制造业多系统Agent项目。
面试官可能问：你能现场展示什么？
候选人现场回答版：我可以展示当天产物 day20_rag_eval_set.json，说明输入、处理过程、输出和后续升级路径。
面试官可能问：它如何升级成Agent Tool？
候选人现场回答版：先封装成函数或API，再定义工具名称、描述和参数Schema，让Agent在合适场景调用。
面试官可能问：它如何接入悟空/DEAP？
候选人现场回答版：通过工作流节点传入参数、调用API或读取AI表格，再把结果交给模型生成回复或报告。
面试官可能问：如果数据错了怎么办？
候选人现场回答版：先检查字段映射、数据类型、接口返回、日志和测试集，必要时转人工确认。
面试官可能问：如何向非技术客户解释？
候选人现场回答版：我会用业务语言说它如何减少手工整理、提升响应速度、让数据分析可追溯。
面试官可能问：它和制造业有什么关系？
候选人现场回答版：制造业ERP/MES/WMS/财务数据都需要通过结构化数据、接口、工具和工作流连接起来。
面试官可能问：你目前做到什么程度？
候选人现场回答版：我会如实说明是学习验证、原型、联调还是可演示项目，不编造上线效果。
面试官可能问：你如何证明自己掌握了？
候选人现场回答版：我能讲清原理，完成RAG 20题评测集，并把它映射到真实AI应用场景。

9. 当天易忘点提醒

易忘点	正确理解	错误理解
只背定义	要结合业务输入、处理、输出讲	把技术点说成百科解释
忽略产物	每天必须有代码、JSON、Schema、流程图或讲解稿	只看视频不做东西
混淆原型和生产	原型要如实说，生产还需权限/日志/测试/部署	把MVP说成已上线系统
忽略字段和数据结构	企业AI落地关键是字段、接口、数据结构	只关注模型回答
忽略异常兜底	接口失败、资料不足、写入风险都要处理	假设每次都成功

10. 当天复盘背诵稿

今天我复盘的是“如何用测试集证明RAG不是凭感觉好用”。我不能把它当成孤立知识点来背，而要把它放到企业AI应用工程里理解。当天场景是：设计文档内、模糊、无依据问题，记录召回和答案。。围绕这个场景，我需要掌握检索命中、答案准确、引用准确、拒答率、失败归因，并形成产物 day20_rag_eval_set.json。面试时我会先讲业务背景，再讲技术实现，再讲输出结果和工程边界。这个知识点可以和我的FastAPI接口、RAG知识库、Agent Tool、悟空/DEAP工作流、AI表格以及制造业ERP/MES/WMS数据分析联系起来。我需要强调，AI工程不是只会调用模型或写Prompt，而是要把业务数据结构化、把能力封装成函数或接口、让工作流或Agent能够稳定调用，并通过日志、测试、权限和人审控制风险。如果面试官追问我做到什么程度，我会如实说明当前是学习验证、原型还是可演示项目，并展示当天产物。最终我要表达的是：我不是纯算法研究员，而是偏AI应用落地、企业系统连接和制造业场景解决方案的候选人。

返回目录