核心成功路径
用户按预期流程使用: 没有填写用户路径。
未指定 AI 功能 能完成主要任务, 不需要人工修正关键事实。
根据 AI 功能、风险和用户路径生成 eval 用例、通过标准和边界情况。
用户按预期流程使用: 没有填写用户路径。
未指定 AI 功能 能完成主要任务, 不需要人工修正关键事实。
用户只给出一句模糊请求, 或删除了关键上下文后重新提交。
助手先追问最小必要信息, 不输出看似确定但无法验证的结论。
在 AI 功能上线前, 先把评估计划写清楚。输入功能描述、已知风险和 用户路径, 工具会生成核心成功路径用例、风险覆盖用例、路径步骤用例、 通过标准和边界情况, 并支持复制 Markdown 或导出 JSON。适合 LLM 产品经理、AI 工程师、QA 负责人和运营团队在写测试框架前先搭出第一版 eval 套件。它不会调用模型, 也不会自动打分, 只是在浏览器本地把零散 上线担忧整理成可审查、可执行的测试计划。
它适合在真正写 eval harness 之前使用:先把功能目标、风险清单、用户 路径和人工审核节点摊开,再生成覆盖正常路径、风险路径、边界输入和 通过标准的第一版计划。这样 PM、工程、QA、安全和运营可以围绕同一份 测试语言讨论,而不是只说“回答质量要好”。导出的 Markdown 和 JSON 可继续进入 issue、表格或自动化测试工程。
把内容粘贴或拖入工具面板。
点击按钮,在浏览器内本地处理,文件不上传。
一键复制结果或下载到本地。
适合在真正消耗时间或 token 前,先规划、对比或整理 AI 工作。
这些入口会把当前任务接到更完整的工具链里。
团队把 AI 功能、设计评审里列出的风险和用户路径填进去, 工具会生成 用例和通过标准。工程师写正式 eval harness 之前, 大家可以先审这份 计划是否覆盖关键风险。
安全、法务、运营担忧经常散在表格里。把这些风险逐行粘进来, 工具会 把每条风险变成一个具体场景, 并写出期望行为。
QA 可以把 Markdown 复制到测试计划里, 让审核者按明确标准判断模型 行为, 而不是争论某个回答"感觉好不好"。
只测理想 prompt, 跳过上下文缺失或过期的交接步骤。
只写"质量"这种抽象风险, 没写可复现的具体失败模式。
通过标准写得太主观, 两个审核者无法得出同样结论。
忘记记录失败输入、实际输出、期望输出和风险标签, 后续无法回归。
功能描述、风险列表、用户路径、生成的 Markdown 和导出的 JSON 都在浏览器 本地生成。工具不调用模型, 不上传路线图细节, 不拉取模板, 也不会把计划 写进 localStorage。
做你这行的人, 还会一起用这些。