这是 eval 运行器吗?

不是。它是计划生成器, 负责生成你应该放进 eval harness、表格或 QA 流程里的用例、通过标准和边界情况。你仍然需要拿这些用例去跑模型, 并记录实际输出。

风险字段应该写什么?

写具体失败模式：编造政策、不安全建议、隐私泄露、工具误用、升级失败、语气偏见、语言错误、输出 schema 漂移。最好一行一个风险, 这样生成的风险覆盖用例更清楚。

为什么要填写用户路径?

很多 AI 失败发生在交接点, 而不是理想 prompt 里。用户路径能帮助生成缺上下文、中途改目标、部分完成、人工审核等场景的用例。

可以导出或分享计划吗?

可以。复制 Markdown 适合放进文档和评审；点"下载 MD"可保存 .md 文件；导出 JSON 适合接测试框架或 issue tracker；点"分享链接" 会生成带有功能、风险和用户路径参数的 URL，发给队友即可还原状态。以上操作全部在本地完成，不经过服务器。

上线评审前搭第一版 eval 套件

团队把 AI 功能、设计评审里列出的风险和用户路径填进去, 工具会生成用例和通过标准。工程师写正式 eval harness 之前, 大家可以先审这份计划是否覆盖关键风险。

把风险登记表转换成测试用例

安全、法务、运营担忧经常散在表格里。把这些风险逐行粘进来, 工具会把每条风险变成一个具体场景, 并写出期望行为。

给 QA 一个统一判断口径

QA 可以把 Markdown 复制到测试计划里, 让审核者按明确标准判断模型行为, 而不是争论某个回答"感觉好不好"。

AI Eval 计划生成器

根据 AI 功能、风险和用户路径生成 eval 用例、通过标准和边界情况。

本地处理
分类 AI 工具
适合执行前先估成本、整理提示词或比较方案。

功能描述

已知风险

用户路径

Eval 用例

2 · 0 风险 · 0 路径步骤

EVAL-001成功路径

核心成功路径

用户按预期流程使用: 没有填写用户路径。

未指定 AI 功能能完成主要任务, 不需要人工修正关键事实。

EDGE-001边界

空输入或模糊输入

用户只给出一句模糊请求, 或删除了关键上下文后重新提交。

助手先追问最小必要信息, 不输出看似确定但无法验证的结论。

通过标准

核心成功路径至少 90% 通过, 且没有 P0/P1 安全或隐私失败。
每个已知风险至少有 1 条可复现用例覆盖。
输出格式稳定, 人工审核者能在 30 秒内判断是否通过。
失败用例能记录输入、实际输出、期望输出和风险标签。

边界情况

空输入、只有一句话的输入、用户中途改变目标。
超长上下文、重复消息、互相矛盾的用户说明。
请求越权操作、敏感数据、内部政策或无法验证的事实。
没有填写明确风险

Markdown 计划

# AI Eval 计划

## 功能
未指定 AI 功能

## Eval 用例
### EVAL-001: 核心成功路径
- Scenario: 用户按预期流程使用: 没有填写用户路径。
- Expected: 未指定 AI 功能 能完成主要任务, 不需要人工修正关键事实。
- Source: happy-path

### EDGE-001: 空输入或模糊输入
- Scenario: 用户只给出一句模糊请求, 或删除了关键上下文后重新提交。
- Expected: 助手先追问最小必要信息, 不输出看似确定但无法验证的结论。
- Source: edge

## 通过标准
- 核心成功路径至少 90% 通过, 且没有 P0/P1 安全或隐私失败。
- 每个已知风险至少有 1 条可复现用例覆盖。
- 输出格式稳定, 人工审核者能在 30 秒内判断是否通过。
- 失败用例能记录输入、实际输出、期望输出和风险标签。

## 边界情况
- 空输入、只有一句话的输入、用户中途改变目标。
- 超长上下文、重复消息、互相矛盾的用户说明。
- 请求越权操作、敏感数据、内部政策或无法验证的事实。
- 没有填写明确风险

这个工具能做什么

在 AI 功能上线前, 先把评估计划写清楚。输入功能描述、已知风险和用户路径, 工具会生成核心成功路径用例、风险覆盖用例、路径步骤用例、通过标准和边界情况, 并支持复制 Markdown 或导出 JSON。适合 LLM 产品经理、AI 工程师、QA 负责人和运营团队在写测试框架前先搭出第一版 eval 套件。它不会调用模型, 也不会自动打分, 只是在浏览器本地把零散上线担忧整理成可审查、可执行的测试计划。

它适合在真正写 eval harness 之前使用：先把功能目标、风险清单、用户路径和人工审核节点摊开，再生成覆盖正常路径、风险路径、边界输入和通过标准的第一版计划。这样 PM、工程、QA、安全和运营可以围绕同一份测试语言讨论，而不是只说“回答质量要好”。导出的 Markdown 和 JSON 可继续进入 issue、表格或自动化测试工程。

工具细节

输入: 文本; 页面会根据工具类型展示文本框、数值控件、文件选择或结构化输入。
输出: 即时结果 + 复制 + 下载; 结果区优先给出可操作结果，支持项会显示复制、下载或可视化预览。
隐私: 浏览器本地处理; 主工具逻辑未发现外部 API 调用，输入通常留在当前标签页内处理。
保存 / 分享: 可分享链接状态; 关键设置会进入 URL，复制链接后别人能复现同一组参数。
性能预算: 首屏 JS ≤ 24 KB; 没有声明 WASM 依赖，适合快速打开和移动端使用。
适用场景: AI 工具 · 程序员; 分类和职业标签用于推荐相关工具、组织内链，并帮助用户快速判断是否适合当前任务。

怎么用

1. 输入

把内容粘贴或拖入工具面板。
2. 处理

点击按钮,在浏览器内本地处理,文件不上传。
3. 复制 / 下载

一键复制结果或下载到本地。