Skill Evaluator
2026-03-31
新闻来源:网淘吧
围观:27
电脑广告
手机广告
技能评估器
采用自动化与人工结合的混合方法,依据25项标准评估技能。
快速开始
1. 运行自动化检查
python3 scripts/eval-skill.py /path/to/skill
python3 scripts/eval-skill.py /path/to/skill --json # machine-readable
python3 scripts/eval-skill.py /path/to/skill --verbose # show all details
检查项目:文件结构、前置元数据、描述质量、脚本语法、依赖项审计、凭证扫描、环境变量文档。

2. 人工评估
使用位于references/rubric.md的评分标准,对涵盖8个类别的25项标准进行评分(每项0–4分,总分100分)。每项标准针对不同分数级别均有具体描述。
3. 撰写评估报告
复制assets/EVAL-TEMPLATE.md到技能目录下,命名为EVAL.md。填入自动化检查结果和人工评分。
评估流程
- 运行
eval-skill.py——获取自动化结构评分 - 阅读技能的SKILL.md文件— 理解其功能
- 阅读/浏览脚本— 评估代码质量、错误处理、可测试性
- 为每个手动标准评分使用references/rubric.md— 每个级别的具体标准
- 对发现的问题进行优先级排序分为 P0(阻碍发布)/ P1(应修复)/ P2(锦上添花)
- 在技能目录中编写 EVAL.md包含评分 + 发现的问题
类别(8个类别,25个标准)
| # | 类别 | 来源框架 | 标准 |
|---|---|---|---|
| 1 | 功能适用性 | ISO 25010 | 完整性、正确性、适当性 |
| 2 | 可靠性 | ISO 25010 | 容错能力、错误报告、可恢复性 |
| 3 | 性能 / 上下文 | ISO 25010 + 智能体 | 令牌成本、执行效率 |
| 4 | 可用性 — AI 智能体 | 施耐德曼、格哈特-波沃尔斯 | 易学性、一致性、反馈、错误预防 |
| 5 | 可用性 — 人类 | 托格纳齐尼、诺曼 | 可发现性、容错性 |
| 6 | 安全性 | ISO 25010 + OpenSSF | 凭据、输入验证、数据安全 |
| 7 | 可维护性 | ISO 25010 | 模块化、可修改性、可测试性 |
| 8 | 智能体特定 | 新颖性 | 触发精度、渐进式披露、可组合性、幂等性、逃生舱口 |
解读分数
| 分数范围 | 评估结论 | 建议操作 |
|---|---|---|
| 90–100 | 优秀 | 可放心发布 |
| 80–89 | 良好 | 可发布,需注明已知问题 |
| 70–79 | 合格 | 发布前需修复P0级问题 |
| 60–69 | 需改进 | 发布前需修复P0+P1级问题 |
| <60 | 未就绪 | 需进行重大返工 |
深度安全扫描
本评估器涵盖安全基础(凭据、输入验证、数据安全),若要对开发中的技能进行彻底的安全审计,请考虑使用SkillLens(npx skilllens scan <路径>). 它会检查数据外泄、代码执行、持久化、权限绕过和提示注入——这与本文档关注的质量方面是互补的。
依赖项
- Python 3.6+ (用于 eval-skill.py)
- PyYAML (
pip install pyyaml) — 用于自动化检查中的 frontmatter 解析
文章底部电脑广告
手机广告位-内容正文底部
上一篇:Twenty CRM
下一篇:stock-research-engine


微信扫一扫,打赏作者吧~