Skill Evaluator技能使用说明

2026-03-31 新闻来源：网淘吧围观:219

电脑广告

手机广告

技能评估器

采用自动化与人工结合的混合方法，依据25项标准评估技能。

快速开始

1. 运行自动化检查

python3 scripts/eval-skill.py /path/to/skill
python3 scripts/eval-skill.py /path/to/skill --json    # machine-readable
python3 scripts/eval-skill.py /path/to/skill --verbose  # show all details

检查项目：文件结构、前置元数据、描述质量、脚本语法、依赖项审计、凭证扫描、环境变量文档。

Skill Evaluator

2. 人工评估

使用位于references/rubric.md的评分标准，对涵盖8个类别的25项标准进行评分（每项0–4分，总分100分）。每项标准针对不同分数级别均有具体描述。

3. 撰写评估报告

复制assets/EVAL-TEMPLATE.md到技能目录下，命名为EVAL.md。填入自动化检查结果和人工评分。

评估流程

运行eval-skill.py——获取自动化结构评分
阅读技能的SKILL.md文件— 理解其功能
阅读/浏览脚本— 评估代码质量、错误处理、可测试性
为每个手动标准评分使用references/rubric.md— 每个级别的具体标准
对发现的问题进行优先级排序分为 P0（阻碍发布）/ P1（应修复）/ P2（锦上添花）
在技能目录中编写 EVAL.md包含评分 + 发现的问题

类别（8个类别，25个标准）

#	类别	来源框架	标准
1	功能适用性	ISO 25010	完整性、正确性、适当性
2	可靠性	ISO 25010	容错能力、错误报告、可恢复性
3	性能 / 上下文	ISO 25010 + 智能体	令牌成本、执行效率
4	可用性 — AI 智能体	施耐德曼、格哈特-波沃尔斯	易学性、一致性、反馈、错误预防
5	可用性 — 人类	托格纳齐尼、诺曼	可发现性、容错性
6	安全性	ISO 25010 + OpenSSF	凭据、输入验证、数据安全
7	可维护性	ISO 25010	模块化、可修改性、可测试性
8	智能体特定	新颖性	触发精度、渐进式披露、可组合性、幂等性、逃生舱口

解读分数

分数范围	评估结论	建议操作
90–100	优秀	可放心发布
80–89	良好	可发布，需注明已知问题
70–79	合格	发布前需修复P0级问题
60–69	需改进	发布前需修复P0+P1级问题
<60	未就绪	需进行重大返工

深度安全扫描

本评估器涵盖安全基础（凭据、输入验证、数据安全），若要对开发中的技能进行彻底的安全审计，请考虑使用SkillLens(npx skilllens scan <路径>). 它会检查数据外泄、代码执行、持久化、权限绕过和提示注入——这与本文档关注的质量方面是互补的。

依赖项

Python 3.6+ (用于 eval-skill.py)
PyYAML (pip install pyyaml) — 用于自动化检查中的 frontmatter 解析

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Twenty CRM技能使用说明下一篇：stock-research-engine技能使用说明