网淘吧来吧,欢迎您!

Skill Evaluator

2026-03-31 新闻来源:网淘吧 围观:27
电脑广告
手机广告

技能评估器

采用自动化与人工结合的混合方法,依据25项标准评估技能。

快速开始

1. 运行自动化检查

python3 scripts/eval-skill.py /path/to/skill
python3 scripts/eval-skill.py /path/to/skill --json    # machine-readable
python3 scripts/eval-skill.py /path/to/skill --verbose  # show all details

检查项目:文件结构、前置元数据、描述质量、脚本语法、依赖项审计、凭证扫描、环境变量文档。

Skill Evaluator

2. 人工评估

使用位于references/rubric.md的评分标准,对涵盖8个类别的25项标准进行评分(每项0–4分,总分100分)。每项标准针对不同分数级别均有具体描述。

3. 撰写评估报告

复制assets/EVAL-TEMPLATE.md到技能目录下,命名为EVAL.md。填入自动化检查结果和人工评分。

评估流程

  1. 运行eval-skill.py——获取自动化结构评分
  2. 阅读技能的SKILL.md文件— 理解其功能
  3. 阅读/浏览脚本— 评估代码质量、错误处理、可测试性
  4. 为每个手动标准评分使用references/rubric.md— 每个级别的具体标准
  5. 对发现的问题进行优先级排序分为 P0(阻碍发布)/ P1(应修复)/ P2(锦上添花)
  6. 在技能目录中编写 EVAL.md包含评分 + 发现的问题

类别(8个类别,25个标准)

#类别来源框架标准
1功能适用性ISO 25010完整性、正确性、适当性
2可靠性ISO 25010容错能力、错误报告、可恢复性
3性能 / 上下文ISO 25010 + 智能体令牌成本、执行效率
4可用性 — AI 智能体施耐德曼、格哈特-波沃尔斯易学性、一致性、反馈、错误预防
5可用性 — 人类托格纳齐尼、诺曼可发现性、容错性
6安全性ISO 25010 + OpenSSF凭据、输入验证、数据安全
7可维护性ISO 25010模块化、可修改性、可测试性
8智能体特定新颖性触发精度、渐进式披露、可组合性、幂等性、逃生舱口

解读分数

分数范围评估结论建议操作
90–100优秀可放心发布
80–89良好可发布,需注明已知问题
70–79合格发布前需修复P0级问题
60–69需改进发布前需修复P0+P1级问题
<60未就绪需进行重大返工

深度安全扫描

本评估器涵盖安全基础(凭据、输入验证、数据安全),若要对开发中的技能进行彻底的安全审计,请考虑使用SkillLens(npx skilllens scan <路径>). 它会检查数据外泄、代码执行、持久化、权限绕过和提示注入——这与本文档关注的质量方面是互补的。

依赖项

  • Python 3.6+ (用于 eval-skill.py)
  • PyYAML (pip install pyyaml) — 用于自动化检查中的 frontmatter 解析

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏

文章底部电脑广告
手机广告位-内容正文底部
上一篇:Twenty CRM 下一篇:stock-research-engine

相关文章

您是本站第379329名访客 今日有361篇新文章/评论