AI 技能质量把关专家

Skill Evaluator

收藏 9.7k
下载 2.5k
版本 1.0.0

Clawdbot 技能质量评估器,结合 ISO 25010、OpenSSF 等框架,通过自动化检测 + 25 项人工评分,为技能发布前提供可量化的质量把关。

基本信息

  • 技能名称?Skill Evaluator
  • 中文名称?AI 技能质量把关专家
  • 作者?terwox
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?quality-assurance, security-audit, iso-25010, static-analysis, code-review, ci-cd, evaluation-framework, openssf, clawdbot

使用方法

使用说明
核心功能
skill-evaluator 是一款面向 Clawdbot 生态的专业技能审计工具,采用「自动化检测 + 人工评分」双轨模式,在技能发布前完成质量、可靠性与就绪度的全面评估。其评估框架融合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 交互设计八法则以及面向 AI Agent 的新型启发式指标,形成 8 大类别、25 项具体准则的评分体系。
自动化检测层
通过 eval-skill.py 脚本执行 6 类结构性检查:文件结构合规性、YAML frontmatter 完整性、描述质量、脚本语法、依赖审计及凭据扫描。支持 JSON 输出便于 CI/CD 集成,verbose 模式供深度调试。
人工评估层
依据 references/rubric.md 对 25 项准则逐项 0-4 分评分,涵盖:
功能适合性 :完整性、正确性、适当性
可靠性 :容错性、错误报告、可恢复性
性能/上下文 :Token 成本、执行效率
AI 可用性 :可学习性、一致性、反馈、错误预防
人类可用性 :可发现性、容错性
安全性 :凭据管理、输入验证、数据安全
可维护性 :模块化、可修改性、可测试性
Agent 专用 :触发精准度、渐进披露、可组合性、幂等性、逃生舱
评分解读与行动指南
| 分数段 | 结论 | 行动 | |--------|------|------| | 90-100 | 优秀 | 放心发布 | | 80-89 | 良好 | 可发布,记录已知问题 | | 70-79 | 可接受 | 修复 P0 阻塞项后发布 | | 60-69 | 需改进 | 修复 P0+P1 后发布 | | 显著优点

  1. 框架权威 :直接引用 ISO 25010、OpenSSF 等工业标准,避免主观臆断
  2. 量化决策 :100 分制评分 + 三级优先级(P0/P1/P2)让发布决策有据可依
  3. 双轨互补 :自动化抓结构性问题,人工审设计质量,覆盖全面
  4. 生态整合 :输出 EVAL.md 标准化报告,便于版本追踪与团队协作
    局限与注意事项
    安全深度有限 :基础安全扫描(凭据、注入)仅覆盖常见风险,高危场景需配合 SkillLens 进行专项审计
    评分主观性 :人工评分依赖评估者经验,建议多人交叉评审或建立校准样本
    维护成本 :25 项准则需持续跟进框架更新(如 OpenSSF 版本迭代)
    Python 依赖 :自动化脚本需 Python 3.6+ 及 PyYAML,对纯 Node.js 环境不够友好
    适用人群
    技能开发者 :自检代码质量,提前发现阻塞性问题
    平台审核员 :建立标准化准入门槛,降低生态风险
    技术管理者 :量化团队交付质量,追踪改进趋势
    开源贡献者 :为第三方技能提交客观评估报告
    常规风险
    | 风险类型 | 说明 | 缓解措施 | |----------|------|----------| | 误报漏报 | 自动化扫描无法识别逻辑漏洞 | 强制人工代码走读 | | 评分漂移 | 不同评估者标准不一致 | 建立评分校准机制 | | 工具依赖 | eval-skill.py 本身存在 bug | 版本锁定 + 回归测试 | | 安全盲区 | 高级威胁(如供应链投毒)未覆盖 | 结合 SkillLens 等专业工具 |

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!