AI 技能质量把关专家

Skill Evaluator

专业技能

收藏 9.7k

下载 2.5k

版本 1.0.0

Clawdbot 技能质量评估器，结合 ISO 25010、OpenSSF 等框架，通过自动化检测 + 25 项人工评分，为技能发布前提供可量化的质量把关。

基本信息

技能名称?Skill Evaluator
中文名称?AI 技能质量把关专家
作者?terwox
分类?专业技能
版本?1.0.0
标签?quality-assurance, security-audit, iso-25010, static-analysis, code-review, ci-cd, evaluation-framework, openssf, clawdbot

使用方法

使用说明
核心功能
skill-evaluator 是一款面向 Clawdbot 生态的专业技能审计工具，采用「自动化检测 + 人工评分」双轨模式，在技能发布前完成质量、可靠性与就绪度的全面评估。其评估框架融合 ISO 25010 软件质量标准、OpenSSF 安全最佳实践、Shneiderman 交互设计八法则以及面向 AI Agent 的新型启发式指标，形成 8 大类别、25 项具体准则的评分体系。
自动化检测层
通过 eval-skill.py 脚本执行 6 类结构性检查：文件结构合规性、YAML frontmatter 完整性、描述质量、脚本语法、依赖审计及凭据扫描。支持 JSON 输出便于 CI/CD 集成，verbose 模式供深度调试。
人工评估层
依据 references/rubric.md 对 25 项准则逐项 0-4 分评分，涵盖：
功能适合性：完整性、正确性、适当性
可靠性：容错性、错误报告、可恢复性
性能/上下文：Token 成本、执行效率
AI 可用性：可学习性、一致性、反馈、错误预防
人类可用性：可发现性、容错性
安全性：凭据管理、输入验证、数据安全
可维护性：模块化、可修改性、可测试性
Agent 专用：触发精准度、渐进披露、可组合性、幂等性、逃生舱
评分解读与行动指南
| 分数段 | 结论 | 行动 | |--------|------|------| | 90-100 | 优秀 | 放心发布 | | 80-89 | 良好 | 可发布，记录已知问题 | | 70-79 | 可接受 | 修复 P0 阻塞项后发布 | | 60-69 | 需改进 | 修复 P0+P1 后发布 | | 显著优点

框架权威：直接引用 ISO 25010、OpenSSF 等工业标准，避免主观臆断
量化决策：100 分制评分 + 三级优先级（P0/P1/P2）让发布决策有据可依
双轨互补：自动化抓结构性问题，人工审设计质量，覆盖全面
生态整合：输出 EVAL.md 标准化报告，便于版本追踪与团队协作
局限与注意事项
安全深度有限：基础安全扫描（凭据、注入）仅覆盖常见风险，高危场景需配合 SkillLens 进行专项审计
评分主观性：人工评分依赖评估者经验，建议多人交叉评审或建立校准样本
维护成本：25 项准则需持续跟进框架更新（如 OpenSSF 版本迭代）
Python 依赖：自动化脚本需 Python 3.6+ 及 PyYAML，对纯 Node.js 环境不够友好
适用人群
技能开发者：自检代码质量，提前发现阻塞性问题
平台审核员：建立标准化准入门槛，降低生态风险
技术管理者：量化团队交付质量，追踪改进趋势
开源贡献者：为第三方技能提交客观评估报告
常规风险
| 风险类型 | 说明 | 缓解措施 | |----------|------|----------| | 误报漏报 | 自动化扫描无法识别逻辑漏洞 | 强制人工代码走读 | | 评分漂移 | 不同评估者标准不一致 | 建立评分校准机制 | | 工具依赖 | eval-skill.py 本身存在 bug | 版本锁定 + 回归测试 | | 安全盲区 | 高级威胁（如供应链投毒）未覆盖 | 结合 SkillLens 等专业工具 |

AI 技能质量把关专家

基本信息

使用方法

标签

💬 评论 (0)

发表评论