多框架 Skill 质量评估专家

skill-evaluator

开发

收藏 4.6k

下载 1.9k

版本 3.6

基于 ISO 25010、OpenSSF 等国际标准的多框架 Skill 质量评估工具，为 Clawdbot 生态提供自动化结构检查与 25 项人工评分，确保 Skill 发布前的可靠性与安全性。

基本信息

技能名称?skill-evaluator
中文名称?多框架 Skill 质量评估专家
作者?Terwox
分类?开发
版本?3.6
标签?testing, automation, development-engineering, product-management, devops

使用方法

使用说明
核心用法
skill-evaluator 是一款专为 Clawdbot 生态设计的 Skill 质量评估工具，采用"自动化检查 + 人工评分"的混合模式。用户首先运行 eval-skill.py 脚本对目标 Skill 进行自动化结构扫描，包括文件完整性、YAML frontmatter 解析、脚本语法检查、依赖审计及敏感信息扫描。随后，评估者依据内置的 25 项评分标准（涵盖功能性、可靠性、性能、可用性、安全性、可维护性及 Agent 专属特性）进行人工打分，最终生成综合评估报告（EVAL.md），为 Skill 发布决策提供数据支撑。
显著优点

权威标准背书：融合 ISO 25010 软件质量模型、OpenSSF 安全框架、Shneiderman 可用性原则及 Agent 专属启发式规则，评估体系科学严谨。
自动化提效：内置 Python 脚本可快速完成 7 大类结构检查，显著降低人工审查成本，支持 JSON 输出便于集成 CI/CD 流程。
量化评分机制：100 分制评分配合明确的等级划分（90-100 优秀、80-89 良好等），使质量判断客观可比较。
安全优先设计：内置凭证扫描、输入验证检查及数据安全评估，与 SkillLens 形成互补的安全审计能力。
渐进式披露支持：评估标准中包含 Agent 特有的"渐进式信息披露"和"逃生舱"设计，契合大模型交互场景。
潜在缺点与局限性
依赖人工判断：25 项标准中约 2/3 需人工评分，评估结果受评估者主观经验影响，不同评估者间可能存在评分偏差。
路径验证宽松：自动化脚本未严格限制目录遍历（如未阻止 /etc/passwd 访问），虽为本地工具预期行为，但在共享环境中存在潜在风险。
无内置测试套件：工具自身缺乏自动化测试覆盖，版本迭代时可能引入回归问题。
协议未明确：开源许可证未在文档中标注，存在合规不确定性。
生态绑定：专为 Clawdbot Skill 结构优化，迁移至其他 Agent 平台需适配改造。
适合的目标群体
Skill 开发者：在发布前自检代码质量，提前发现 P0/P1 级阻塞问题
平台运营方：建立 Skill 上架审核流程，统一质量标准
企业内训团队：作为 Agent 开发最佳实践的培训教材和检查清单
开源贡献者：参与 Clawdbot 生态建设时确保贡献质量
使用风险
性能风险：大规模 Skill 仓库扫描时，递归文件遍历可能产生 I/O 瓶颈
依赖风险：可选依赖 PyYAML 若版本过旧可能存在 CVE，建议锁定 5.4+
误报风险：自动化凭证扫描基于正则模式，可能产生假阳性或漏报
评估者偏差：人工评分环节建议采用多评估者交叉评审机制降低主观误差

多框架 Skill 质量评估专家

基本信息

使用方法

标签

💬 评论 (0)

发表评论