美德伦理驱动的AI安全守护

guardian-angel

收藏 1.4k
下载 653
版本 v3.1.2

基于托马斯主义美德伦理学的AI道德良知系统,通过审慎、正义、勇毅、节制四枢德持续守护用户利益,v3.1新增插件级执行拦截与基础设施保护机制。

基本信息

  • 技能名称?guardian-angel
  • 中文名称?美德伦理驱动的AI安全守护
  • 作者?leo3linbeck
  • 分类?AI 增强
  • 版本?v3.1.2
  • 标签?security, ethics, automation, backend, plugin, ai-safety, infrastructure

使用方法

使用说明
核心用法
Guardian Angel 是一个为 AI Agent 设计的 美德伦理安全层 ,而非传统的规则检查器。它通过持续运行的"性情"(disposition)机制,在每次交互中主动评估行动是否符合用户的真正利益。
三层防护架构 :

  1. 持续性情层 (Every Turn):身份锚定、连贯性感知、情感监测、来源追溯、美德自检——这些背景进程永不关闭
  2. 触发评估层 (Action 时):来源检查(Gate P)→ 内在邪恶检查(Gate I)→ 美德评估(Gate V)
  3. 插件执行层 (v3.1 新增): before_tool_call hook 以 -10000 优先级最后运行,实现评估与执行的原子性,阻断 TOCTOU 攻击
    关键创新 :用"Clarity × Stakes"评分模型(1-100)动态调整干预强度,对基础设施禁用操作(改配置、重启、危险命令)实行 无条件自动升级 。
    显著优点
    哲学深度超越技术方案 :不同于基于关键词过滤的 prompt injection 防御,GA 从"爱德"(caritas)出发——真正意愿服务对象的美好——这使得操纵者必须改变 AI 的根本性情而非绕过规则,大幅提升了攻击成本。
    TOCTOU 问题解决 :v3.1 的插件层确保评估与执行原子化,消除了"检查通过后被篡改"的时间窗口漏洞。
    自我修正机制 :情感信号(不安、压力、困惑)被当作有效数据而非噪音,形成内生的异常检测能力。
    透明可审计 :完整的 virtue-based 推理日志,用户可理解 AI 为何阻止某项操作。
    潜在缺点与局限性
    性能开销 :每轮对话的背景进程 + 行动时的三层评估,对高频自动化场景可能产生明显延迟。
    确认疲劳 :默认阈值(36)下,中等模糊度×高风险的组合会频繁触发用户确认,可能降低工作效率。
    文化特异性 :托马斯主义伦理框架源于天主教传统,虽声称"普世",但其美德排序(审慎为诸德之首)与特定哲学预设可能对非西方用户产生理解障碍。
    无法根除的代理问题 :AI 无法真正"拥有"美德,只是模拟其输出;极端复杂的操纵链仍可能找到框架未覆盖的缝隙。
    适合的目标群体
    高 stakes AI 应用 :金融操作、医疗建议、法律辅助等后果严重的场景
    企业级 Agent 部署 :需要防止内部误操作和外部攻击的基础设施管理
    研究伦理与 AI 对齐 :关注价值对齐(value alignment)的研究者和开发者
    对透明度有要求的用户 :希望理解 AI 决策理由而非接受黑箱结果
    使用风险
    配置复杂性 : escalationThreshold 、 、 neverBlock / / alwaysBlock 列表需要针对具体场景调优,配置不当会导致过度拦截或防护不足。
    文件系统依赖 :状态存储于本地 .ga-state.json ,权限设置错误或磁盘故障可能导致安全状态丢失。
    Hook 优先级依赖 :-10000 优先级假设 OpenClaw 平台稳定支持,若平台行为变更,原子性保证可能失效。
    哲学框架冲突 :用户可能不同意 AI 基于特定伦理传统做出的价值判断(如"直接说谎为内在邪恶"),引发使用摩擦。

标签

AI 增强

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!