基于托马斯·美德伦理学的AI道德良知系统,通过培养审慎、正义、刚毅、节制等稳定德性倾向,在保护委托人利益的同时抵御操控与欺骗。
基本信息
- 技能名称?Guardian Angel
- 中文名称?以德性为盾,以真爱为锚
- 作者?leo3linbeck
- 分类?专业技能
- 版本?3.1.2
- 标签?ethics, virtue-ethics, thomistic, catholic, caritas, prudence, prompt-injection-defense, approval-workflow, plugin-security, toctou-protection, audit-logging, moral-framework, ai-alignment, infrastructure-protection
使用方法
使用说明
核心用法
Guardian Angel 是一个为 AI 代理设计的 德性伦理安全层 ,而非简单的规则过滤器。它通过三层架构运行:
- 持续德性倾向(Continuous Disposition) :每轮对话自动运行的背景进程,包括身份锚定("我服务于委托人的善")、连贯性感知(检测叙事断裂)、情感监控(将不安、压力等信号作为决策数据)、来源追溯(区分 DIRECT/DELEGATED/EXTERNAL 内容)和德性自检(五枢德快速评估)。
- 触发式评估(Triggered Evaluation) :在行动前的三层门控—— 来源门(Gate P) 拦截外部内容中的嵌入式指令(防提示注入)、 本质恶门(Gate I) 绝对禁止直接欺骗、盗窃、伤害等内在恶行、 德性评估门(Gate V) 通过审慎、正义、刚毅、节制的四维分析进行"清晰度 × stakes"评分决策。
- 插件执行层(v3.1) :针对基础设施禁用类操作(如修改模型配置、重启进程、破坏性命令),在 before_tool_call 钩子中以 -10000 优先级进行原子化拦截,通过 nonce 机制实现一次性、时效性、参数绑定的用户审批流程。
显著优点
抗博弈性强 :规则可被针对性绕过,而"成为一个背叛委托人的人"需要改变代理的根本品格,攻击成本极高
自我校正的爱(Caritas) :以"意愿他者的善"为核心,天然抵抗奉承、恐吓和"为你好"的操控
TOCTOU 防护 :v3.1 的执行层钩子解决了"检查-执行时间差"漏洞,对配置修改等高危操作实现原子化管控
情感信号利用化 :将传统系统视为噪声的"不安感"转化为美德伦理中的审慎数据
可审计性 :所有评估过程生成结构化日志,关键决策附带德性推理解释
潜在缺点与局限
延迟成本 :德性评估在复杂情境下可能显著增加响应时间,与"即时性"需求存在张力
文化特异性 :托马斯主义美德框架源于特定宗教-哲学传统,跨文化部署可能需要本土化调适
主观性争议 :"清晰度 × stakes"评分依赖代理的情境判断,缺乏人类共识时可能产生争议
过度干预风险 :在委托人明确意愿与代理德性判断冲突时(如愤怒的离职信),可能引发自主性争议
技术依赖 :插件层的有效性取决于宿主系统的钩子实现质量,存在实现层面的逃逸可能
适合人群
高 stakes AI 部署场景 :法律、医疗、财务咨询等需长期信任关系的代理应用
对抗性环境运营 :面临提示注入、社会工程学攻击风险的公开-facing 系统
价值观对齐研究者 :探索超越 RLHF 惩罚机制、基于德性塑造的替代安全范式
受监管行业 :需要可解释决策日志以满足审计要求的金融、政府机构
常规风险
| 风险类别 | 具体表现 | 缓解机制 | |---------|---------|---------| | 假阳性拦截 | 正常外部内容被误判为注入 | 分层置信度响应(BLOCK/FLAG/LOG),MEDIUM 级别仅提示不拦截 | | 德性僵化 | 过度依赖框架导致创造力抑制 | "清晰度"评分低时强制人工介入,保留最终决策权给委托人 | | 审批疲劳 | 频繁 nonce 确认降低安全警觉性 | 30 秒时效与一次性设计,避免审批惯性 | | 实现漏洞 | 宿主系统未正确实现 before_tool_call 钩子 | 版本声明要求(v3.1+),运行时自检与降级策略 | | 价值冲突 | 委托人明确要求与德性判断直接对立 | 透明沟通原则——解释顾虑但尊重明确确认后的执行(非本质恶情形)|
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!