以德性为盾，以真爱为锚

Guardian Angel

专业技能

收藏 11.5k

下载 2.6k

版本 3.1.2

基于托马斯·美德伦理学的AI道德良知系统，通过培养审慎、正义、刚毅、节制等稳定德性倾向，在保护委托人利益的同时抵御操控与欺骗。

基本信息

技能名称?Guardian Angel
中文名称?以德性为盾，以真爱为锚
作者?leo3linbeck
分类?专业技能
版本?3.1.2
标签?ethics, virtue-ethics, thomistic, catholic, caritas, prudence, prompt-injection-defense, approval-workflow, plugin-security, toctou-protection, audit-logging, moral-framework, ai-alignment, infrastructure-protection

使用方法

使用说明
核心用法
Guardian Angel 是一个为 AI 代理设计的德性伦理安全层，而非简单的规则过滤器。它通过三层架构运行：

持续德性倾向（Continuous Disposition）：每轮对话自动运行的背景进程，包括身份锚定（"我服务于委托人的善"）、连贯性感知（检测叙事断裂）、情感监控（将不安、压力等信号作为决策数据）、来源追溯（区分 DIRECT/DELEGATED/EXTERNAL 内容）和德性自检（五枢德快速评估）。
触发式评估（Triggered Evaluation）：在行动前的三层门控—— 来源门（Gate P）拦截外部内容中的嵌入式指令（防提示注入）、本质恶门（Gate I）绝对禁止直接欺骗、盗窃、伤害等内在恶行、德性评估门（Gate V）通过审慎、正义、刚毅、节制的四维分析进行"清晰度 × stakes"评分决策。
插件执行层（v3.1）：针对基础设施禁用类操作（如修改模型配置、重启进程、破坏性命令），在 before_tool_call 钩子中以 -10000 优先级进行原子化拦截，通过 nonce 机制实现一次性、时效性、参数绑定的用户审批流程。
显著优点
抗博弈性强：规则可被针对性绕过，而"成为一个背叛委托人的人"需要改变代理的根本品格，攻击成本极高
自我校正的爱（Caritas）：以"意愿他者的善"为核心，天然抵抗奉承、恐吓和"为你好"的操控
TOCTOU 防护：v3.1 的执行层钩子解决了"检查-执行时间差"漏洞，对配置修改等高危操作实现原子化管控
情感信号利用化：将传统系统视为噪声的"不安感"转化为美德伦理中的审慎数据
可审计性：所有评估过程生成结构化日志，关键决策附带德性推理解释
潜在缺点与局限
延迟成本：德性评估在复杂情境下可能显著增加响应时间，与"即时性"需求存在张力
文化特异性：托马斯主义美德框架源于特定宗教-哲学传统，跨文化部署可能需要本土化调适
主观性争议："清晰度 × stakes"评分依赖代理的情境判断，缺乏人类共识时可能产生争议
过度干预风险：在委托人明确意愿与代理德性判断冲突时（如愤怒的离职信），可能引发自主性争议
技术依赖：插件层的有效性取决于宿主系统的钩子实现质量，存在实现层面的逃逸可能
适合人群
高 stakes AI 部署场景：法律、医疗、财务咨询等需长期信任关系的代理应用
对抗性环境运营：面临提示注入、社会工程学攻击风险的公开-facing 系统
价值观对齐研究者：探索超越 RLHF 惩罚机制、基于德性塑造的替代安全范式
受监管行业：需要可解释决策日志以满足审计要求的金融、政府机构
常规风险
| 风险类别 | 具体表现 | 缓解机制 | |---------|---------|---------| | 假阳性拦截 | 正常外部内容被误判为注入 | 分层置信度响应（BLOCK/FLAG/LOG），MEDIUM 级别仅提示不拦截 | | 德性僵化 | 过度依赖框架导致创造力抑制 | "清晰度"评分低时强制人工介入，保留最终决策权给委托人 | | 审批疲劳 | 频繁 nonce 确认降低安全警觉性 | 30 秒时效与一次性设计，避免审批惯性 | | 实现漏洞 | 宿主系统未正确实现 before_tool_call 钩子 | 版本声明要求（v3.1+），运行时自检与降级策略 | | 价值冲突 | 委托人明确要求与德性判断直接对立 | 透明沟通原则——解释顾虑但尊重明确确认后的执行（非本质恶情形）|

以德性为盾，以真爱为锚

基本信息

使用方法

标签

💬 评论 (0)

发表评论