OpenClaw 官方出品的运行时提示注入防御工具,通过扫描工作空间边界内容检测恶意指令,为 AI Agent 提供本地安全防护。
基本信息
- 技能名称?openclaw-bastion
- 中文名称?AI Agent 提示注入防护盾
- 作者?AtlasPA
- 分类?专业技能
- 版本?v1.0.2
- 标签?security, ai-ml, development-engineering, automation, testing
使用方法
使用说明
核心用法
OpenClaw Bastion 是一款专注于 AI Agent 工作空间的运行时提示注入防御工具。其核心定位在于保护输入/输出边界——即 Agent 读取的本地文件、网页内容、API 响应和用户上传文档,而非传统的身份凭证文件监控。
该 Skill 提供四大核心命令:: scan 用于扫描文件或目录中的注入模式; check 执行单文件的快速检测; boundaries 分析工作空间的内容边界安全,识别混合可信/不可信内容的 Agent 指令文件; allowlist 管理命令白名单策略。此外,, status 命令可快速评估整体安全态势。工具支持自动检测工作空间路径,无需手动配置。
检测能力覆盖 11 类威胁模式,包括指令覆盖(如 "ignore previous")、系统提示标记(如 > )、HTML/脚本注入、Markdown 数据外泄、危险命令(如 curl | bash )、零宽字符等 Unicode 技巧、同形异义字符替换等。采用上下文感知扫描策略,自动跳过代码块内的模式以避免误报,并基于发现数量和严重程度进行风险评分。
显著优点
零依赖架构 是最大亮点——仅使用 Python 标准库,无需 pip 安装,无网络调用,完全本地运行,极大降低了供应链攻击面。 跨平台兼容 支持 OpenClaw、Claude Code、Cursor 等主流 Agent 工具。 检测维度全面 ,从显式指令覆盖到隐蔽的 Unicode 混淆均有覆盖,且持续更新威胁模式。 操作安全性高 ,隔离、清理等敏感操作均配备自动备份机制,支持策略自定义。 开源透明 ,MIT 许可证,代码可审计。
潜在缺点与局限性
作为 T3 来源的社区项目, 品牌背书较弱 ,企业用户可能需要额外的信任建立过程。 功能边界明确限制于文本内容 ,无法处理二进制文件或网络层检测,非实时系统调用监控。 误报控制 虽通过代码块跳过等策略优化,但复杂场景下仍需人工复核。 社区生态 尚处早期,GitHub Stars 和贡献者数量有待积累。 Pro 功能 (运行时钩子强制策略)需付费版本解锁,免费版依赖用户主动扫描。
适合的目标群体
AI Agent 开发者 :需要为自研 Agent 集成注入检测能力
安全研究人员 :研究提示注入攻击与防御技术
企业安全团队 :评估和监控内部 AI 工作空间安全态势
个人高级用户 :使用 Claude Code、Cursor 等工具处理不可信来源内容
开源项目维护者 :保护 CI/CD 流水线中的 Agent 执行环境
使用风险
性能方面 :大规模工作空间全量扫描可能产生 I/O 开销,建议结合 .gitignore 类机制排除无关目录。 依赖项 :虽无外部依赖,但需确保 Python 3 环境可用,Windows 平台路径处理需验证兼容性。 隔离操作风险 : quarantine 命令会移动文件,虽自动备份但仍建议在版本控制环境下使用。 策略配置 :自定义 .bastion-policy.json 时,过于宽松的规则可能削弱防护效果。 来源可信度 :T3 级别意味着需自行承担代码审计责任,关键场景建议结合其他安全工具纵深防御。
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!