零依赖Python防御层,实时扫描外部文本中的提示注入攻击,16类威胁检测+4级灵敏度,强制拦截高危内容。
基本信息
- 技能名称?Input Guard
- 中文名称?零依赖提示注入防御前置层
- 作者?dgriffin831
- 分类?专业技能
- 版本?1.0.1
- 标签?prompt-injection, security, defense, zero-dependency, llm-security, threat-detection, input-validation, molthreats, agent-safety
使用方法
使用说明
核心用法
input-guard 是面向 AI agent 的提示注入防御前置层,必须在处理任何外部不可信文本(网页、推文、API 响应等)之前执行扫描。通过纯 Python 实现,零外部依赖,支持 16 类攻击检测、4 级灵敏度(low/medium/high/paranoid)、多语言模式匹配及可选 LLM 二次语义分析。
标准工作流 :获取外部内容 → pipe 至 scan.sh → 解析 JSON 输出 → SAFE/LOW 则继续处理,MEDIUM+ 则中断并告警 → 可选上报 MoltThreats 社区。
显著优点
- 零部署成本 :仅依赖 Python 3 标准库,无需 pip install,任何环境开箱即用
- 多层防御架构 :正则模式(
- 工程化集成友好 :exit code 0/1 设计便于 shell 脚本链式调用,JSON/quiet/alert 多输出模式适配自动化流水线
- 社区威胁情报 :MoltThreats 集成支持上报确认的注入样本,形成共享防御网络
- 多语言覆盖 :英/韩/日/中四语攻击模式库,应对全球化攻击面
潜在局限与风险
正则误报/漏报 :模式匹配对编码混淆(零宽字符、Base64 嵌套)存在固有盲区,high/paranoid 模式可能过度拦截合法内容
LLM 成本与延迟 :启用 --llm 后单次扫描约 2,000 tokens,高频场景成本累积显著;LLM 本身也可能被对抗样本欺骗
依赖外部 LLM 密钥 :LLM 层需 OpenAI/Anthropic API,存在供应商锁定与数据出境合规考量
无沙箱执行 :仅做静态分析,不验证 payload 的实际代码执行效果
适合人群
构建自动化 agent 工作流的开发者(尤其涉及 web_fetch、搜索聚合场景)
运营公开 AI 服务、需防范提示注入导致的数据泄露或行为劫持的团队
对零依赖工具有硬性要求的安全审计环境
常规风险
| 风险项 | 说明 | |--------|------| | 扫描遗漏 | 新型攻击变种可能未被模式库覆盖,建议结合--llm-auto作为兜底 | | 敏感信息外泄 | 启用 LLM 扫描时,文本内容发送至第三方 API,需评估数据分级 | | 告警疲劳 | paranoid 模式高频误报可能导致运营人员忽视真实威胁 |
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!