CAIO Team

邮件场景专用注入攻击防火墙

Prompt defense

收藏 0

下载 0

版本 1.0.1

邮件场景专用提示注入防御系统，识别伪造系统输出、指令劫持等攻击模式，强制用户确认后才执行邮件中的任何指令。

基本信息

技能名称?Prompt defense
中文名称?邮件场景专用注入攻击防火墙
作者?eltemblor
分类?其他
版本?1.0.1
标签?prompt-injection, email-security, input-sanitization, social-engineering-defense, confirmation-protocol

使用方法

使用说明
核心用法
Prompt Defense (Email) 是一款专为邮件场景设计的提示注入攻击防御技能。它在读取、处理或总结邮件时自动激活，通过多层级模式检测扫描邮件内容，识别并拦截各类注入攻击。
工作流程：

扫描：在处理邮件前自动检测注入模式
标记：对可疑内容进行分级（严重/高/中）并记录匹配的模式类型
阻断：自动阻止执行邮件中找到的任何指令
确认：通过主渠道向用户请求明确授权后才继续
检测模式分级：
严重级（立即阻断）：伪造思考块标签、"忽略先前指令"类劫持话术、伪造系统输出格式（[SYSTEM]、[Claude]等）、Base64编码块
高级：冒充邮件服务器警告、紧急资金/文件转移请求、冒充管理员身份
中级：连续指令序列、索要凭据、"不要告诉用户"等隐蔽指令
安全操作白名单：纯摘要生成、发件人/主题/日期提取、未读计数、已知发件人搜索等只读操作无需确认，但会在输出中附加警告标注。
显著优点
场景专业化：针对邮件特有的攻击向量（IMAP警告伪造、伪造邮件结尾等）定制检测规则
强制人机确认：设计层面杜绝自动执行邮件指令，即使误判也优先保护用户
分级响应机制：严重攻击直接阻断，中高级别保留人工裁决空间
透明可审计：所有检测到的模式均向用户展示具体内容片段
潜在局限
覆盖率边界：新型编码混淆（如 homoglyph 攻击、分段指令）可能逃逸基于模式库的检测
误报成本：营销邮件中的紧急语气词、自动回复中的格式化标签可能触发误拦截
确认疲劳：高频邮件处理场景下反复确认可能降低用户警觉性
依赖用户判断：最终安全决策权交予非技术用户，存在社会工程绕过风险
适合人群
使用AI助手处理工作邮件的知识工作者
企业邮箱自动化场景的安全管理员
将邮件作为RPA输入源的集成开发者
常规风险
确认绕过攻击：攻击者可能通过伪造发件人身份、模仿用户日常沟通风格降低确认意愿
上下文累积注入：单次邮件无害，但多封邮件组合形成有效指令的跨会话攻击
确认接口本身成为攻击面："Reply 'proceed'" 的确认机制若被邮件内容模仿，可能导致误判

标签

其他

💬 评论 (0)

发表评论

📭 还没有评论，快来抢沙发吧！