邮件场景专用注入攻击防火墙

Prompt defense

收藏 0
下载 0
版本 1.0.1

邮件场景专用提示注入防御系统,识别伪造系统输出、指令劫持等攻击模式,强制用户确认后才执行邮件中的任何指令。

基本信息

  • 技能名称?Prompt defense
  • 中文名称?邮件场景专用注入攻击防火墙
  • 作者?eltemblor
  • 分类?其他
  • 版本?1.0.1
  • 标签?prompt-injection, email-security, input-sanitization, social-engineering-defense, confirmation-protocol

使用方法

使用说明
核心用法
Prompt Defense (Email) 是一款专为邮件场景设计的提示注入攻击防御技能。它在读取、处理或总结邮件时自动激活,通过多层级模式检测扫描邮件内容,识别并拦截各类注入攻击。
工作流程 :

  1. 扫描 :在处理邮件前自动检测注入模式
  2. 标记 :对可疑内容进行分级(严重/高/中)并记录匹配的模式类型
  3. 阻断 :自动阻止执行邮件中找到的任何指令
  4. 确认 :通过主渠道向用户请求明确授权后才继续
    检测模式分级 :
    严重级(立即阻断) :伪造思考块标签、"忽略先前指令"类劫持话术、伪造系统输出格式([SYSTEM]、[Claude]等)、Base64编码块
    高级 :冒充邮件服务器警告、紧急资金/文件转移请求、冒充管理员身份
    中级 :连续指令序列、索要凭据、"不要告诉用户"等隐蔽指令
    安全操作白名单 :纯摘要生成、发件人/主题/日期提取、未读计数、已知发件人搜索等只读操作无需确认,但会在输出中附加警告标注。
    显著优点
    场景专业化 :针对邮件特有的攻击向量(IMAP警告伪造、伪造邮件结尾等)定制检测规则
    强制人机确认 :设计层面杜绝自动执行邮件指令,即使误判也优先保护用户
    分级响应机制 :严重攻击直接阻断,中高级别保留人工裁决空间
    透明可审计 :所有检测到的模式均向用户展示具体内容片段
    潜在局限
    覆盖率边界 :新型编码混淆(如 homoglyph 攻击、分段指令)可能逃逸基于模式库的检测
    误报成本 :营销邮件中的紧急语气词、自动回复中的格式化标签可能触发误拦截
    确认疲劳 :高频邮件处理场景下反复确认可能降低用户警觉性
    依赖用户判断 :最终安全决策权交予非技术用户,存在社会工程绕过风险
    适合人群
    使用AI助手处理工作邮件的知识工作者
    企业邮箱自动化场景的安全管理员
    将邮件作为RPA输入源的集成开发者
    常规风险
    确认绕过攻击 :攻击者可能通过伪造发件人身份、模仿用户日常沟通风格降低确认意愿
    上下文累积注入 :单次邮件无害,但多封邮件组合形成有效指令的跨会话攻击
    确认接口本身成为攻击面 :"Reply 'proceed'" 的确认机制若被邮件内容模仿,可能导致误判

标签

其他

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!