智能网页抓取，Token 立省 80%

Smart Web Fetch

下载 0

版本 1.0.0

智能网页抓取技能，通过多级清洗服务自动获取干净Markdown，替代内置web_fetch，节省50-80% Token消耗

基本信息

技能名称?Smart Web Fetch
中文名称?智能网页抓取，Token 立省 80%
作者?leochens
分类?其他
版本?1.0.0
标签?web-scraping, markdown, token-optimization, jina-ai, content-extraction, agent-tool

使用方法

使用说明
核心用法
Smart Web Fetch 是一款专为 Agent 设计的网页内容获取工具，通过调用 Jina Reader、markdown.new、defuddle.md 等清洗服务，将原始 HTML 转换为干净的 Markdown 格式。使用时只需运行 python3 {baseDir}/scripts/fetch.py "URL" 即可获取清洗后的内容，支持 --json 参数输出包含元信息的结构化数据。
显著优点

Token 大幅节省 : 清洗后内容比原始 HTML 减少 50-80% 的 Token 消耗，有效降低 LLM 调用成本
四级降级策略 : Jina → markdown.new → defuddle.md → 原始内容，确保服务高可用性
零配置成本 : 无需 API Key，全部使用免费服务，即插即用
内容纯净 : 自动去除广告、导航栏、脚本等噪音，输出可直接使用的 Markdown
强制替代机制 : 可通过配置 deny: ["web_fetch"] 强制 Agent 使用本技能
潜在局限
依赖第三方服务 : 清洗服务均为外部依赖，存在服务不稳定或变更接口的风险
内容完整性 : 部分动态渲染页面（SPA、大量 JS 内容）可能无法完整抓取
频率限制 : 免费服务通常存在调用频率限制，高频场景下可能受限
格式一致性 : 不同清洗服务输出格式略有差异，可能影响下游处理逻辑
适合人群
需要频繁获取网页内容的 AI Agent 开发者
对 Token 成本敏感、希望优化 LLM 上下文长度的用户
追求简洁工作流、不愿维护复杂爬虫逻辑的技术团队
常规风险
隐私泄露风险 : 目标 URL 会被发送到第三方清洗服务，敏感链接不建议使用
内容篡改可能 : 清洗服务可能过滤或修改部分原文内容，关键信息需二次验证
服务不可用 : 若全部降级服务失效，将回退到原始 HTML，Token 消耗激增

智能网页抓取，Token 立省 80%

基本信息

使用方法

标签

💬 评论 (0)

发表评论