TinyFish CLI 提供四层渐进式网页工具(search/fetch/agent/browser),支持自然语言指令完成搜索、内容提取、浏览器自动化及 CDP 级操控,适合数据采集与反爬场景。
基本信息
- 技能名称?TinyFish Web Agent
- 中文名称?自然语言驱动的网页自动化专家
- 作者?simantak-dabhade
- 分类?专业技能
- 版本?1.0.3
- 标签?web-scraping, browser-automation, data-extraction, cli-tool, cdp, headless-browser, api-integration
使用方法
使用说明
核心用法
TinyFish CLI 是一套分层设计的网页自动化工具集,通过 search → fetch → agent → browser 四级能力实现从轻量查询到深度浏览器控制的全覆盖:
search :快速获取排名搜索结果(标题、URL、摘要),支持地域/语言定向
fetch :并行提取多 URL 纯净内容(自动去广告、导航栏),输出 Markdown/JSON/HTML
agent :自然语言驱动的真实浏览器自动化,支持点击、填表、导航、结构化数据提取,可批量提交和异步管理
browser :原始 CDP 远程浏览器会话,供 Playwright/Puppeteer 直接操控
典型工作流包括「search→fetch」快速研究、「search→agent」深度提取,以及「fetch→agent」或「agent→browser」的能力递进升级。
显著优点
渐进式架构 :按需从轻到重 escalation,兼顾速度与成本
自然语言交互 :agent 层无需编写复杂选择器或脚本,降低使用门槛
反爬友好 :agent/browser 层使用真实浏览器,可应对动态渲染和 bot 防护
批量与并行 :fetch 支持多 URL 并行,agent 支持 CSV 批量提交和独立任务并行执行
结构化输出 :agent 支持通过自然语言指定 JSON Schema,直接获取结构化数据
潜在缺点与局限性
成本阶梯 :从 search 的最低成本到 browser 的最高成本,深度任务费用较高
异步复杂性 :agent 默认 SSE 流式输出,需处理 COMPLETE 事件提取结果,增加集成复杂度
依赖外部服务 :所有操作需 TinyFish API 密钥,存在服务商可用性依赖
学习曲线 :四级工具的选择策略需要用户理解各层能力边界
适合人群
数据分析师、研究员:需要从多源网页批量提取结构化数据
产品经理/运营:竞品价格监控、舆情收集
开发者:构建自动化工作流、测试场景,需要 CDP 级浏览器控制
反爬场景需求者:面对 JavaScript 渲染或防护严格的网站
常规风险
API 密钥安全 :需妥善保管 TINYFISH_API_KEY ,避免泄露
合规风险 :网页抓取需遵守目标网站的 robots.txt 及服务条款
成本失控 :agent/browser 层按使用计费,批量任务需关注用量
数据时效性 :提取结果依赖目标网站实时状态,可能存在延迟或变更
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!