反爬专家级亚马逊数据采集器

Amazon Scraper

专业技能

收藏 7.6k

下载 2.3k

版本 3.4.1

基于Playwright Stealth的容器化亚马逊爬虫，专精绕过反爬检测，支持BSR榜单、月销量获取及通用网页抓取，电商选品与竞品分析利器。

基本信息

技能名称?Amazon Scraper
中文名称?反爬专家级亚马逊数据采集器
作者?jiafar
分类?专业技能
版本?3.4.1
标签?web-scraping, amazon, e-commerce, playwright, docker, data-extraction, market-research, product-research, anti-detection, stealth

使用方法

使用说明
核心用法
Amazon Scraper 是一个 Docker 容器化的高性能爬虫工具，基于 playwright-extra + Stealth 插件构建，核心目标是绕过亚马逊严格的 headless 浏览器检测。支持两种工作模式：
Amazon 模式 ( amazon_handler.js )：自动识别三种页面类型——畅销榜 /gp/bestsellers/ （含排名但无月销量）、新品榜 /zg/new-releases/ 、飙升榜 /zg/movers-and-shakers/ 、搜索结果 /s?k= （含关键字段 boughtPastMonth 月销量）、产品详情页 /dp/ （最全数据：BSR、品牌、卖点、月销）。支持多页爬取 --pages 、文件输出 --output 、自定义代理覆盖。
通用模式 ( main_handler.js )：处理非亚马逊的动态网页，提取 document.body.innerText 纯文本，输出上限10000字符。
显著优点
反爬能力强：Stealth 插件自动修改 navigator、WebGL、Canvas 等指纹特征，配合 Chrome 123 UserAgent 和完整请求头，有效绕过 headless 检测
开箱即用：内置5个轮询代理，无需配置即可直接运行
架构专业：Docker 沙箱隔离，每次启动全新浏览器上下文，代理自动轮询+故障切换
电商数据专精：专门针对亚马逊 BSR、月销量(boughtPastMonth)、评论数等选品核心字段优化
潜在局限
通用模式输出上限10000字符，不适合超长篇内容
Amazon 单页仅约30-50产品，大规模采集需多页组合
不支持登录态页面（购物车、个人订单等）
Docker 冷启动约15秒（含 Stealth 初始化）
依赖亚马逊页面结构稳定性，DOM 变更可能导致字段缺失
适合人群
亚马逊卖家/运营：选品调研、竞品监控、品类机会分析
跨境电商分析师：批量获取 BSR、月销量、价格带、评分分布
数据研究员：需要结构化电商数据的自动化采集场景
开发者：需要反爬能力强的动态网页抓取基础设施
常规风险
合规风险：需遵守亚马逊 robots.txt 及服务条款，高频爬取可能导致 IP 被封或账号受限
数据准确性： boughtPastMonth 为亚马逊估算值，非精确销量；BSR 为实时波动排名
技术依赖：Playwright 浏览器二进制文件约占用 2GB 磁盘，内存建议 2GB+
代理成本：内置代理为共享资源，大规模商业用途建议配置私有代理池

反爬专家级亚马逊数据采集器

基本信息

使用方法

标签

💬 评论 (0)

发表评论