浏览器级 Instagram 网红发现与采集

Instagram Scraper

专业技能

收藏 8.1k

下载 3.1k

版本 1.0.7

基于 Playwright 的浏览器级 Instagram 数据采集工具，支持按地理位置与品类发现网红账号，无需 API 密钥，内置代理轮换与反检测机制。

基本信息

技能名称?Instagram Scraper
中文名称?浏览器级 Instagram 网红发现与采集
作者?arulmozhiv
分类?专业技能
版本?1.0.7
标签?instagram, scraping, social-media, influencer-discovery, playwright, proxy-rotation, anti-detection

使用方法

使用说明
核心用法
Instagram Profile Scraper 采用两阶段架构：发现阶段通过 Google Custom Search API 按地理位置（如 Miami）和品类（如 fitness）批量挖掘账号；采集阶段使用 Playwright 启动真实 Chromium 浏览器，模拟人类行为获取完整画像数据，包括粉丝数、互动率、内容缩略图等。输出支持 JSON/CSV 格式，自动跳过私密账号、低粉账号及空账号。
显著优点
零 API 依赖：纯浏览器模拟，绕过 Instagram 官方 API 的频率与权限限制
企业级反检测：内置浏览器指纹混淆、行为模拟脚本、住宅代理集成（支持 Bright Data 等 4 家供应商），宣称 95%+ 成功率
断点续传：队列持久化与去重机制，适合数小时至数天的长周期任务
分层筛选：自动按 nano/micro/mid/macro/mega 五级网红分层，便于精准营销定位
代理灵活配置：支持环境变量注入、粘性会话保持、按国家定向，适配多账号并发场景
潜在缺点与局限性
法律合规风险：明确违反 Instagram robots.txt 及使用条款，存在账号封禁与诉讼风险
平台对抗性：Instagram 持续升级反爬虫策略，工具需频繁更新维护；当前版本依赖特定选择器，可能因页面改版失效
成本门槛：大规模采集必须购买住宅代理（$5-15/GB 起步），否则 IP 迅速被封
数据完整性：私密账号、被限制账号无法采集；互动数据为公开可见值，非真实后台数据
Google API 依赖：发现阶段依赖 Google Custom Search，存在每日 100 次免费配额限制
适合人群
品牌方与 MCN 机构：批量筛选特定区域/品类的网红资源
竞品分析团队：监控对手合作达人矩阵
数据研究团队：社交媒体趋势分析（需合规审查）
常规风险
| 风险类型 | 等级 | 说明 | |---------|------|------| | 法律风险 | 高 | 违反平台 ToS，部分司法管辖区（如欧盟 GDPR 场景）可能触发额外合规问题 | | 账号/封禁风险 | 高 | 被检测后可能导致 Instagram 账号封禁、IP 拉黑，甚至关联设备标记 | | 数据准确性 | 中 | 公开数据存在延迟，粉丝数可能缓存数小时至数天 | | 供应商锁定 | 中 | 深度集成特定代理供应商，迁移成本较高 | > 使用建议：仅限内部研究用途，避免商业转售抓取数据；优先使用官方 Instagram Basic Display API 获取授权数据。

浏览器级 Instagram 网红发现与采集

基本信息

使用方法

标签

💬 评论 (0)

发表评论