caio 发布的文章

模块化 Skill 构建器,采用渐进式披露架构,确保指令精简、token 高效,帮助开发者创建高质量 AI 技能。

基本信息

  • 技能名称?Skill Builder / Creator
  • 中文名称?构建高效技能的模块化框架
  • 作者?ivangdavila
  • 分类?其他
  • 版本?1.0.5
  • 标签?skill-development, prompt-engineering, modular-design, token-efficiency, clawhub

使用方法

使用说明
核心用法
Skill Builder 是一套用于创建高质量 AI 技能的开发框架,采用三层渐进式披露架构:元数据层(始终加载)、SKILL.md 主体层(触发时加载)、辅助文件层(按需加载)。核心工作流包括:

  1. 结构设计 :SKILL.md 严格限制在 30-50 行(最多 80 行),超量内容必须拆分至辅助文件
  2. 描述优化 :15-25 字的行动导向描述,避免"Use when"触发式写法
  3. 模块化组织 :通过 Quick Reference 表格管理 setup.md 、 patterns.md 、 memory-template.md 等辅助文档
  4. 质量检查 :包含 7 条核心规则(短指令、渐进披露、关键描述、必需结构、辅助文件优先、零冗余、发布前测试)
    显著优点
    Token 效率极致化 :强制短指令设计,显著降低推理成本
    架构标准化 :消除 Skill 开发的随意性,确保一致性
    渐进披露模型 :平衡上下文完整性与加载效率
    反模式指南 :7 个常见陷阱对照表(如"解释 X 是什么"改为"何时/如何用")
    潜在局限
    学习曲线陡峭 :开发者需适应严格的行数限制和模块化思维
    简单 Skill 可能过度设计 :小型工具类技能可能觉得架构冗余
    辅助文件管理成本 :拆分散落的文档增加维护复杂度
    未声明文件创建风险 :虽有 Data Storage 章节提醒,但仍依赖开发者自觉遵守
    适合人群
    需要构建可维护、可扩展 Skill 集的开发者
    关注 token 成本与推理效率的 AI 应用架构师
    团队协作场景下需要统一 Skill 开发规范的团队
    常规风险
    安全合规 :明确禁止自动创建文件,要求显式用户确认
    版本管理 :当前 v1.0.5,需关注 skill-update 的配套使用
    生态依赖 :推荐配合 skill-manager 、 skill-test 使用,存在工具链锁定效应

通过视觉感知和 GUI 自动化实现微信消息自动发送,支持搜索/列表双模式联系人查找,需依赖外部屏幕捕获服务。

基本信息

  • 技能名称?Wechat Sender
  • 中文名称?视觉驱动的微信自动化发送
  • 作者?noir-hedgehog
  • 分类?其他
  • 版本?1.0.1
  • 标签?automation, gui-automation, wechat, messaging, visual-perception, screen-capture, productivity

使用方法

使用说明
核心用法
WeChat Sender 是一套基于视觉理解的微信自动化发送方案,通过组合 peekaboo 窗口操作工具与 Agent-Eye 屏幕捕获服务,实现对微信客户端的 GUI 自动化控制。
关键能力组合 :
窗口操控 :聚焦微信窗口并调整至 1200×900 分辨率,绕过防录屏限制
视觉感知 :Agent-Eye 提供实时截图(100px 网格+鼠标准星),结合内置 image 工具进行界面理解
联系人查找 :双模式策略——推荐 Cmd+F 搜索(高效),备选 Shift+方向键列表滑动
消息发送 :剪贴板粘贴文本 + Cmd+Return 快捷键触发发送
典型执行流 :聚焦窗口 → 调整大小 → 搜索/定位联系人 → 截图确认 → 粘贴消息 → 发送 → 二次截图验证气泡出现。
显著优点

  1. 非侵入式架构 :不依赖微信 API 或协议破解,纯 GUI 层模拟,降低账号风控概率
  2. 视觉反馈闭环 :每次关键操作后截图确认,避免盲目执行导致的误发
  3. 灵活策略选择 :搜索模式适合已知姓名场景,列表滑动适合顺序固定的批量场景
  4. 网格坐标辅助 :100px 网格叠加降低定位误差,便于精确点击
    潜在缺点与局限性
    外部依赖重 :必须同时启动 eye-server + Python Agent 两个服务,部署门槛较高
    延迟敏感 :截图-分析-决策链条长,单次发送耗时数秒至数十秒,不适合高并发
    UI 脆弱性 :微信版本更新可能导致界面元素位置偏移,需维护坐标映射
    平台锁定 :当前方案基于 macOS( screencapture 、 cmd 键),跨平台需适配
    适合人群
    需要低频、个性化微信触达的自动化场景(如定时问候、状态通知)
    具备本地服务部署能力的技术用户
    无法接受 API 方案封号风险,愿牺牲效率换取稳定性的场景
    常规风险
    隐私泄露 :屏幕捕获服务截取完整桌面内容,需确保运行环境隔离敏感信息
    误发风险 :视觉理解错误可能导致消息发送至错误联系人,建议关键操作前人工复核
    服务可用性 :Agent-Eye 服务崩溃将导致整个链路中断,缺乏降级机制
    微信风控 :频繁自动化操作仍可能触发客户端行为检测,建议控制发送频率

基于 yt-dlp 的 TikTok 数据采集与内容分析工具,支持批量下载、元数据提取及增量更新,适合研究者和营销分析师。

基本信息

  • 技能名称?TikTok Crawling (yt-dlp)
  • 中文名称?专业 TikTok 数据采集与分析套件
  • 作者?romneyda
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?tiktok, yt-dlp, web-scraping, video-download, social-media, data-analysis, cli, metadata-extraction, automation

使用方法

使用说明
核心功能与用法
本技能基于 yt-dlp(YouTube-dl 的活跃分支)构建 TikTok 爬取工作流,覆盖从单条视频到批量账号监控的全场景需求。
基础下载 :通过 yt-dlp "https://www.tiktok.com/@handle" 即可下载用户主页全部视频,配合 -o 模板变量实现结构化存储(如 %(uploader)s/%(upload_date)s-%(id)s/video.%(ext)s )。
高级采集模式 :
关键词搜索: yt-dlp "tiktoksearch:cooking recipes"
话题标签页: yt-dlp "https://www.tiktok.com/tag/booktok"
特定音频视频: yt-dlp "https://www.tiktok.com/music/original-sound-xxx"
数据过滤 :支持按日期范围( --dateafter / --datebefore )、播放量( --match-filters "view_count >= 100000" )、时长及标题正则进行精准筛选。
元数据提取 :通过 --simulate --dump-json 或 --print-to-file 导出 JSON/CSV,结合 jq 或 Pandas 进行播放量趋势、发布时间分布等分析。
增量更新机制 : --download-archive 记录已下载视频 ID,避免重复采集,适合搭建定时监控任务(配合 Cron)。
显著优点

  1. 成熟度高 :yt-dlp 为社区维护的活跃项目,持续修复 TikTok API 变更
  2. 功能全面 :单工具覆盖下载、元数据提取、格式选择、速率控制
  3. 结构化输出 :内置模板变量支持标准化数据管理
  4. 认证灵活 :支持浏览器 Cookie 导入,可采集部分受限内容
  5. 零成本开源 :完全免费,无 API 调用配额限制
    潜在局限与风险
    技术局限 :
    TikTok 频繁调整 API,部分功能(如无水印下载)可能临时失效
    匿名请求易触发速率限制,需配置 Cookie 或代理
    无法稳定采集评论区数据(需配合其他工具)
    合规风险 :
    违反 TikTok 服务条款第 4(c) 条(禁止自动化数据收集)
    大规模采集可能导致账号/IP 封禁
    下载内容涉及版权及创作者肖像权,商业使用需获得授权
    部分司法管辖区将未经授权爬取社交媒体数据视为违法
    数据安全 :
    Cookie 文件包含敏感会话信息,需妥善保管
    输出目录可能累积大量个人数据,需符合 GDPR/CCPA 等法规
    适用人群
    学术研究:社交媒体传播、短视频内容分析
    营销分析:竞品监测、KOL 评估、趋势追踪
    内容存档:创作者备份个人作品
    数据科学:构建 TikTok 数据集用于模型训练
    常规风险管控建议
    控制请求频率( --sleep-interval 2-5 )
    优先使用个人账号 Cookie,避免共享凭证
    定期清理本地存储的元数据,实施数据最小化原则
    商业场景咨询法律合规部门,获取内容使用授权

通过浏览器自动化操作抖音网页版,实现私信收发、聊天记录读取、评论区分析及互动等社交管理功能。

基本信息

  • 技能名称?Douyin Messager | 抖音私信助手
  • 中文名称?自动化管理抖音私信与评论互动
  • 作者?moroiser
  • 分类?专业技能
  • 版本?1.1.8
  • 标签?browser-automation, douyin, social-media, messaging, comment-analysis, tiktok-china, customer-service, community-management

使用方法

使用说明
核心用法
抖音私信助手是一款基于浏览器自动化技术的网页操作工具,主要面向需要批量管理抖音社交互动的用户。核心功能包括四大模块:

  1. 私信会话管理 :自动进入抖音私信悬浮面板,读取会话列表(支持私聊/群聊区分、置顶标记、未读数识别),并点击进入具体聊天窗口查看历史记录。
  2. 消息收发 :在聊天详情页定位Draft.js富文本输入框,通过模拟键盘输入写入文本并触发发送。采用几何特征+内容特征动态查找策略,避免依赖易变的CSS类名。
  3. 视频/图文评论区操作 :支持搜索关键词获取视频链接、打开指定视频/图文页面、滚动加载并读取评论区内容(昵称、内容、时间、点赞数等),可输出情绪简报(正向/中性/负向/争议分类)。
  4. 互动写入(需确认) :评论、回复、点赞等外部互动操作支持定位输入框和按钮,但必须在获得用户明确确认后方可执行。
    显著优点
    无API依赖 :纯浏览器自动化方案,无需申请抖音开放平台权限,绕过官方接口限制
    动态适应性强 :不依赖固定class name,通过几何特征(元素尺寸、位置)+ 内容特征组合定位,对页面改版有一定容忍度
    读写分离设计 :读取操作自动化程度高,写入操作强制人工确认,平衡效率与风险控制
    评论区情绪分析 :内置结构化简报模板,支持快速舆情扫描
    潜在缺点与局限性
    平台对抗风险 :抖音网页版DOM结构频繁变更,几何定位策略仍可能失效;class name示例仅供参考,不可作为稳定依赖
    功能边界受限 :视频、图集、点赞、撤回等卡片类消息DOM暴露不完整,读取时仅能保守标注,无法完整解析
    单会话性能瓶颈 :私信面板滚动加载、评论区无限滚动均需逐屏处理,大批量数据处理效率有限
    Draft.js输入限制 :必须使用 type 方式写入,直接DOM操作无法触发内部状态,技术实现有特定约束
    账号安全风险 :浏览器自动化操作存在被平台识别为异常行为的可能,可能导致限流或封号
    适合人群
    社交运营人员:需要监控多账号私信、批量回复用户咨询
    内容创作者:希望分析自身视频评论区反馈、收集用户 sentiment
    市场调研人员:通过评论区抽样快速获取产品/话题舆情
    小型MCN机构:低成本实现多账号私信集中管理
    常规风险
    | 风险类型 | 说明 | 缓解建议 | |---------|------|---------| | 账号封禁 | 高频自动化操作触发风控 | 控制操作频率,避免短时间内大量发送 | | 数据不完整 | 卡片类消息解析失败 | 对关键业务人工复核,不依赖自动解析结果 | | 页面改版失效 | DOM结构变更导致定位失败 | 建立监控机制,及时更新定位策略 | | 隐私合规 | 读取他人私信/评论涉及数据获取 | 确保有合法授权,仅用于授权账号自身数据管理 | | Linux弹窗干扰 | xdg-open弹窗可能阻断流程 | Linux环境需手动关闭或配置默认处理程序 |

安全的内容工作流管理工具,实现AI起草-人工审核-发布的内容流水线,支持LinkedIn/X/Reddit多平台发布,确保关键操作需人工授权。

基本信息

  • 技能名称?Agent Content Pipeline
  • 中文名称?AI起草·人工把关·安全发布
  • 作者?larsderidder
  • 分类?专业技能
  • 版本?0.2.3
  • 标签?content-management, cli, social-media, human-in-the-loop, workflow-automation, linkedin, twitter, reddit, approval-workflow, cryptographic-signature

使用方法

使用说明
核心用法
agent-content-pipeline 是一个专为人机协作设计的内容管理 CLI 工具,建立「起草→审核→修订→批准→发布」的标准化工作流。
目录结构驱动流程 : drafts/ (AI起草)→ reviewed/ (人工反馈)→ revised/ (AI修订)→ approved/ (人工批准)→ posted/ (归档)。AI 仅能操作 drafts/ 和 revised/ ,批准与发布权限严格分离给人类。
关键命令 : content init 初始化工作区, content review 触发审核流程, content post 执行发布(需密码确认)。支持 --secure 模式启用加密签名。
多平台适配 :LinkedIn(专业长文+3-5标签)、X/Twitter(280字短内容+1-2标签)、Reddit(实验性,需指定subreddit)。认证信息从 Firefox 提取并加密存储。
显著优点

  1. 强制人机分离 :通过文件系统权限模型,从架构上阻止 AI 擅自发布内容
  2. 审计可追溯 : .content-pipeline/threads/ 保留完整反馈历史
  3. 密码保护发布 :即使本地令牌被盗,仍需密码才能执行 content post
  4. 跨平台统一 :单一 CLI 管理多社交平台,降低上下文切换成本
    潜在局限
    Reddit 支持标记为 experimental :API 和板块规则变动可能导致故障
    Firefox 依赖 :X/Twitter 认证需特定浏览器环境,手动 cookie 步骤较繁琐
    无云端同步 :纯本地文件系统方案,团队协作需自行配置 Git 等版本控制
    单帖单文件限制 :批量内容管理效率受限
    适合人群
    需要高频发布专业内容但坚持人工终审的创作者/运营者
    对 AI 代发内容有合规顾虑的企业账号管理者
    多平台内容策略执行者(尤其 LinkedIn + X 组合)
    常规风险
    本地令牌泄露 :虽加密存储,但物理设备丢失仍存在风险
    社会工程学攻击 :攻击者可能伪装审核反馈诱导 AI 修订恶意内容
    流程绕过 :若人类滥用 content mv 手动移动文件,可能破坏审批链完整性