分类 专业技能 下的文章

基于 yt-dlp 的 TikTok 数据采集与内容分析工具,支持批量下载、元数据提取及增量更新,适合研究者和营销分析师。

基本信息

  • 技能名称?TikTok Crawling (yt-dlp)
  • 中文名称?专业 TikTok 数据采集与分析套件
  • 作者?romneyda
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?tiktok, yt-dlp, web-scraping, video-download, social-media, data-analysis, cli, metadata-extraction, automation

使用方法

使用说明
核心功能与用法
本技能基于 yt-dlp(YouTube-dl 的活跃分支)构建 TikTok 爬取工作流,覆盖从单条视频到批量账号监控的全场景需求。
基础下载 :通过 yt-dlp "https://www.tiktok.com/@handle" 即可下载用户主页全部视频,配合 -o 模板变量实现结构化存储(如 %(uploader)s/%(upload_date)s-%(id)s/video.%(ext)s )。
高级采集模式 :
关键词搜索: yt-dlp "tiktoksearch:cooking recipes"
话题标签页: yt-dlp "https://www.tiktok.com/tag/booktok"
特定音频视频: yt-dlp "https://www.tiktok.com/music/original-sound-xxx"
数据过滤 :支持按日期范围( --dateafter / --datebefore )、播放量( --match-filters "view_count >= 100000" )、时长及标题正则进行精准筛选。
元数据提取 :通过 --simulate --dump-json 或 --print-to-file 导出 JSON/CSV,结合 jq 或 Pandas 进行播放量趋势、发布时间分布等分析。
增量更新机制 : --download-archive 记录已下载视频 ID,避免重复采集,适合搭建定时监控任务(配合 Cron)。
显著优点

  1. 成熟度高 :yt-dlp 为社区维护的活跃项目,持续修复 TikTok API 变更
  2. 功能全面 :单工具覆盖下载、元数据提取、格式选择、速率控制
  3. 结构化输出 :内置模板变量支持标准化数据管理
  4. 认证灵活 :支持浏览器 Cookie 导入,可采集部分受限内容
  5. 零成本开源 :完全免费,无 API 调用配额限制
    潜在局限与风险
    技术局限 :
    TikTok 频繁调整 API,部分功能(如无水印下载)可能临时失效
    匿名请求易触发速率限制,需配置 Cookie 或代理
    无法稳定采集评论区数据(需配合其他工具)
    合规风险 :
    违反 TikTok 服务条款第 4(c) 条(禁止自动化数据收集)
    大规模采集可能导致账号/IP 封禁
    下载内容涉及版权及创作者肖像权,商业使用需获得授权
    部分司法管辖区将未经授权爬取社交媒体数据视为违法
    数据安全 :
    Cookie 文件包含敏感会话信息,需妥善保管
    输出目录可能累积大量个人数据,需符合 GDPR/CCPA 等法规
    适用人群
    学术研究:社交媒体传播、短视频内容分析
    营销分析:竞品监测、KOL 评估、趋势追踪
    内容存档:创作者备份个人作品
    数据科学:构建 TikTok 数据集用于模型训练
    常规风险管控建议
    控制请求频率( --sleep-interval 2-5 )
    优先使用个人账号 Cookie,避免共享凭证
    定期清理本地存储的元数据,实施数据最小化原则
    商业场景咨询法律合规部门,获取内容使用授权

通过浏览器自动化操作抖音网页版,实现私信收发、聊天记录读取、评论区分析及互动等社交管理功能。

基本信息

  • 技能名称?Douyin Messager | 抖音私信助手
  • 中文名称?自动化管理抖音私信与评论互动
  • 作者?moroiser
  • 分类?专业技能
  • 版本?1.1.8
  • 标签?browser-automation, douyin, social-media, messaging, comment-analysis, tiktok-china, customer-service, community-management

使用方法

使用说明
核心用法
抖音私信助手是一款基于浏览器自动化技术的网页操作工具,主要面向需要批量管理抖音社交互动的用户。核心功能包括四大模块:

  1. 私信会话管理 :自动进入抖音私信悬浮面板,读取会话列表(支持私聊/群聊区分、置顶标记、未读数识别),并点击进入具体聊天窗口查看历史记录。
  2. 消息收发 :在聊天详情页定位Draft.js富文本输入框,通过模拟键盘输入写入文本并触发发送。采用几何特征+内容特征动态查找策略,避免依赖易变的CSS类名。
  3. 视频/图文评论区操作 :支持搜索关键词获取视频链接、打开指定视频/图文页面、滚动加载并读取评论区内容(昵称、内容、时间、点赞数等),可输出情绪简报(正向/中性/负向/争议分类)。
  4. 互动写入(需确认) :评论、回复、点赞等外部互动操作支持定位输入框和按钮,但必须在获得用户明确确认后方可执行。
    显著优点
    无API依赖 :纯浏览器自动化方案,无需申请抖音开放平台权限,绕过官方接口限制
    动态适应性强 :不依赖固定class name,通过几何特征(元素尺寸、位置)+ 内容特征组合定位,对页面改版有一定容忍度
    读写分离设计 :读取操作自动化程度高,写入操作强制人工确认,平衡效率与风险控制
    评论区情绪分析 :内置结构化简报模板,支持快速舆情扫描
    潜在缺点与局限性
    平台对抗风险 :抖音网页版DOM结构频繁变更,几何定位策略仍可能失效;class name示例仅供参考,不可作为稳定依赖
    功能边界受限 :视频、图集、点赞、撤回等卡片类消息DOM暴露不完整,读取时仅能保守标注,无法完整解析
    单会话性能瓶颈 :私信面板滚动加载、评论区无限滚动均需逐屏处理,大批量数据处理效率有限
    Draft.js输入限制 :必须使用 type 方式写入,直接DOM操作无法触发内部状态,技术实现有特定约束
    账号安全风险 :浏览器自动化操作存在被平台识别为异常行为的可能,可能导致限流或封号
    适合人群
    社交运营人员:需要监控多账号私信、批量回复用户咨询
    内容创作者:希望分析自身视频评论区反馈、收集用户 sentiment
    市场调研人员:通过评论区抽样快速获取产品/话题舆情
    小型MCN机构:低成本实现多账号私信集中管理
    常规风险
    | 风险类型 | 说明 | 缓解建议 | |---------|------|---------| | 账号封禁 | 高频自动化操作触发风控 | 控制操作频率,避免短时间内大量发送 | | 数据不完整 | 卡片类消息解析失败 | 对关键业务人工复核,不依赖自动解析结果 | | 页面改版失效 | DOM结构变更导致定位失败 | 建立监控机制,及时更新定位策略 | | 隐私合规 | 读取他人私信/评论涉及数据获取 | 确保有合法授权,仅用于授权账号自身数据管理 | | Linux弹窗干扰 | xdg-open弹窗可能阻断流程 | Linux环境需手动关闭或配置默认处理程序 |

安全的内容工作流管理工具,实现AI起草-人工审核-发布的内容流水线,支持LinkedIn/X/Reddit多平台发布,确保关键操作需人工授权。

基本信息

  • 技能名称?Agent Content Pipeline
  • 中文名称?AI起草·人工把关·安全发布
  • 作者?larsderidder
  • 分类?专业技能
  • 版本?0.2.3
  • 标签?content-management, cli, social-media, human-in-the-loop, workflow-automation, linkedin, twitter, reddit, approval-workflow, cryptographic-signature

使用方法

使用说明
核心用法
agent-content-pipeline 是一个专为人机协作设计的内容管理 CLI 工具,建立「起草→审核→修订→批准→发布」的标准化工作流。
目录结构驱动流程 : drafts/ (AI起草)→ reviewed/ (人工反馈)→ revised/ (AI修订)→ approved/ (人工批准)→ posted/ (归档)。AI 仅能操作 drafts/ 和 revised/ ,批准与发布权限严格分离给人类。
关键命令 : content init 初始化工作区, content review 触发审核流程, content post 执行发布(需密码确认)。支持 --secure 模式启用加密签名。
多平台适配 :LinkedIn(专业长文+3-5标签)、X/Twitter(280字短内容+1-2标签)、Reddit(实验性,需指定subreddit)。认证信息从 Firefox 提取并加密存储。
显著优点

  1. 强制人机分离 :通过文件系统权限模型,从架构上阻止 AI 擅自发布内容
  2. 审计可追溯 : .content-pipeline/threads/ 保留完整反馈历史
  3. 密码保护发布 :即使本地令牌被盗,仍需密码才能执行 content post
  4. 跨平台统一 :单一 CLI 管理多社交平台,降低上下文切换成本
    潜在局限
    Reddit 支持标记为 experimental :API 和板块规则变动可能导致故障
    Firefox 依赖 :X/Twitter 认证需特定浏览器环境,手动 cookie 步骤较繁琐
    无云端同步 :纯本地文件系统方案,团队协作需自行配置 Git 等版本控制
    单帖单文件限制 :批量内容管理效率受限
    适合人群
    需要高频发布专业内容但坚持人工终审的创作者/运营者
    对 AI 代发内容有合规顾虑的企业账号管理者
    多平台内容策略执行者(尤其 LinkedIn + X 组合)
    常规风险
    本地令牌泄露 :虽加密存储,但物理设备丢失仍存在风险
    社会工程学攻击 :攻击者可能伪装审核反馈诱导 AI 修订恶意内容
    流程绕过 :若人类滥用 content mv 手动移动文件,可能破坏审批链完整性

AI代理间的去中心化服务交易市场,支持A2A、A2H、H2A多种交易模式,用虚拟积分完成服务、工具、算力等资源的点对点交换。

基本信息

  • 技能名称?MoltsList - Where agents make money working for humans & vice versa.
  • 中文名称?AI Agent 的服务交易市场
  • 作者?jononovo
  • 分类?专业技能
  • 版本?2.0.1
  • 标签?marketplace, agent-economy, a2a, api, credits, services, trading, multi-agent

使用方法

使用说明
核心用法
MoltsList 是一个专为 AI Agent 设计的服务 marketplace,让不同代理之间可以像人类 freelancer 一样交易服务、工具和任务。核心流程包括:注册获取 API Key → 创建服务列表(offer)或发布需求(request)→ 通过评论协商 → 发起交易 → 交付成果 → 确认并评价。
平台支持三种交易模式:A2A(代理对代理)、A2H(代理对人类)、H2A(人类对代理),涵盖代码审查、数据分析、算力租赁、提示词交易等多种服务类型。定价灵活,支持免费、积分、credits、USDC 或物物交换。新用户注册即送 100 积分,每日活跃可再获 20 积分,社交媒体分享可获 500 积分 bonus。
显著优点
原生为 AI 设计 :API-first 架构,curl 命令即完整文档,Agent 可直接调用无需人工介入
灵活的交易模式 :不仅支持代理间交易,也打通人机协作场景
低门槛启动 :100 积分起步 + 每日补贴,实验成本极低
完整的交易闭环 :从发布、协商、执行到评价,流程设计成熟
激励机制合理 :社交分享奖励鼓励生态传播
潜在局限
信用体系依赖平台 :虚拟积分无链上锚定,平台风险集中
服务质量难以事前验证 :依赖事后评价,存在逆向选择风险
交付标准模糊 :"任务完成"的定义由买卖双方协商,易产生纠纷
USDC 支持但未详述合规 :加密货币支付的法律边界不明
生态规模依赖早期采用 :冷启动阶段可能服务供给不足
适合人群
需要外包特定任务的 AI Agent(如代码审查、数据清洗)
希望 monetize 自身能力的 Agent 开发者
探索 Agent 经济(Agentic Economy)的研究者和实验者
构建多 Agent 协作系统的团队
常规风险
API Key 泄露风险 :文档强调仅向 moltslist.com 发送密钥,但 Agent 环境复杂,易被 prompt injection 诱导泄露
交易对手风险 :对方可能不交付或交付质量不达标,积分损失
平台运营风险 :积分体系中心化管理,存在平台跑路或政策变更可能
合规不确定性 :加密货币支付、AI 服务交易的监管框架尚不清晰

Token安全型提示词组装框架,通过两阶段构建+内存安全阀机制,彻底杜绝API因token溢出导致的调用失败,适用于任何需要记忆检索的Agent系统。

基本信息

  • 技能名称?Prompt Safe
  • 中文名称?Token安全型提示组装 · 零溢出保障
  • 作者?alexunitario-sketch
  • 分类?专业技能
  • 版本?1.0.4
  • 标签?prompt-engineering, token-management, memory-system, agent-framework, api-safety, context-window, llm-orchestration

使用方法

使用说明
核心定位
prompt-assemble 是一套面向大语言模型(LLM)Agent 的标准化提示词组装框架,核心设计目标是在 最大化利用上下文窗口的同时,彻底消除因 token 溢出导致的 API 调用失败风险 。
核心机制详解
两阶段上下文构建(Two-Phase Context Construction)
框架采用"先必需、后增强"的分层策略:
Phase 1(最小上下文) :系统提示 + 最近3条对话(精简版)+ 当前用户输入, 默认不加载任何记忆
Phase 2(记忆决策与注入) :仅当检测到显式记忆触发词(如"之前说过"、"还记得吗")时才检索记忆,经摘要压缩后注入
这种设计确保即使记忆系统完全失效,Agent 仍能基于核心上下文正常运作。
内存安全阀(Memory Safety Valve)
这是框架的防溢流核心:
设定保守阈值(默认 75% 模型上限,如 MiniMax-M2.1 为 153,000 tokens)
实时估算组装后 token 总量
一旦超限, 仅丢弃记忆层 ,保留系统提示和用户输入完整性,并附加系统通知说明情况
硬性约束 :绝不降级系统提示、绝不截断用户输入、禁止概率性拼接(lucky splicing)。
显著优势
零溢出保障 :经过数学验证的安全边际,适配主流模型(GPT-4o/Claude 3.5/MiniMax-M2.1)
记忆降级优雅 :记忆是"可丢弃的增强"而非"刚性依赖"
决策中心化 :token 预算控制权统一收拢在组装层,避免各模块自行其是
快速集成 :提供完整 Python 实现( PromptAssembler 类),单文件可复制
局限性与约束
记忆触发词列表需维护 :当前依赖关键词匹配,可能漏检隐式上下文依赖
摘要质量依赖下游 : MEMORY_SUMMARY_MAX=3 行的硬限制可能损失部分记忆细节
75% 保守阈值存在浪费 :对于确定性场景,25% 缓冲可能显得过度预留
无动态阈值调整 :未提供基于模型响应时间的自适应压缩机制
适用人群
构建长对话 Agent 的开发者(客服、顾问、伴侣类场景)
需要对接向量数据库/记忆检索系统的工程团队
对 API 稳定性有 SLA 要求的生产环境
常规风险提醒
token 估算误差 :不同分词器(BPE vs SentencePiece)估算值与实际值可能有 5-10% 偏差,建议预留缓冲
记忆注入幻觉 :摘要后的记忆可能丢失否定词、时间限定等关键修饰,导致模型"回忆"出不存在的信息
安全阀触发频率监控 :若频繁触发说明阈值设置过激进或记忆检索策略需优化,应作为告警指标
长期记忆污染 :需严格遵循"禁止存储原始对话日志"原则,否则记忆质量会随时间退化
prompt-engineering token-management memory-system agent-framework api-safety context-window llm-orchestration