分类 开发 下的文章

基于 Xvfb+XFCE 的虚拟桌面自动化方案,支持 17 种标准 GUI 操作,让无头服务器获得完整桌面控制能力,适用于远程自动化测试与运维场景。

基本信息

  • 技能名称?computer-use
  • 中文名称?无头服务器的虚拟桌面自动化
  • 作者?Ram-Raghav-S
  • 分类?开发
  • 版本?v1.2.1
  • 标签?automation, devops, testing, backend, development-engineering, operations

使用方法

使用说明
核心用法
Computer Use Skill 是一套专为无头 Linux 服务器设计的虚拟桌面自动化解决方案。它通过 Xvfb(虚拟帧缓冲)和 XFCE4 桌面环境创建独立的显示会话( :99 ),使原本需要物理显示器的 GUI 应用程序能够在 VPS、云服务器等无头环境中运行。该技能提供 17 种标准桌面操作,包括截图、鼠标移动/点击/拖拽、键盘输入、滚动、等待等,完整覆盖人机交互的基本需求。
使用流程遵循"观察-分析-执行-验证"的闭环模式:首先通过截图获取当前屏幕状态,由 LLM 分析界面元素位置,执行点击或输入操作,再次截图验证结果,循环直至任务完成。所有操作脚本均为 Bash 实现,直接调用 xdotool 等系统工具,无需额外守护进程,与任意 LLM 模型兼容。
显著优点
环境独立性 :完全基于开源工具链(Xvfb、XFCE、xdotool),不绑定特定云服务商或模型厂商,可在任何 Linux 服务器部署。
操作完整性 :覆盖从基础点击到复杂拖拽、组合键、区域截图等全场景,甚至支持三击选中等精细操作。
模型无关性 :纯脚本实现,输出标准 base64 图片和文本坐标,可与 Claude、GPT、开源模型等任意 LLM 配合。
资源轻量 :1024×768 的 XGA 分辨率兼顾清晰度与性能,适合服务器环境;操作间内置 2 秒延迟避免资源耗尽。
潜在缺点与局限性
分辨率固定 :仅支持 1024×768,现代网页或应用可能出现布局适配问题;高分屏应用需缩放处理。
无原生视觉理解 :依赖 LLM 对截图进行 OCR 或元素识别,本身不提供计算机视觉能力,坐标定位精度受模型影响。
Linux 独占 :基于 X11 生态,无法直接用于 Windows Server 或 macOS 环境。
延迟开销 :每次操作后强制 2 秒等待+截图,高频交互场景效率受限;长文本输入采用 50 字符分块+12ms 延迟,大批量输入较慢。
适合的目标群体
运维工程师 :需要在无头服务器上运行依赖 GUI 的遗留应用或管理面板
自动化测试开发者 :为 Web 或桌面应用构建端到端测试流程,替代 Selenium/Puppeteer 的部分场景
AI Agent 开发者 :为 LLM 赋予"看得见、点得到"的物理世界交互能力
云服务器用户 :在 VPS 上运行浏览器自动化、数据抓取等需要渲染引擎的任务
使用风险
键盘注入风险 : type_text.sh 和 key.sh 直接将输入传递给 xdotool,若在终端焦点下输入恶意命令(如 rm -rf / ),将直接执行。必须在隔离的虚拟桌面( :99 )运行,严禁在宿主桌面使用。
系统级按键影响 : ctrl+alt+del 、 、 alt+F4` 等组合键可能触发系统行为,虽在虚拟环境中不影响宿主机,但可能中断当前会话。
资源消耗 :持续截图生成 base64 PNG,长期高频率运行将占用 CPU 和内存;建议配合操作日志监控异常循环。
依赖稳定性 :依赖 xdotool 等系统包,若目标服务器未安装或版本差异可能导致行为不一致,需预先验证环境。

来自社区的可观测性最佳实践指南,涵盖结构化日志、分布式追踪与指标采集三大支柱,帮助团队构建高可观测性的生产系统。

基本信息

  • 技能名称?logging-observability
  • 中文名称?云原生可观测性工程指南
  • 作者?wpank
  • 分类?开发
  • 版本?v0.1.0
  • 标签?devops, backend, development-engineering, data-analytics, docs

使用方法

使用说明
核心用法
本 Skill 是一套完整的可观测性工程实践指南,围绕日志(Logs)、指标(Metrics)、追踪(Traces)三大支柱展开。核心用法包括:

  1. 结构化日志实施 :强制使用 JSON 格式输出,包含 timestamp、level、service、trace_id、span_id 等必需字段,通过异步上下文存储实现自动上下文传递
  2. 分布式追踪配置 :基于 OpenTelemetry 标准,使用 NodeSDK 初始化追踪器,通过 W3C Trace Context 协议在 HTTP/gRPC/消息队列间传播上下文,支持多种采样策略(概率采样、速率限制、尾部采样)
  3. 指标体系建设 :采用 RED 方法(Rate/Errors/Duration)监控服务端点,USE 方法(Utilization/Saturation/Errors)监控基础设施资源
  4. 监控栈搭建 :推荐 OTel Collector → Prometheus + Grafana + Loki + Jaeger 的开源组合,提供从采集到可视化的完整链路
  5. 告警与仪表盘设计 :定义 P1-P4 严重级别,遵循"告警症状而非原因"原则,配套 Overview Dashboard(全局战情室)和 Service Dashboard(单服务视图)两种模板
    显著优点
    标准先行 :全面拥抱 OpenTelemetry 开放标准,避免厂商锁定,支持多云/混合云环境
    生产就绪 :提供可直接落地的代码示例(Pino/zerolog/zap 等高性能日志库选型)、配置模板和检查清单
    安全内建 :专设 PII/Secret 脱敏章节,明确"NEVER log passwords/tokens/API keys"等红线,包含 8 条反模式警示
    成本意识 :强调采样策略、日志级别动态调整、高基数标签规避等成本控制手段
    全链路覆盖 :从开发规范(结构化日志)到运维实践(告警疲劳预防)形成闭环
    潜在缺点与局限性
    无自动化能力 :纯文档型 Skill,不提供代码生成或自动配置功能,需人工逐条实施
    技术栈偏向 :示例以 Node.js/TypeScript 为主,Python/Go/Rust 覆盖相对简略
    云原生假设 :默认假设 Kubernetes/Prometheus 环境,传统虚拟机或 Serverless 场景需额外适配
    缺乏量化基准 :未提供"多少 QPS 该选什么采样率"等具体数值建议
    T3 来源风险 :来自个人开发者账号,无组织背书,长期维护承诺不明确
    适合的目标群体
    SRE/平台工程师 :搭建或重构可观测性基础设施
    后端开发团队 :制定团队日志规范、接入分布式追踪
    技术负责人 :审查现有系统的可观测性成熟度
    DevOps 转型企业 :从传统监控向云原生可观测性迁移
    使用风险
    实施落差风险 :文档建议与团队现有技术债可能存在冲突,需评估迁移成本
    性能误配风险 :不当的采样策略或日志级别可能导致数据丢失或存储成本激增
    安全合规风险 :尽管文档强调 PII 脱敏,实际实施时仍需结合企业合规要求定制
    依赖项风险 :OpenTelemetry 生态迭代较快,部分配置可能随版本更新失效

依托 FFmpeg 的本地音视频处理方案,支持剪辑、转码、提取音频等 8 大功能,零网络传输确保数据隐私安全。

基本信息

  • 技能名称?ffmpeg-cli
  • 中文名称?专业级音视频剪辑处理工坊
  • 作者?ascendswang
  • 分类?开发
  • 版本?v1.0.0
  • 标签?content-media, productivity, automation

使用方法

使用说明
FFmpeg CLI 是一套基于 FFmpeg 的本地音视频处理工具集,通过 8 个精心封装的 Bash 脚本,将复杂的命令行操作简化为直观的单命令执行。该技能覆盖了视频剪辑合并、音频提取、格式转码、GIF 生成、缩略图截取、速度调节及水印添加等核心媒体处理场景,为用户提供了一站式的多媒体内容加工解决方案。
核心用法上,用户可通过简单的参数调用完成专业级操作。例如使用 cut.sh 精确截取视频片段, merge.sh 无缝合并多个视频文件, extract-audio.sh 快速提取音轨,或通过 gif.sh 将视频片段转换为动态图片。所有脚本均支持主流格式(MP4、AVI、MOV、MKV、WebM 等),并在输出质量与文件大小之间进行了平衡优化,无需记忆复杂的 FFmpeg 参数语法即可实现高效处理。
显著优点体现在安全性与便利性的完美结合。首先,所有处理均在本地完成,无网络通信、无数据外传,充分保障用户隐私与数据安全。其次,代码遵循严格的安全规范:使用 set -e 确保错误即时退出,所有用户输入均通过双引号包裹防止命令注入,临时文件采用 mktemp 安全创建避免竞态条件。此外,技能提供自动安装指引,通过 Homebrew 即可快速部署 FFmpeg 依赖,降低了环境配置门槛。
然而,该技能也存在一定局限性。来源方面,项目托管于个人开发者账号(T3 来源),缺乏官方组织背书与代码签名。功能设计上,脚本对输入文件的路径合法性与格式校验较为宽松,存在潜在的路径遍历风险; speed.sh 额外依赖 bc 工具进行数值计算,在精简环境中可能缺失。最重要的是,所有脚本均使用 FFmpeg 的 -y 强制覆盖参数,若输出路径指定不当,可能导致现有文件被意外覆盖且无法恢复。
适合的目标群体包括内容创作者(博主、视频剪辑师)、软件开发者在多媒体处理场景下的快速原型验证,以及运维人员处理日志视频或监控片段。对于需要频繁进行简单媒体格式转换、片段截取的用户,该技能能显著提升工作效率。但需要注意的是,由于输入验证机制较为简单,不建议在处理来自不可信来源的视频文件时使用,以防格式漏洞利用风险。
使用风险主要集中在文件安全与依赖管理方面。除强制覆盖风险外,用户需确保输入文件格式正确,避免因格式错误导致的处理失败或异常输出。建议在使用前备份重要数据,仔细检查输出路径,并在生产环境部署前进行充分的输入边界测试。尽管代码本身无破坏性操作,但 FFmpeg 的强大功能意味着不当参数可能产生非预期结果,建议用户在首次使用时于测试环境验证工作流程。

Node.js 驱动的 Swagger/OpenAPI 智能客户端,支持自然语言调用 REST API,但含 execSync 安全隐患,仅适用于开发测试环境。

基本信息

  • 技能名称?swagger-skill
  • 中文名称?自然语言驱动的 API 智能管家
  • 作者?MinusGod
  • 分类?开发
  • 版本?v1.0.1
  • 标签?api, development-engineering, testing, automation, backend, docs

使用方法

使用说明
swagger-skill 是一款面向开发者的智能 API 工具,旨在通过自然语言交互简化 Swagger/OpenAPI 接口的查询与调用流程。该工具支持一键加载 Swagger 规范,通过语义搜索快速定位接口(如"保存用户"、"获取数据集"),并能根据自然语言指令自动匹配并执行相应的 HTTP 请求。其核心功能包括智能接口解析、分层缓存机制、多认证方式支持(Token/Cookie)以及文件上传能力,同时兼容 OpenAPI 3.0 和 Swagger 2.0 规范,为 API 调试和集成测试提供了便利的 CLI 交互体验。
该工具的显著优势在于其智能化交互设计。通过自然语言搜索功能,开发者无需记忆复杂的接口路径和参数,仅凭描述性文字即可快速定位目标 API。分层缓存架构(轻量索引 + Map 结构)确保了接口列表查询和详情检索的高性能,避免了重复的文档解析开销。此外,工具提供了完整的 TypeScript 风格的 API 文档,支持多种 HTTP 方法(GET/POST/PUT/DELETE/PATCH 等),并内置了表单数据构造和文件上传的便捷方法,大大降低了 API 调用的样板代码编写成本。
然而,该技能存在不可忽视的安全缺陷与局限性。安全评级为 C 级,主要源于代码中使用 execSync() 执行系统命令( npm install )进行自动依赖安装,存在潜在的命令注入风险,尽管依赖名称硬编码为 axios 和 form-data,但动态执行 shell 命令本身违反了高安全等级要求。此外,作为 T3 来源(个人开发者账号)的资产,缺乏官方组织背书和长期维护保障。工具在依赖管理方面也存在版本漂移风险,自动生成 package.json 但无 package-lock.json 锁定版本,可能导致不同环境安装不同版本的依赖。
该技能最适合后端开发人员、API 测试工程师以及 DevOps 人员在本地开发环境或受信任的内部网络中使用。对于需要频繁调试多个 Swagger 接口、进行自动化 API 测试或快速验证接口逻辑的场景,该工具能显著提升效率。但对于前端开发者或纯业务人员,由于涉及 Node.js 运行时和潜在的安全配置复杂性,学习成本相对较高。
使用风险需格外警惕。首先, 禁止在生产环境或处理敏感数据的场景中使用 ,因 execSync 调用可能被利用执行恶意命令。其次,自动依赖安装功能需要外部网络连接,且从 npm 仓库动态拉取依赖,存在供应链攻击的潜在风险。建议用户在隔离环境(如 Docker 容器)中运行,并在首次使用前手动执行 npm install 以避免自动执行系统命令。此外,虽然工具本身不泄露 Token 和 Cookie 到第三方,但用户仍需确保 API 端点的可信度,避免中间人攻击导致认证信息泄露。

基于 Agent Client Protocol 标准,提供 OpenCode 程序化控制能力,支持会话管理、自动化工作流集成与版本更新管理。

基本信息

  • 技能名称?opencode-acp-control
  • 中文名称?OpenCode ACP 协议智能控制
  • 作者?Unknown
  • 分类?开发
  • 版本?latest
  • 标签?development-engineering, automation, api, docs, devops, backend

使用方法

使用说明
核心用法
OpenCode ACP Skill 是一套纯文档型的协议控制指南,旨在通过 Agent Client Protocol (ACP) 实现对 OpenCode 的完整程序化控制。该 Skill 不提供可执行代码,而是详细规定了通过 JSON-RPC 2.0 协议与 OpenCode CLI 通信的标准流程。
使用时,首先需要通过 bash 工具在后台启动 OpenCode ACP 服务( opencode acp --cwd /path ),获取进程会话 ID。随后通过 process.write 发送 JSON-RPC 消息进行初始化(initialize)、创建新会话(session/new)或加载已有会话(session/load)。发送提示(session/prompt)后,需以 2 秒为间隔轮询(process.poll)接收流式响应,直至收到包含 stopReason 的最终响应。整个交互过程严格遵循请求-响应模式,支持会话的持久化存储与恢复。
显著优点
协议标准化 :采用通用的 JSON-RPC 2.0 格式,消息结构清晰,便于与各类编程语言和工具集成。 会话管理能力 :支持完整的会话生命周期管理,包括创建、恢复、取消操作,且会话数据在 OpenCode 服务端持久保存,进程重启后可通过 session/load 恢复历史对话。 自动化友好 :详细的轮询策略(2秒间隔、5分钟超时)和错误处理指南(空响应、解析错误、进程退出),为构建可靠的自动化工作流提供了坚实基础。 版本管理 :内置 OpenCode 自动更新检查机制,通过比对当前版本与 GitHub Releases 最新版本,可触发自动更新流程。
潜在缺点与局限性
外部依赖严格 :该 Skill 本质上是"使用说明书",完全依赖用户预装 OpenCode CLI 工具,若环境未安装 opencode 命令则无法使用。 交互模式繁琐 :采用轮询(polling)机制而非回调或 WebSocket,需要手动管理消息 ID 计数器、维护轮询循环,增加了集成复杂度。 纯文档限制 :作为无代码执行的文档型 Skill,它不能自动处理协议细节,所有 JSON 消息构造、会话状态跟踪、错误重试逻辑都需要调用方自行实现。 来源可信度 :作者为个人开发者(T3 来源),虽代码透明但缺乏组织级维护保障。
适合的目标群体
主要面向需要将 OpenCode 集成到自有工作流中的 开发者 和 DevOps 工程师 ,特别是构建 CLI 工具、IDE 插件或自动化脚本的场景。适合熟悉进程管理、理解 JSON-RPC 协议、具备一定错误处理能力的开发人员。对于希望实现"用 AI 控制 AI"(即通过 LLM Agent 控制 OpenCode Agent)的高级用户,该 Skill 提供了必要的协议规范。不推荐无开发背景的普通终端用户直接使用。
使用风险
进程管理风险 :需要手动管理后台进程(启动、轮询、杀死),若未正确处理 process.kill 可能导致僵尸进程残留。 超时与挂起 :文档建议最大等待 5 分钟(150 次轮询),但在复杂代码生成任务中可能超出此时限,导致误判为超时。 版本兼容性 :依赖特定版本的 OpenCode CLI,若 ACP 协议版本变更可能导致通信失败。 路径注入 :虽然示例中的 bash 命令参数固定,但在实际集成时若直接将用户输入拼接到 cwd 参数,可能存在路径遍历风险,需确保路径校验。 网络依赖 :检查更新功能依赖 webfetch 访问 GitHub,在网络受限环境可能失败。
development-engineering automation api docs devops backend