CAIO Team

虚拟形象唇同步视频消息生成

Video Messages from your openclaw

收藏 13.1k

下载 3.1k

版本 0.1.2

基于 VRM 虚拟形象生成唇同步视频消息，支持文字转语音后自动合成带表情动作的圆形视频笔记，适合个性化沟通与内容创作

基本信息

技能名称?Video Messages from your openclaw
中文名称?虚拟形象唇同步视频消息生成
作者?thewulf7
分类?专业技能
版本?0.1.2
标签?video-generation, avatar, tts, vrm, telegram, lip-sync, electron, ffmpeg

使用方法

使用说明
核心用法
Video Message 是一个将文字或音频转换为虚拟形象视频的技能，通过 VRM 格式的 3D avatar 实现唇形同步，输出为 Telegram 风格的圆形视频笔记。
典型工作流程：

从 TOOLS.md 读取配置（avatar 模型、背景色/图）
如有文字输入，先调用 TTS 生成音频
使用 avatarcam 工具将音频与虚拟形象合成视频
通过 message 工具以 asVideoNote=true 发送圆形视频
配置灵活性：支持自定义 VRM 模型、纯色或图片背景，分辨率 384×384、30fps、H.264/AAC 编码，最长 60 秒。
显著优点
个性化表达：相比纯文字或语音，虚拟形象视频更具亲和力和辨识度
自动化流程：TTS → 视频生成 → 发送全流程自动化，用户只需输入文字
平台兼容：原生支持 macOS/Windows，Linux 通过 xvfb 无头渲染
标准输出：采用通用 MP4 格式和 Telegram video note 规范，兼容性好
潜在缺点与局限性
依赖外部工具链：需同时安装 Node.js 包 @thewulf7/openclaw-avatarcam 和系统级依赖（ffmpeg、xvfb），配置复杂度较高
性能开销：Electron 渲染 + FFmpeg 转码，处理时间约为音频长度的 1.5 倍
Linux 限制：必须配置无头显示环境（xvfb），且 GPU 警告虽无害但可能干扰日志
版权与形象权：使用第三方 VRM 模型需注意授权协议，商业场景存在合规风险
功能边界：仅支持圆形视频笔记格式，如需标准矩形视频需额外配置
适合人群
需要为 Bot 添加人格化视频交互的开发者
内容创作者寻求快速生成 avatar 口播视频
Telegram 生态运营者，希望发送更具吸引力的消息格式
常规风险
临时文件管理：需在发送后手动清理 /tmp/video*.mp4 ，否则存在磁盘空间泄漏
TTS 内容审核：合成语音的内容需前置过滤，避免生成不当言论视频
模型安全：VRM 文件可能包含恶意脚本，建议仅使用可信来源的模型
隐私披露：视频生成过程中的音频临时文件可能残留敏感信息

标签

专业技能

💬 评论 (0)

发表评论

📭 还没有评论，快来抢沙发吧！