情感语音合成 · 一键发送 WhatsApp

Elevenlabs Tts

专业技能

收藏 22.7k

下载 6.2k

版本 2.4.0

ElevenLabs 第三代语音合成引擎，支持情感标签与多语言，生成逼真 AI 语音并直接发送 WhatsApp 语音消息

基本信息

技能名称?Elevenlabs Tts
中文名称?情感语音合成 · 一键发送 WhatsApp
作者?shaharsha
分类?专业技能
版本?2.4.0
标签?elevenlabs, tts, voice-synthesis, whatsapp, multilingual, ai-voice, text-to-speech, emotional-audio, audio-tags, opus

使用方法

使用说明
核心用法
ElevenLabs TTS 是基于 ElevenLabs v3 模型的文本转语音技能，专为 OpenClaw 生态深度优化。用户通过 [emotional tag] 语法控制语音情感、语调与节奏，支持 70+ 语言及多口音合成。
关键功能：
情感音频标签：用 [excited] 、 [whispers] 、 [nervous] 等 30+ 标签精确控制情绪表达
WhatsApp 原生集成：自动转码为 Opus 格式，直接发送语音消息
多语言支持：希伯来语、西班牙语等语言保持情感标签控制
长文本处理：支持 10,000 字符上限，推荐分段
配置要求：需 ElevenLabs API Key（sk_xxx）及系统 ffmpeg。在 openclaw.json 中配置 messages.tts 节点，选择 eleven_v3 模型（唯一支持音频标签的版本）。
显著优点

情感细腻度行业领先：v3 的非确定性生成机制让同一文本多次生成略有差异，配合 0.5 稳定性设置可获得极具表现力的朗读效果
工作流闭环：从生成到 WhatsApp 发送一站式完成，支持 MP3→Opus 自动转码，解决跨平台兼容问题
多角色对话：单条文本内通过标签切换实现多人对话，支持 [interrupting] 、 [overlapping] 等戏剧化标签
潜在局限
非确定性输出：相同参数可能产生不同结果，需多次生成择优
标签滥用风险：过度使用标签会导致机械感，官方建议每句 1-2 个标签
SSML 不支持：无法使用传统 SSML break 标签，需依赖 [pause] 等专有标签
成本敏感：ElevenLabs API 按字符计费，长文本/多语言场景成本较高
PVC 语音兼容性差：Instant Voice Clone（IVC）优于 Professional Voice Clone（PVC）
适合人群
内容创作者：播客、有声书、短视频配音
开发者/自动化工程师：需要 WhatsApp 语音消息自动化的场景
多语言用户：希伯来语、阿拉伯语等小语种情感 TTS 需求
游戏/叙事设计师：需要角色对话与情绪控制的沉浸式音频
常规风险
API 密钥泄露： ELEVENLABS_API_KEY 需妥善保管，避免硬编码提交
版权与肖像权：克隆他人声音可能涉及法律风险，ElevenLabs 要求声纹样本授权
音频滥用：高仿真语音可能被用于诈骗，需遵守平台使用政策
质量衰减：超长文本（>800字符）会导致语音一致性下降
临时文件残留：TTS 生成文件存于 /tmp/openclaw/tts-*/ ，需手动清理或配置自动删除

情感语音合成 · 一键发送 WhatsApp

基本信息

使用方法

标签

💬 评论 (0)

发表评论