情感语音合成 · 一键发送 WhatsApp

Elevenlabs Tts

收藏 22.7k
下载 6.2k
版本 2.4.0

ElevenLabs 第三代语音合成引擎,支持情感标签与多语言,生成逼真 AI 语音并直接发送 WhatsApp 语音消息

基本信息

  • 技能名称?Elevenlabs Tts
  • 中文名称?情感语音合成 · 一键发送 WhatsApp
  • 作者?shaharsha
  • 分类?专业技能
  • 版本?2.4.0
  • 标签?elevenlabs, tts, voice-synthesis, whatsapp, multilingual, ai-voice, text-to-speech, emotional-audio, audio-tags, opus

使用方法

使用说明
核心用法
ElevenLabs TTS 是基于 ElevenLabs v3 模型的文本转语音技能,专为 OpenClaw 生态深度优化。用户通过 [emotional tag] 语法控制语音情感、语调与节奏,支持 70+ 语言及多口音合成。
关键功能 :
情感音频标签 :用 [excited] 、 [whispers] 、 [nervous] 等 30+ 标签精确控制情绪表达
WhatsApp 原生集成 :自动转码为 Opus 格式,直接发送语音消息
多语言支持 :希伯来语、西班牙语等语言保持情感标签控制
长文本处理 :支持 10,000 字符上限,推荐分段
配置要求 :需 ElevenLabs API Key(sk_xxx)及系统 ffmpeg。在 openclaw.json 中配置 messages.tts 节点,选择 eleven_v3 模型(唯一支持音频标签的版本)。
显著优点

  1. 情感细腻度行业领先 :v3 的非确定性生成机制让同一文本多次生成略有差异,配合 0.5 稳定性设置可获得极具表现力的朗读效果
  2. 工作流闭环 :从生成到 WhatsApp 发送一站式完成,支持 MP3→Opus 自动转码,解决跨平台兼容问题
  3. 多角色对话 :单条文本内通过标签切换实现多人对话,支持 [interrupting] 、 [overlapping] 等戏剧化标签
    潜在局限
    非确定性输出 :相同参数可能产生不同结果,需多次生成择优
    标签滥用风险 :过度使用标签会导致机械感,官方建议每句 1-2 个标签
    SSML 不支持 :无法使用传统 SSML break 标签,需依赖 [pause] 等专有标签
    成本敏感 :ElevenLabs API 按字符计费,长文本/多语言场景成本较高
    PVC 语音兼容性差 :Instant Voice Clone(IVC)优于 Professional Voice Clone(PVC)
    适合人群
    内容创作者 :播客、有声书、短视频配音
    开发者/自动化工程师 :需要 WhatsApp 语音消息自动化的场景
    多语言用户 :希伯来语、阿拉伯语等小语种情感 TTS 需求
    游戏/叙事设计师 :需要角色对话与情绪控制的沉浸式音频
    常规风险
    API 密钥泄露 : ELEVENLABS_API_KEY 需妥善保管,避免硬编码提交
    版权与肖像权 :克隆他人声音可能涉及法律风险,ElevenLabs 要求声纹样本授权
    音频滥用 :高仿真语音可能被用于诈骗,需遵守平台使用政策
    质量衰减 :超长文本(>800字符)会导致语音一致性下降
    临时文件残留 :TTS 生成文件存于 /tmp/openclaw/tts-*/ ,需手动清理或配置自动删除

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!