Discord 语音频道实时 AI 对话

Discord Voice

收藏 19.7k
下载 5.6k
版本 0.1.6

Discord语音频道实时AI对话,支持多引擎语音转写与合成,代码安全规范,适合需要语音交互的社区机器人场景。

基本信息

  • 技能名称?Discord Voice
  • 中文名称?Discord 语音频道实时 AI 对话
  • 作者?avatarneil
  • 分类?专业技能
  • 版本?0.1.6
  • 标签?discord, voice, stt, tts, real-time, websocket, multi-provider, clawdbot

使用方法

使用说明
核心用法
Discord Voice 是 Clawdbot 的语音交互插件,实现 Discord 语音频道内的实时 AI 对话。用户加入语音频道后,可通过自然语音与 Claude AI 交流——语音被自动识别转写为文本,经 AI 处理后以合成语音播放回应。
接入方式 :
Slash 命令 : /discord_voice join 加入频道
CLI 工具 : clawdbot discord_voice join
Agent 工具 :直接调用 discord_voice 工具执行 join/leave/speak/status 动作
完整语音链路 :语音活动检测(VAD) → 音频录制 → 语音转文本(STT) → Claude 处理 → 文本转语音(TTS) → 语音播放。支持 Deepgram 流式 STT(延迟降低约1秒)和智能打断(Barge-in),对话更自然流畅。
显著优点

  1. 多提供商灵活配置 :STT 支持 OpenAI Whisper、Deepgram、本地 Whisper(离线);TTS 支持 OpenAI、ElevenLabs、Kokoro(本地),可根据隐私需求与成本灵活选择
  2. 实时性能优化 :Deepgram 流式识别、WebSocket 长连接、自动重连机制,端到端延迟控制在可接受范围
  3. 工程化完善 :TypeScript 全类型覆盖、完善的错误截断处理(防日志泄露)、临时文件自动清理、心跳监测
  4. 安全实践规范 :API 密钥全部环境变量获取,零硬编码;TLS 1.3 加密传输;符合 GDPR/CCPA 基本要求
    潜在缺点与局限性
    外部 API 强依赖 :核心功能依赖 6 家第三方语音服务商(OpenAI/Deepgram/ElevenLabs/AWS/Microsoft/Wyoming),网络波动或服务变更影响可用性
    单频道限制 :每个服务器同时仅能接入一个语音频道
    录制时长限制 :默认 30 秒最大录制时长,长语音需分段处理
    本地部署门槛 :需 ffmpeg、build-essential 等系统依赖,Windows 环境配置较复杂
    无语音数据持久化 :虽保护隐私,但也意味着无法离线分析或事后审计对话内容
    适合人群
    Discord 社区运营者:打造 24/7 语音陪伴型 AI 机器人
    开发团队:需要快速集成语音能力的 Clawdbot 用户
    隐私敏感场景:可选择本地 Whisper + Kokoro 实现完全离线语音交互
    常规风险
    API 密钥泄露风险 :虽代码层面无硬编码,但用户配置不当仍可能导致密钥暴露
    语音数据跨境传输 :使用境外服务商时音频数据需出境,合规敏感场景建议启用本地模式
    速率限制影响体验 :Deepgram/ElevenLabs 等存在调用限额,高并发场景需配置 fallback 策略
    依赖误报干扰 :oxlint 被误标为 typosquatting,需人工甄别避免不必要的安全警报

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!