Discord 语音频道实时 AI 对话

Discord Voice

专业技能

收藏 19.7k

下载 5.6k

版本 0.1.6

Discord语音频道实时AI对话，支持多引擎语音转写与合成，代码安全规范，适合需要语音交互的社区机器人场景。

基本信息

技能名称?Discord Voice
中文名称?Discord 语音频道实时 AI 对话
作者?avatarneil
分类?专业技能
版本?0.1.6
标签?discord, voice, stt, tts, real-time, websocket, multi-provider, clawdbot

使用方法

使用说明
核心用法
Discord Voice 是 Clawdbot 的语音交互插件，实现 Discord 语音频道内的实时 AI 对话。用户加入语音频道后，可通过自然语音与 Claude AI 交流——语音被自动识别转写为文本，经 AI 处理后以合成语音播放回应。
接入方式：
Slash 命令： /discord_voice join 加入频道
CLI 工具： clawdbot discord_voice join
Agent 工具：直接调用 discord_voice 工具执行 join/leave/speak/status 动作
完整语音链路：语音活动检测(VAD) → 音频录制 → 语音转文本(STT) → Claude 处理 → 文本转语音(TTS) → 语音播放。支持 Deepgram 流式 STT（延迟降低约1秒）和智能打断(Barge-in)，对话更自然流畅。
显著优点

多提供商灵活配置：STT 支持 OpenAI Whisper、Deepgram、本地 Whisper（离线）；TTS 支持 OpenAI、ElevenLabs、Kokoro（本地），可根据隐私需求与成本灵活选择
实时性能优化：Deepgram 流式识别、WebSocket 长连接、自动重连机制，端到端延迟控制在可接受范围
工程化完善：TypeScript 全类型覆盖、完善的错误截断处理（防日志泄露）、临时文件自动清理、心跳监测
安全实践规范：API 密钥全部环境变量获取，零硬编码；TLS 1.3 加密传输；符合 GDPR/CCPA 基本要求
潜在缺点与局限性
外部 API 强依赖：核心功能依赖 6 家第三方语音服务商（OpenAI/Deepgram/ElevenLabs/AWS/Microsoft/Wyoming），网络波动或服务变更影响可用性
单频道限制：每个服务器同时仅能接入一个语音频道
录制时长限制：默认 30 秒最大录制时长，长语音需分段处理
本地部署门槛：需 ffmpeg、build-essential 等系统依赖，Windows 环境配置较复杂
无语音数据持久化：虽保护隐私，但也意味着无法离线分析或事后审计对话内容
适合人群
Discord 社区运营者：打造 24/7 语音陪伴型 AI 机器人
开发团队：需要快速集成语音能力的 Clawdbot 用户
隐私敏感场景：可选择本地 Whisper + Kokoro 实现完全离线语音交互
常规风险
API 密钥泄露风险：虽代码层面无硬编码，但用户配置不当仍可能导致密钥暴露
语音数据跨境传输：使用境外服务商时音频数据需出境，合规敏感场景建议启用本地模式
速率限制影响体验：Deepgram/ElevenLabs 等存在调用限额，高并发场景需配置 fallback 策略
依赖误报干扰：oxlint 被误标为 typosquatting，需人工甄别避免不必要的安全警报

Discord 语音频道实时 AI 对话

基本信息

使用方法

标签

💬 评论 (0)

发表评论