本地离线将 Telegram 语音消息转录为文字,使用 OpenAI Whisper tiny 模型,无需 API 密钥,自动删除文件保护隐私,4GB 内存即可快速运行。
基本信息
- 技能名称?TG Voice Whisper Transcriber
- 中文名称?本地离线语音转文字,隐私零泄露
- 作者?drones277
- 分类?专业技能
- 版本?1.0.0
- 标签?privacy, offline, telegram, voice-to-text, whisper, open-source, local-ai, automation
使用方法
使用说明
核心用法
tg-voice-whisper 是一个本地离线语音转文字技能,专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时,自动调用 OpenAI Whisper tiny 模型进行俄语文本转录(支持多语言),并将转录结果以消息形式回复,随后自动删除原始文件与临时文件,实现零残留。
典型工作流:
- 语音文件进入 /root/.openclaw/media/inbound/
- 执行 whisper PATH --model tiny --language ru --output_format txt
- 读取转录文本并通过 message action=send 回复
- rm PATH /tmp/whisper/* 清理文件
支持两种自动化模式:子代理轮询(每 5 秒检测新文件)或 cron 定时任务。
显著优点
完全离线隐私 :无需网络连接,不调用任何外部 API,不存储 API 密钥,语音数据不出本机
零残留机制 :转录后自动删除原始音频与临时文本文件,杜绝隐私泄露风险
轻量化部署 :tiny 模型仅 72MB,首次下载后缓存,后续 1vCPU/4GB 环境下
零配置成本 :无需注册账号或管理密钥,安装后即可使用
多语言支持 :俄语/英语效果最佳,支持 --language detect 自动检测
潜在缺点与局限性
准确率限制 :tiny 模型俄语识别准确率 85-95%,口音、噪音环境可能下降;追求更高精度需升级 base/small 模型(资源占用增加)
硬件门槛 :4GB RAM 为推荐配置,低配环境可能触发交换分区导致延迟
首次冷启动 :首次运行需 15 秒下载模型,体验不如已预热服务
仅支持 Telegram 生态 :文件路径硬编码于 OpenClaw 架构,迁移成本较高
无说话人分离 :无法区分对话多方,连续语音需人工分段
适合人群
隐私敏感型用户:记者、律师、医疗从业者等需本地处理敏感语音
俄语/英语 Telegram 重度用户:日常接收大量语音消息需快速浏览
离线环境工作者:内网服务器、航空/海上等无稳定网络场景
技术爱好者:希望自建 AI 工作流,避免云服务依赖
常规风险
| 风险类型 | 说明 | 缓解措施 | |---------|------|---------| | 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 | | 文件权限 | 自动删除依赖正确路径配置 | 定期检查/tmp/whisper残留 | | 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 | | 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 | 总体评估 :这是一个隐私优先、架构简洁的实用工具,适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景,建议结合人工校验或升级模型规格。
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!