本地离线语音转文字，隐私零泄露

TG Voice Whisper Transcriber

专业技能

收藏 15.7k

下载 3.6k

版本 1.0.0

本地离线将 Telegram 语音消息转录为文字，使用 OpenAI Whisper tiny 模型，无需 API 密钥，自动删除文件保护隐私，4GB 内存即可快速运行。

基本信息

技能名称?TG Voice Whisper Transcriber
中文名称?本地离线语音转文字，隐私零泄露
作者?drones277
分类?专业技能
版本?1.0.0
标签?privacy, offline, telegram, voice-to-text, whisper, open-source, local-ai, automation

使用方法

使用说明
核心用法
tg-voice-whisper 是一个本地离线语音转文字技能，专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时，自动调用 OpenAI Whisper tiny 模型进行俄语文本转录（支持多语言），并将转录结果以消息形式回复，随后自动删除原始文件与临时文件，实现零残留。
典型工作流：

语音文件进入 /root/.openclaw/media/inbound/
执行 whisper PATH --model tiny --language ru --output_format txt
读取转录文本并通过 message action=send 回复
rm PATH /tmp/whisper/* 清理文件
支持两种自动化模式：子代理轮询（每 5 秒检测新文件）或 cron 定时任务。
显著优点
完全离线隐私：无需网络连接，不调用任何外部 API，不存储 API 密钥，语音数据不出本机
零残留机制：转录后自动删除原始音频与临时文本文件，杜绝隐私泄露风险
轻量化部署：tiny 模型仅 72MB，首次下载后缓存，后续 1vCPU/4GB 环境下
零配置成本：无需注册账号或管理密钥，安装后即可使用
多语言支持：俄语/英语效果最佳，支持 --language detect 自动检测
潜在缺点与局限性
准确率限制：tiny 模型俄语识别准确率 85-95%，口音、噪音环境可能下降；追求更高精度需升级 base/small 模型（资源占用增加）
硬件门槛：4GB RAM 为推荐配置，低配环境可能触发交换分区导致延迟
首次冷启动：首次运行需 15 秒下载模型，体验不如已预热服务
仅支持 Telegram 生态：文件路径硬编码于 OpenClaw 架构，迁移成本较高
无说话人分离：无法区分对话多方，连续语音需人工分段
适合人群
隐私敏感型用户：记者、律师、医疗从业者等需本地处理敏感语音
俄语/英语 Telegram 重度用户：日常接收大量语音消息需快速浏览
离线环境工作者：内网服务器、航空/海上等无稳定网络场景
技术爱好者：希望自建 AI 工作流，避免云服务依赖
常规风险
| 风险类型 | 说明 | 缓解措施 | |---------|------|---------| | 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 | | 文件权限 | 自动删除依赖正确路径配置 | 定期检查 /tmp/whisper 残留 | | 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 | | 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 | 总体评估：这是一个隐私优先、架构简洁的实用工具，适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景，建议结合人工校验或升级模型规格。

本地离线语音转文字，隐私零泄露

基本信息

使用方法

标签

💬 评论 (0)

发表评论