本地离线语音转文字,隐私零泄露

TG Voice Whisper Transcriber

收藏 15.7k
下载 3.6k
版本 1.0.0

本地离线将 Telegram 语音消息转录为文字,使用 OpenAI Whisper tiny 模型,无需 API 密钥,自动删除文件保护隐私,4GB 内存即可快速运行。

基本信息

  • 技能名称?TG Voice Whisper Transcriber
  • 中文名称?本地离线语音转文字,隐私零泄露
  • 作者?drones277
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?privacy, offline, telegram, voice-to-text, whisper, open-source, local-ai, automation

使用方法

使用说明
核心用法
tg-voice-whisper 是一个本地离线语音转文字技能,专为处理 Telegram 语音消息设计。当 .ogg Opus 格式语音文件到达指定目录时,自动调用 OpenAI Whisper tiny 模型进行俄语文本转录(支持多语言),并将转录结果以消息形式回复,随后自动删除原始文件与临时文件,实现零残留。
典型工作流:

  1. 语音文件进入 /root/.openclaw/media/inbound/
  2. 执行 whisper PATH --model tiny --language ru --output_format txt
  3. 读取转录文本并通过 message action=send 回复
  4. rm PATH /tmp/whisper/* 清理文件
    支持两种自动化模式:子代理轮询(每 5 秒检测新文件)或 cron 定时任务。
    显著优点
    完全离线隐私 :无需网络连接,不调用任何外部 API,不存储 API 密钥,语音数据不出本机
    零残留机制 :转录后自动删除原始音频与临时文本文件,杜绝隐私泄露风险
    轻量化部署 :tiny 模型仅 72MB,首次下载后缓存,后续 1vCPU/4GB 环境下
    零配置成本 :无需注册账号或管理密钥,安装后即可使用
    多语言支持 :俄语/英语效果最佳,支持 --language detect 自动检测
    潜在缺点与局限性
    准确率限制 :tiny 模型俄语识别准确率 85-95%,口音、噪音环境可能下降;追求更高精度需升级 base/small 模型(资源占用增加)
    硬件门槛 :4GB RAM 为推荐配置,低配环境可能触发交换分区导致延迟
    首次冷启动 :首次运行需 15 秒下载模型,体验不如已预热服务
    仅支持 Telegram 生态 :文件路径硬编码于 OpenClaw 架构,迁移成本较高
    无说话人分离 :无法区分对话多方,连续语音需人工分段
    适合人群
    隐私敏感型用户:记者、律师、医疗从业者等需本地处理敏感语音
    俄语/英语 Telegram 重度用户:日常接收大量语音消息需快速浏览
    离线环境工作者:内网服务器、航空/海上等无稳定网络场景
    技术爱好者:希望自建 AI 工作流,避免云服务依赖
    常规风险
    | 风险类型 | 说明 | 缓解措施 | |---------|------|---------| | 模型偏见 | Whisper 可能对特定口音识别较差 | 重要内容人工复核 | | 文件权限 | 自动删除依赖正确路径配置 | 定期检查 /tmp/whisper 残留 | | 资源竞争 | 并发语音可能耗尽 RAM/CPU | 限制并发数或升级 small 模型时评估负载 | | 转录错误 | 专业术语、人名可能错译 | 关键场景保留原始音频备查 | 总体评估 :这是一个隐私优先、架构简洁的实用工具,适合作为个人或小团队 Telegram 工作流的语音处理层。对于准确率要求极高的场景,建议结合人工校验或升级模型规格。

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!