本地隐私优先的智能语音转录

local-stt

专业技能

收藏 11.8k

下载 3.2k

版本 v1.0.0

基于ONNX Runtime的本地语音转文本工具，支持Parakeet高精度英语识别与Whisper多语言快速转录，无需联网即可保障隐私安全。

基本信息

技能名称?local-stt
中文名称?本地隐私优先的智能语音转录
作者?araa47
分类?专业技能
版本?v1.0.0
标签?content-media, productivity, automation, privacy, ai-ml, offline

使用方法

使用说明
核心用法
local-stt 是一款本地运行的语音转文本（STT）工具，通过 ONNX Runtime 实现高效推理，支持两种可选后端：
Parakeet（默认）：专为英语优化，v2 版本提供最佳准确率，能正确捕捉专有名词和填充词；v3 版本扩展至多语言支持
Whisper ：OpenAI 开源模型，推理速度最快，支持 99 种语言，提供 tiny/base/small/large-v3-turbo 四级模型可选
用户通过命令行直接调用，支持 -b 指定后端、 -m 选择模型变体、、 --no-int8 关闭量化以获得更高精度，， --quiet 静默模式适合脚本集成。工具同时提供 Matrix 房间消息发送的扩展能力。
显著优点

完全本地运行：音频数据无需上传云端，从根本上杜绝隐私泄露风险，适合敏感场景
双后端灵活选择：英语场景选 Parakeet 追求极致准确率，多语言或速度优先选 Whisper
INT8 量化加速：默认启用量化推理，Parakeet v2 处理 24 秒音频仅需 0.6 秒，实时率（RTF）低至 0.025x
零配置开箱即用：依赖通过 PEP 723 锁定，模型首次自动从 HuggingFace 下载，无需手动部署
openclaw 原生集成：提供标准 JSON 配置模板，可直接嵌入自动化工作流
潜在缺点与局限性
非流式处理：仅支持完整音频文件转录，无法满足实时语音输入场景
环境依赖：强制要求 Python 3.12+ 和 ffmpeg 二进制文件，老旧系统兼容性受限
模型体积：Whisper large-v3-turbo 等高质量模型占用显存/内存较大，边缘设备可能吃力
T3 来源风险：由个人开发者账号维护，长期更新稳定性存疑
Matrix 功能需额外配置：消息发送依赖环境变量手动设置，非全自动集成
适合的目标群体
注重隐私的开发者与内容创作者（播客、访谈转录）
需要离线 STT 能力的企业内网环境
openclaw/Matrix 生态用户，寻求语音理解自动化
英语为主、偶尔多语言的中小团队
使用风险
首次冷启动延迟：模型下载依赖 HuggingFace 连接，网络不畅时可能超时
ffmpeg 版本兼容性：不同系统 ffmpeg 编解码支持差异可能导致特定格式解析失败
量化精度损失：INT8 模式虽快，但对低质量音频或口音较重内容的识别率可能下降
临时文件清理：虽已实现 try-finally 保障，但异常中断时仍可能残留中间文件

本地隐私优先的智能语音转录

基本信息

使用方法

标签

💬 评论 (0)

发表评论