本地AI语音识别,隐私无忧 - Local STT (Nvidia Parakeet + Whisper Support)

本地AI语音识别,隐私无忧

收藏 7k
下载 2.7k
版本 1.0.0

本地语音转文本工具,支持Parakeet(英语高精度)与Whisper(99语言极速)双后端,ONNX Runtime int8量化加速

基本信息

  • 技能名称?Local STT (Nvidia Parakeet + Whisper Support)
  • 中文名称?本地AI语音识别,隐私无忧
  • 作者?araa47
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?speech-to-text, onnx, whisper, parakeet, local-ai, privacy, multilingual, quantization

使用方法

使用说明
核心功能
local-stt 是一个统一的本地语音转文本(Speech-to-Text)解决方案,基于 ONNX Runtime 实现 int8 量化推理,无需依赖云服务即可完成语音识别任务。
双后端架构
| 后端 | 优势 | 适用场景 | |------|------|----------| | Parakeet (默认) | 英语识别精度最高,能准确捕获专有名词和填充词 | 英语播客、会议记录 | | Whisper | 推理速度最快,支持99种语言 | 多语言内容、实时转写 | 技术亮点
本地优先 :数据不出设备,隐私保障
int8量化 :内存占用低,CPU推理高效(24秒音频0.4-0.6秒完成)
模型灵活 :Parakeet v2/v3、Whisper tiny→large-v3-turbo 多档可选
集成友好 :通过 openclaw.json 可直接嵌入媒体处理工作流
使用方式

默认Parakeet v2(最佳英语精度)

local-stt.py audio.ogg

切换Whisper多语言

local-stt.py audio.ogg -b whisper

安静模式(适合脚本调用)

local-stt.py audio.ogg --quiet 局限性
硬件依赖 :需安装 ffmpeg ,ONNX Runtime 对旧CPU指令集支持有限
首载延迟 :模型首次加载需下载(Parakeet ~100MB,Whisper base ~75MB)
语言权衡 :Parakeet v2仅英语,v3多语言但精度略降;Whisper小模型速快但错字率高
无GPU加速 :当前仅CPU推理,large模型较慢
适合人群
隐私敏感用户、离线环境工作者、需要将语音自动化集成到CLI工作流的开发者。不适合需要实时字幕(RTF虽低但非流式)或专业级转写(无标点预测、说话人分离)的场景。
常规风险
模型偏见 :训练数据偏差可能导致特定口音识别率下降
量化损失 :int8虽快,极端音频质量下精度可能劣于fp16
依赖安全 : ffmpeg 解析多媒体文件存在潜在漏洞面
speech-to-text onnx whisper parakeet local-ai privacy multilingual quantization

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!