本地AI语音识别，隐私无忧 - Local STT (Nvidia Parakeet + Whisper Support)

本地AI语音识别，隐私无忧

专业技能

收藏 7k

下载 2.7k

版本 1.0.0

本地语音转文本工具，支持Parakeet（英语高精度）与Whisper（99语言极速）双后端，ONNX Runtime int8量化加速

基本信息

技能名称?Local STT (Nvidia Parakeet + Whisper Support)
中文名称?本地AI语音识别，隐私无忧
作者?araa47
分类?专业技能
版本?1.0.0
标签?speech-to-text, onnx, whisper, parakeet, local-ai, privacy, multilingual, quantization

使用方法

使用说明
核心功能
local-stt 是一个统一的本地语音转文本（Speech-to-Text）解决方案，基于 ONNX Runtime 实现 int8 量化推理，无需依赖云服务即可完成语音识别任务。
双后端架构
| 后端 | 优势 | 适用场景 | |------|------|----------| | Parakeet (默认) | 英语识别精度最高，能准确捕获专有名词和填充词 | 英语播客、会议记录 | | Whisper | 推理速度最快，支持99种语言 | 多语言内容、实时转写 | 技术亮点
本地优先：数据不出设备，隐私保障
int8量化：内存占用低，CPU推理高效（24秒音频0.4-0.6秒完成）
模型灵活：Parakeet v2/v3、Whisper tiny→large-v3-turbo 多档可选
集成友好：通过 openclaw.json 可直接嵌入媒体处理工作流
使用方式

默认Parakeet v2（最佳英语精度）

local-stt.py audio.ogg

切换Whisper多语言

local-stt.py audio.ogg -b whisper

安静模式（适合脚本调用）

local-stt.py audio.ogg --quiet 局限性
硬件依赖：需安装 ffmpeg ，ONNX Runtime 对旧CPU指令集支持有限
首载延迟：模型首次加载需下载（Parakeet ~100MB，Whisper base ~75MB）
语言权衡：Parakeet v2仅英语，v3多语言但精度略降；Whisper小模型速快但错字率高
无GPU加速：当前仅CPU推理，large模型较慢
适合人群
隐私敏感用户、离线环境工作者、需要将语音自动化集成到CLI工作流的开发者。不适合需要实时字幕（RTF虽低但非流式）或专业级转写（无标点预测、说话人分离）的场景。
常规风险
模型偏见：训练数据偏差可能导致特定口音识别率下降
量化损失：int8虽快，极端音频质量下精度可能劣于fp16
依赖安全： ffmpeg 解析多媒体文件存在潜在漏洞面
speech-to-text onnx whisper parakeet local-ai privacy multilingual quantization