Apple Silicon 本地运行 MLX Whisper 语音转文字,零成本、全隐私保护,无需 API 密钥,支持 Telegram/WhatsApp 语音消息转录。
基本信息
- 技能名称?Local Whisper
- 中文名称?Mac 本地语音转文字,永久免费
- 作者?impkind
- 分类?专业技能
- 版本?1.5.0
- 标签?speech-to-text, whisper, mlx, privacy, offline, apple-silicon, telegram, whatsapp, local-ai, free
使用方法
使用说明
核心用法
Local Whisper 是一款基于 Apple MLX 框架的本地语音识别技能,专为 OpenClaw 生态设计。核心功能是将 Telegram、WhatsApp 等应用的语音消息免费转录为文字,替代付费的云端 API 服务。
使用流程 :
- 通过 pip3 install 安装依赖(whisper-mlx 等)
- 启动守护进程 python3 scripts/daemon.py ,首次运行自动下载约 1.5GB 的 Whisper 模型
- 在 OpenClaw 配置中将 tools.media.audio 指向本地转录脚本
- 重启网关后,所有语音消息自动本地处理
守护进程提供 HTTP API( localhost:8787/transcribe ),支持标准音频格式,可选 --translate 参数实现任意语言→英语翻译。
显著优点
零成本 :彻底消除按分钟计费的 API 支出,高频使用者收益显著
隐私优先 :音频数据永不离开本机,满足敏感场景需求
离线可用 :无需网络连接,纯本地推理
Apple Silicon 优化 :基于 MLX 框架,M1/M2/M3/M4 芯片上推理速度快(约 1 秒/条消息)
生态整合 :与 OpenClaw 工具链深度集成,配置即插即用
潜在缺点与局限性
硬件锁死 :仅支持 Apple Silicon(arm64),Intel Mac 完全无法运行
首次成本 :1.5GB 模型下载 + 10-30 秒冷启动时间,对磁盘空间和耐心有要求
维护负担 :需手动管理 Python 环境、依赖版本,守护进程需自行配置开机自启(提供 LaunchAgent 模板)
功能边界 :仅提供基础转录/翻译,无说话人分离、时间戳、置信度等高级功能
模型固定 :未暴露模型选择接口,无法切换 large-v3 等不同规格模型
适合人群
高频接收语音消息的 Telegram/WhatsApp 重度用户
对隐私敏感、拒绝云端处理的个人/小型团队
已拥有 Apple Silicon Mac 且愿意承担技术维护成本的开发者
网络环境不稳定、需要离线工作能力的场景
常规风险
配置错误风险 :JSON 配置语法错误可能导致 OpenClaw 网关启动失败
资源占用 :常驻守护进程约占用 1.5GB+ 内存,对 8GB 内存机型压力明显
模型失效 :MLX Whisper 版本更新可能引入 breaking change,需跟踪上游兼容性
无服务监控 :守护进程崩溃无自动恢复机制,需依赖 launchd 或手动检查
安全盲区 :本报告为系统占位生成,未执行实际代码审计,依赖社区信任
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!