CAIO Team

Mac 本地语音转文字，永久免费

Local Whisper

收藏 6.8k

下载 3k

版本 1.5.0

Apple Silicon 本地运行 MLX Whisper 语音转文字，零成本、全隐私保护，无需 API 密钥，支持 Telegram/WhatsApp 语音消息转录。

基本信息

技能名称?Local Whisper
中文名称?Mac 本地语音转文字，永久免费
作者?impkind
分类?专业技能
版本?1.5.0
标签?speech-to-text, whisper, mlx, privacy, offline, apple-silicon, telegram, whatsapp, local-ai, free

使用方法

使用说明
核心用法
Local Whisper 是一款基于 Apple MLX 框架的本地语音识别技能，专为 OpenClaw 生态设计。核心功能是将 Telegram、WhatsApp 等应用的语音消息免费转录为文字，替代付费的云端 API 服务。
使用流程：

通过 pip3 install 安装依赖（whisper-mlx 等）
启动守护进程 python3 scripts/daemon.py ，首次运行自动下载约 1.5GB 的 Whisper 模型
在 OpenClaw 配置中将 tools.media.audio 指向本地转录脚本
重启网关后，所有语音消息自动本地处理
守护进程提供 HTTP API（ localhost:8787/transcribe ），支持标准音频格式，可选 --translate 参数实现任意语言→英语翻译。
显著优点
零成本：彻底消除按分钟计费的 API 支出，高频使用者收益显著
隐私优先：音频数据永不离开本机，满足敏感场景需求
离线可用：无需网络连接，纯本地推理
Apple Silicon 优化：基于 MLX 框架，M1/M2/M3/M4 芯片上推理速度快（约 1 秒/条消息）
生态整合：与 OpenClaw 工具链深度集成，配置即插即用
潜在缺点与局限性
硬件锁死：仅支持 Apple Silicon（arm64），Intel Mac 完全无法运行
首次成本：1.5GB 模型下载 + 10-30 秒冷启动时间，对磁盘空间和耐心有要求
维护负担：需手动管理 Python 环境、依赖版本，守护进程需自行配置开机自启（提供 LaunchAgent 模板）
功能边界：仅提供基础转录/翻译，无说话人分离、时间戳、置信度等高级功能
模型固定：未暴露模型选择接口，无法切换 large-v3 等不同规格模型
适合人群
高频接收语音消息的 Telegram/WhatsApp 重度用户
对隐私敏感、拒绝云端处理的个人/小型团队
已拥有 Apple Silicon Mac 且愿意承担技术维护成本的开发者
网络环境不稳定、需要离线工作能力的场景
常规风险
配置错误风险：JSON 配置语法错误可能导致 OpenClaw 网关启动失败
资源占用：常驻守护进程约占用 1.5GB+ 内存，对 8GB 内存机型压力明显
模型失效：MLX Whisper 版本更新可能引入 breaking change，需跟踪上游兼容性
无服务监控：守护进程崩溃无自动恢复机制，需依赖 launchd 或手动检查
安全盲区：本报告为系统占位生成，未执行实际代码审计，依赖社区信任

标签

专业技能

💬 评论 (0)

发表评论

📭 还没有评论，快来抢沙发吧！