基于 MLX 框架在 Apple Silicon Mac 上本地运行的语音识别工具,集成 GLM-ASR-Nano-2512 模型,无需 API 密钥和联网服务器。
基本信息
- 技能名称?MLX STT
- 中文名称?Apple Silicon 本地语音识别
- 作者?guoqiao
- 分类?开发
- 版本?1.0.6
- 标签?stt, speech-to-text, asr, mlx, apple-silicon, local-ai, glm-asr, macos, privacy-focused, offline
使用方法
使用说明
核心用法
mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音识别工具,利用 Apple 的 MLX 机器学习框架实现高效推理。用户通过简单的命令行接口即可将音频文件转录为文本,首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型(GLM-ASR-Nano-2512-8bit)。
使用流程:
- 运行安装脚本自动配置依赖(ffmpeg、uv、mlx_audio)
- 执行 uv run mlx-stt.py 完成转录
- 结果直接输出至标准输出,便于管道处理
显著优点
完全本地化 :无需云端服务,保护隐私数据
零成本运行 :无 API 调用费用,适合高频使用场景
Apple Silicon 优化 :MLX 框架充分利用 M 系列芯片的神经网络引擎
模型轻量化 :8bit 量化版本仅 2.5GB,平衡精度与资源占用
开箱即用 :Homebrew 生态自动化依赖管理
潜在缺点与局限性
平台锁定 :仅限 macOS + Apple Silicon,Intel Mac 及 Windows/Linux 无法运行
首次下载耗时 :模型拉取依赖 Hugging Face 连接稳定性
功能单一 :专注语音转文字,无实时流式处理、说话人分离等高级功能
中文社区模型 :GLM-ASR 系列对中文优化较好,但多语言混合场景性能待验证
适合人群
注重隐私的 macOS 用户(记者、律师、医疗从业者)
需要批量处理音频的本地化工作者
Apple Silicon 设备持有者寻求替代 Whisper 的轻量方案
常规风险
模型文件来源于社区托管(mlx-community),需信任 Hugging Face 分发渠道
量化模型可能存在精度损失,关键场景建议人工校验
依赖 Homebrew 环境,企业受管设备可能遇到权限冲突
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!