Apple Silicon 本地语音识别

MLX STT

开发

收藏 13.9k

下载 3.7k

版本 1.0.6

基于 MLX 框架在 Apple Silicon Mac 上本地运行的语音识别工具，集成 GLM-ASR-Nano-2512 模型，无需 API 密钥和联网服务器。

基本信息

技能名称?MLX STT
中文名称?Apple Silicon 本地语音识别
作者?guoqiao
分类?开发
版本?1.0.6
标签?stt, speech-to-text, asr, mlx, apple-silicon, local-ai, glm-asr, macos, privacy-focused, offline

使用方法

使用说明
核心用法
mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音识别工具，利用 Apple 的 MLX 机器学习框架实现高效推理。用户通过简单的命令行接口即可将音频文件转录为文本，首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型（GLM-ASR-Nano-2512-8bit）。
使用流程：

运行安装脚本自动配置依赖（ffmpeg、uv、mlx_audio）
执行 uv run mlx-stt.py 完成转录
结果直接输出至标准输出，便于管道处理
显著优点
完全本地化：无需云端服务，保护隐私数据
零成本运行：无 API 调用费用，适合高频使用场景
Apple Silicon 优化：MLX 框架充分利用 M 系列芯片的神经网络引擎
模型轻量化：8bit 量化版本仅 2.5GB，平衡精度与资源占用
开箱即用：Homebrew 生态自动化依赖管理
潜在缺点与局限性
平台锁定：仅限 macOS + Apple Silicon，Intel Mac 及 Windows/Linux 无法运行
首次下载耗时：模型拉取依赖 Hugging Face 连接稳定性
功能单一：专注语音转文字，无实时流式处理、说话人分离等高级功能
中文社区模型：GLM-ASR 系列对中文优化较好，但多语言混合场景性能待验证
适合人群
注重隐私的 macOS 用户（记者、律师、医疗从业者）
需要批量处理音频的本地化工作者
Apple Silicon 设备持有者寻求替代 Whisper 的轻量方案
常规风险
模型文件来源于社区托管（mlx-community），需信任 Hugging Face 分发渠道
量化模型可能存在精度损失，关键场景建议人工校验
依赖 Homebrew 环境，企业受管设备可能遇到权限冲突

Apple Silicon 本地语音识别

基本信息

使用方法

标签

💬 评论 (0)

发表评论