Apple Silicon 本地语音识别

MLX STT

收藏 13.9k
下载 3.7k
版本 1.0.6

基于 MLX 框架在 Apple Silicon Mac 上本地运行的语音识别工具,集成 GLM-ASR-Nano-2512 模型,无需 API 密钥和联网服务器。

基本信息

  • 技能名称?MLX STT
  • 中文名称?Apple Silicon 本地语音识别
  • 作者?guoqiao
  • 分类?开发
  • 版本?1.0.6
  • 标签?stt, speech-to-text, asr, mlx, apple-silicon, local-ai, glm-asr, macos, privacy-focused, offline

使用方法

使用说明
核心用法
mlx-stt 是一款专为 Apple Silicon Mac 设计的本地语音识别工具,利用 Apple 的 MLX 机器学习框架实现高效推理。用户通过简单的命令行接口即可将音频文件转录为文本,首次运行会自动从 Hugging Face 下载约 2.5GB 的量化模型(GLM-ASR-Nano-2512-8bit)。
使用流程:

  1. 运行安装脚本自动配置依赖(ffmpeg、uv、mlx_audio)
  2. 执行 uv run mlx-stt.py 完成转录
  3. 结果直接输出至标准输出,便于管道处理
    显著优点
    完全本地化 :无需云端服务,保护隐私数据
    零成本运行 :无 API 调用费用,适合高频使用场景
    Apple Silicon 优化 :MLX 框架充分利用 M 系列芯片的神经网络引擎
    模型轻量化 :8bit 量化版本仅 2.5GB,平衡精度与资源占用
    开箱即用 :Homebrew 生态自动化依赖管理
    潜在缺点与局限性
    平台锁定 :仅限 macOS + Apple Silicon,Intel Mac 及 Windows/Linux 无法运行
    首次下载耗时 :模型拉取依赖 Hugging Face 连接稳定性
    功能单一 :专注语音转文字,无实时流式处理、说话人分离等高级功能
    中文社区模型 :GLM-ASR 系列对中文优化较好,但多语言混合场景性能待验证
    适合人群
    注重隐私的 macOS 用户(记者、律师、医疗从业者)
    需要批量处理音频的本地化工作者
    Apple Silicon 设备持有者寻求替代 Whisper 的轻量方案
    常规风险
    模型文件来源于社区托管(mlx-community),需信任 Hugging Face 分发渠道
    量化模型可能存在精度损失,关键场景建议人工校验
    依赖 Homebrew 环境,企业受管设备可能遇到权限冲突

标签

开发

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!