利用 OpenRouter API 调用 Gemini、GPT-4o-audio 等模型实现音频转文字,支持自定义模型、提示词和输出格式
基本信息
- 技能名称?Transcribe audio files via OpenRouter using audio-capable models
- 中文名称?多模型音频转录,一键搞定
- 作者?obviyus
- 分类?专业技能
- 版本?1.0.0
- 标签?audio, transcription, ai, openrouter, cli, api, speech-to-text, gemini, gpt-4o
使用方法
使用说明
核心用法
openrouter-transcribe 是一个通过 OpenRouter API 实现音频转录的 CLI 工具。用户只需运行脚本并传入音频文件路径,即可调用 Gemini 2.5 Flash 等音频模型进行转录。脚本会自动将音频转换为 WAV 格式(单声道、16kHz)、Base64 编码后发送至 OpenRouter 的 chat completions 接口。
显著优点
模型灵活性 :支持多种音频模型(Gemini 系列、GPT-4o-audio-preview 等),可随时切换
低成本接入 :OpenRouter 作为模型聚合平台,提供统一 API 和竞争定价
高度可定制 :支持自定义提示词(如说话人标注)、输出文件路径、调用者标识
健壮性设计 :针对大文件优化,避免 shell 参数长度限制;兼容 macOS 临时文件处理
潜在缺点与局限性
依赖外部服务 :完全依赖 OpenRouter 可用性和模型支持状态
音频预处理限制 :强制转换为单声道 16kHz,可能损失立体声信息或高保真细节
文件大小约束 :虽未明确限制,但大文件 Base64 编码后可能触发 API 长度限制
网络依赖 :无离线能力,需稳定网络连接
适合人群
开发者需快速集成音频转录功能
研究人员对比不同音频模型效果
小型项目预算敏感、不愿维护多供应商 API
常规风险
API 密钥泄露 :需妥善保管 OPENROUTER_API_KEY
数据隐私 :音频内容上传至第三方平台,敏感内容需谨慎
成本控制 :按 token 计费,长音频可能产生意外费用
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!