多模型音频转录，一键搞定

Transcribe audio files via OpenRouter using audio-capable models

专业技能

收藏 8.8k

下载 3.5k

版本 1.0.0

利用 OpenRouter API 调用 Gemini、GPT-4o-audio 等模型实现音频转文字，支持自定义模型、提示词和输出格式

基本信息

技能名称?Transcribe audio files via OpenRouter using audio-capable models
中文名称?多模型音频转录，一键搞定
作者?obviyus
分类?专业技能
版本?1.0.0
标签?audio, transcription, ai, openrouter, cli, api, speech-to-text, gemini, gpt-4o

使用方法

使用说明
核心用法
openrouter-transcribe 是一个通过 OpenRouter API 实现音频转录的 CLI 工具。用户只需运行脚本并传入音频文件路径，即可调用 Gemini 2.5 Flash 等音频模型进行转录。脚本会自动将音频转换为 WAV 格式（单声道、16kHz）、Base64 编码后发送至 OpenRouter 的 chat completions 接口。
显著优点
模型灵活性：支持多种音频模型（Gemini 系列、GPT-4o-audio-preview 等），可随时切换
低成本接入：OpenRouter 作为模型聚合平台，提供统一 API 和竞争定价
高度可定制：支持自定义提示词（如说话人标注）、输出文件路径、调用者标识
健壮性设计：针对大文件优化，避免 shell 参数长度限制；兼容 macOS 临时文件处理
潜在缺点与局限性
依赖外部服务：完全依赖 OpenRouter 可用性和模型支持状态
音频预处理限制：强制转换为单声道 16kHz，可能损失立体声信息或高保真细节
文件大小约束：虽未明确限制，但大文件 Base64 编码后可能触发 API 长度限制
网络依赖：无离线能力，需稳定网络连接
适合人群
开发者需快速集成音频转录功能
研究人员对比不同音频模型效果
小型项目预算敏感、不愿维护多供应商 API
常规风险
API 密钥泄露：需妥善保管 OPENROUTER_API_KEY
数据隐私：音频内容上传至第三方平台，敏感内容需谨慎
成本控制：按 token 计费，长音频可能产生意外费用

多模型音频转录，一键搞定

基本信息

使用方法

标签

💬 评论 (0)

发表评论