AI 语音转录，一键速记

Voice Transcribe

专业技能

收藏 27.5k

下载 5.7k

版本 1.0.1

基于 OpenAI GPT-4o-mini 的语音转录工具，支持词汇自定义与文本纠错，适合快速处理语音备忘录。

基本信息

技能名称?Voice Transcribe
中文名称?AI 语音转录，一键速记
作者?darinkishore
分类?专业技能
版本?1.0.1
标签?voice-recognition, openai-api, transcription, audio-processing, cli-tool, productivity

使用方法

使用说明
核心用法
voice-transcribe 是一款调用 OpenAI GPT-4o-mini-transcribe 模型的语音转录 Skill。用户通过 uv run 命令直接执行，将本地音频文件转为文本。支持 MP3、WAV、OGG 等主流格式，并通过 SHA256 缓存避免重复调用 API。
显著优点：
极简工作流：专为 WhatsApp 语音备忘录场景设计，一行命令完成转录
可定制词汇：通过 vocab.txt 提供人名/术语提示， replacements.txt 实现确定性文本替换，有效解决专业词汇误识别
零依赖部署：仅依赖 uv 运行时，无额外 Python 包管理负担
管道友好：支持标准输出管道，可无缝对接 pbcopy 等工具
潜在缺点与局限性：
语言锁定：仅支持英语，无自动语言检测
外部 API 依赖：必须配置 OpenAI API Key，产生调用成本与网络依赖
纯文档型实现：实际可执行文件 transcribe 未在 Skill 中提供，需用户自行准备或推断
隐私考量：音频数据需上传至 OpenAI 服务器处理
适合人群：
高频接收英语语音消息的商务/个人用户
需要快速归档会议纪要、访谈录音的知识工作者
已持有 OpenAI API Key 的技术用户
常规风险：
API 密钥以 .env 文件形式本地存储，存在误提交版本控制的风险；建议配合 direnv 或系统密钥管理工具使用。转录内容准确性受音频质量与模型能力限制，关键场景需人工复核。

AI 语音转录，一键速记

基本信息

使用方法

标签

💬 评论 (0)

发表评论