基于 ElevenLabs API 的音视频转录工具,支持 YouTube 链接与本地媒体文件,具备说话人分离功能,输出结构化文本供 LLM 分析。
基本信息
- 技能名称?Transcribee
- 中文名称?AI 音视频转录,一键生成对话文本
- 作者?itsfabioroma
- 分类?专业技能
- 版本?1.2.1
- 标签?transcription, speech-to-text, youtube, podcast, cli-tool, elevenlabs, diarization, audio-processing, meeting-notes, content-creation
使用方法
使用说明
核心用法
transcribee 是一款命令行转录工具,通过 ElevenLabs 的 Scribe API 实现音视频转文字。核心用法极为简洁:直接传入 YouTube URL 或本地文件路径即可触发全流程——自动下载(YouTube 场景)、格式转换、语音识别、说话人分离,最终生成四种格式的输出文件。
典型工作流:
转录 YouTube 视频(URL 需引号包裹)
transcribee "https://www.youtube.com/watch?v=xxx"
转录本地播客/会议录音
transcribee ~/Downloads/interview.mp3 输出文件按 ~/Documents/transcripts/{category}/{title}-{date}/ 结构归档,包含:
transcription.txt — 带说话人标签的整洁文本(如 "Speaker A: ...")
transcription-raw.txt — 纯文本无标签
transcription-raw.json — 单词级时间戳(精确字幕制作)
metadata.json — 视频元数据、语言识别、自动分类
显著优点
- 说话人分离(Diarization) :自动区分不同说话人,会议记录、访谈整理效率倍增
- 多格式兼容 :覆盖主流音视频格式(mp3/mp4/mkv/webm 等),无需手动转码
- YouTube 原生支持 :集成 yt-dlp,一键处理在线视频,自动提取标题、频道信息
- 结构化输出 :JSON 时间戳数据可直接导入字幕软件或进行时间轴分析
LLM 就绪 :默认输出已清洗,可直接投喂大语言模型进行摘要、问答、情感分析
潜在缺点与局限
| 局限 | 说明 | |------|------| | 第三方 API 依赖 | 核心功能完全依赖 ElevenLabs Scribe API,需自备 API key,存在单点故障风险 | | 成本累积 | ElevenLabs 按音频时长计费,长视频/批量处理成本需关注(约 $0.02-0.04/分钟) | | 网络要求 | YouTube 下载需稳定网络,部分区域可能受限制 | | 隐私边界 | 敏感音频需上传至 ElevenLabs 云端处理,本地化部署非本工具范畴 | | 语言支持 | 实际准确率受 ElevenLabs 模型语言能力约束,小语种表现未明确说明 | 适合人群
播客创作者/听众 :快速生成节目文字稿,制作摘录或搜索索引
研究学者 :批量转录访谈录音、学术讲座,建立可检索的文本库
会议效率者 :替代传统速记,自动生成带发言人的会议纪要底稿
内容运营 :YouTube/B站 创作者获取视频文案,二次剪辑或图文转化
开发者/AI 用户 :需要结构化 transcript 作为 LLM RAG pipeline 的输入源
常规风险
API 密钥泄露 : .env 文件若误提交至版本控制,可能导致密钥滥用
版权合规 :YouTube 下载需遵守平台 ToS 及当地版权法规,商业用途需谨慎
存储膨胀 :长期累积的原始音频+转录文件可能占用大量本地磁盘空间
依赖维护 :yt-dlp 需定期更新以应对 YouTube 反爬策略变化安全提示 :建议在 .env 文件所在目录添加 .gitignore ,并考虑启用 ElevenLabs API key 的 IP 白名单或用量告警。
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!