AI 音视频转录，一键生成对话文本

Transcribee

专业技能

收藏 12.8k

下载 3.2k

版本 1.2.1

基于 ElevenLabs API 的音视频转录工具，支持 YouTube 链接与本地媒体文件，具备说话人分离功能，输出结构化文本供 LLM 分析。

基本信息

技能名称?Transcribee
中文名称?AI 音视频转录，一键生成对话文本
作者?itsfabioroma
分类?专业技能
版本?1.2.1
标签?transcription, speech-to-text, youtube, podcast, cli-tool, elevenlabs, diarization, audio-processing, meeting-notes, content-creation

使用方法

使用说明
核心用法
transcribee 是一款命令行转录工具，通过 ElevenLabs 的 Scribe API 实现音视频转文字。核心用法极为简洁：直接传入 YouTube URL 或本地文件路径即可触发全流程——自动下载（YouTube 场景）、格式转换、语音识别、说话人分离，最终生成四种格式的输出文件。
典型工作流：

转录 YouTube 视频（URL 需引号包裹）

transcribee "https://www.youtube.com/watch?v=xxx"

转录本地播客/会议录音

transcribee ~/Downloads/interview.mp3 输出文件按 ~/Documents/transcripts/{category}/{title}-{date}/ 结构归档，包含：
transcription.txt — 带说话人标签的整洁文本（如 "Speaker A: ..."）
transcription-raw.txt — 纯文本无标签
transcription-raw.json — 单词级时间戳（精确字幕制作）
metadata.json — 视频元数据、语言识别、自动分类
显著优点

说话人分离（Diarization）：自动区分不同说话人，会议记录、访谈整理效率倍增
多格式兼容：覆盖主流音视频格式（mp3/mp4/mkv/webm 等），无需手动转码
YouTube 原生支持：集成 yt-dlp，一键处理在线视频，自动提取标题、频道信息
结构化输出：JSON 时间戳数据可直接导入字幕软件或进行时间轴分析
LLM 就绪：默认输出已清洗，可直接投喂大语言模型进行摘要、问答、情感分析
潜在缺点与局限
| 局限 | 说明 | |------|------| | 第三方 API 依赖 | 核心功能完全依赖 ElevenLabs Scribe API，需自备 API key，存在单点故障风险 | | 成本累积 | ElevenLabs 按音频时长计费，长视频/批量处理成本需关注（约 $0.02-0.04/分钟） | | 网络要求 | YouTube 下载需稳定网络，部分区域可能受限制 | | 隐私边界 | 敏感音频需上传至 ElevenLabs 云端处理，本地化部署非本工具范畴 | | 语言支持 | 实际准确率受 ElevenLabs 模型语言能力约束，小语种表现未明确说明 | 适合人群
播客创作者/听众：快速生成节目文字稿，制作摘录或搜索索引
研究学者：批量转录访谈录音、学术讲座，建立可检索的文本库
会议效率者：替代传统速记，自动生成带发言人的会议纪要底稿
内容运营：YouTube/B站创作者获取视频文案，二次剪辑或图文转化
开发者/AI 用户：需要结构化 transcript 作为 LLM RAG pipeline 的输入源
常规风险
API 密钥泄露： .env 文件若误提交至版本控制，可能导致密钥滥用
版权合规：YouTube 下载需遵守平台 ToS 及当地版权法规，商业用途需谨慎
存储膨胀：长期累积的原始音频+转录文件可能占用大量本地磁盘空间
依赖维护：yt-dlp 需定期更新以应对 YouTube 反爬策略变化
安全提示：建议在 .env 文件所在目录添加 .gitignore ，并考虑启用 ElevenLabs API key 的 IP 白名单或用量告警。

AI 音视频转录，一键生成对话文本

基本信息

使用方法

转录 YouTube 视频（URL 需引号包裹）

转录本地播客/会议录音

标签

💬 评论 (0)

发表评论