通过 Google Gemini API 为 YouTube 视频生成带说话人标签的逐字转录稿,无需时间戳,输出简洁清晰。
基本信息
- 技能名称?Gemini Yt Video Transcript
- 中文名称?Gemini 驱动·纯净转录
- 作者?odrobnik
- 分类?专业技能
- 版本?1.0.4
- 标签?transcription, youtube, google-gemini, ai-transcription, video-to-text, cli-tool, speaker-diarization, productivity, content-creation
使用方法
使用说明
核心用法
该 Skill 是一款命令行 YouTube 视频转录工具,调用 Google Gemini 大模型生成逐字稿。用户只需提供 YouTube URL,工具即可返回带说话人标签的纯净文本格式( Speaker: text ),自动跳过时间戳和冗余标记。
使用方式 :
python3 scripts/youtube_transcript.py "https://www.youtube.com/watch?v=..." [--out ] 输出默认保存至工作目录 out/ 文件夹,首行为视频标题,后续为说话人分段对话。
显著优点
输出格式纯净 :自动生成 Speaker: text 格式,无时间码干扰,直接适用于会议纪要、内容摘要等场景
依赖极简 :仅使用 Python 标准库(urllib、json、os、sys),零第三方包依赖,部署轻便
安全基线较高 :输出路径受限(工作目录、/tmp 或 TMPDIR),防止目录遍历;无硬编码凭证
合规友好 :符合 GDPR 数据最小化原则,无主动数据收集行为
潜在局限
需要自备 API Key :依赖用户配置的 GEMINI_API_KEY ,对新手不够便捷
无时间戳信息 :若需精确时间定位,本工具无法满足
T3 来源风险 :由个人开发者维护(GitHub: odrobnik),非企业/基金会背书,需自行跟踪更新
网络依赖 :必须访问 Google Generative Language API 和 YouTube oEmbed,国内网络环境可能受限
错误信息暴露 :API 报错时会将原始响应输出至 stderr,存在意外泄露敏感信息的可能
适合人群
播客/访谈整理者、会议纪要员、内容创作者
需要快速获取 YouTube 视频文字稿的研究者、记者
熟悉命令行操作、能自行管理 API Key 的技术用户
常规风险
密钥管理 :环境变量方式虽标准,但在共享环境或日志中可能意外暴露
API 成本 :Gemini API 调用产生费用,长视频需注意用量
输出覆盖 :自动命名文件可能覆盖同名历史文件,建议显式指定 --out 路径
模型幻觉 :大模型生成的转录可能存在识别误差,重要场景建议人工复核
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!