Gemini 驱动·纯净转录

Gemini Yt Video Transcript

专业技能

收藏 14k

下载 3.5k

版本 1.0.4

通过 Google Gemini API 为 YouTube 视频生成带说话人标签的逐字转录稿，无需时间戳，输出简洁清晰。

基本信息

技能名称?Gemini Yt Video Transcript
中文名称?Gemini 驱动·纯净转录
作者?odrobnik
分类?专业技能
版本?1.0.4
标签?transcription, youtube, google-gemini, ai-transcription, video-to-text, cli-tool, speaker-diarization, productivity, content-creation

使用方法

使用说明
核心用法
该 Skill 是一款命令行 YouTube 视频转录工具，调用 Google Gemini 大模型生成逐字稿。用户只需提供 YouTube URL，工具即可返回带说话人标签的纯净文本格式（ Speaker: text ），自动跳过时间戳和冗余标记。
使用方式：
python3 scripts/youtube_transcript.py "https://www.youtube.com/watch?v=..." [--out ] 输出默认保存至工作目录 out/ 文件夹，首行为视频标题，后续为说话人分段对话。
显著优点
输出格式纯净：自动生成 Speaker: text 格式，无时间码干扰，直接适用于会议纪要、内容摘要等场景
依赖极简：仅使用 Python 标准库（urllib、json、os、sys），零第三方包依赖，部署轻便
安全基线较高：输出路径受限（工作目录、/tmp 或 TMPDIR），防止目录遍历；无硬编码凭证
合规友好：符合 GDPR 数据最小化原则，无主动数据收集行为
潜在局限
需要自备 API Key ：依赖用户配置的 GEMINI_API_KEY ，对新手不够便捷
无时间戳信息：若需精确时间定位，本工具无法满足
T3 来源风险：由个人开发者维护（GitHub: odrobnik），非企业/基金会背书，需自行跟踪更新
网络依赖：必须访问 Google Generative Language API 和 YouTube oEmbed，国内网络环境可能受限
错误信息暴露：API 报错时会将原始响应输出至 stderr，存在意外泄露敏感信息的可能
适合人群
播客/访谈整理者、会议纪要员、内容创作者
需要快速获取 YouTube 视频文字稿的研究者、记者
熟悉命令行操作、能自行管理 API Key 的技术用户
常规风险
密钥管理：环境变量方式虽标准，但在共享环境或日志中可能意外暴露
API 成本：Gemini API 调用产生费用，长视频需注意用量
输出覆盖：自动命名文件可能覆盖同名历史文件，建议显式指定 --out 路径
模型幻觉：大模型生成的转录可能存在识别误差，重要场景建议人工复核

Gemini 驱动·纯净转录

基本信息

使用方法

标签

💬 评论 (0)

发表评论