CAIO Team

AI 短视频生成与自动拼接专家 - Veo 3 Video Gen (Gemini API)

AI 短视频生成与自动拼接专家

收藏 10.9k

下载 3.1k

版本 0.1.0

基于 Google Veo 3.x 的文本生成视频 CLI 工具，支持分段生成与自动拼接，适合批量制作广告/UGC 风格短视频。

基本信息

技能名称?Veo 3 Video Gen (Gemini API)
中文名称?AI 短视频生成与自动拼接专家
作者?bluelyw
分类?专业技能
版本?0.1.0
标签?video-generation, google-veo, gemini-api, cli-tool, ffmpeg, ai-video, content-automation, preview-api

使用方法

使用说明
核心用法
本技能提供基于 Google Gemini API 的 Veo 3.x 视频生成命令行工作流，主要解决短视频批量生产场景。核心脚本 generate_video.py 支持：

单片段生成：文本提示 → 轮询等待 → 下载 MP4（默认约 8 秒输出）
多段拼接：通过 --segments 参数串联多个 Veo 请求，使用 ffmpeg 自动拼接成长视频（如 3 段 × 8s = 24s）
风格一致性： --base-style 全局风格前缀 + --segment-style continuation 自动追加连续性指令，或 --use-last-frame 提取上一段末帧作为下一段首帧输入
参考图引导：支持 --reference-image 传入产品图或风格参考图
显著优点
工程化工作流：可复现的 CLI 流程，适合 CI/CD 或批量脚本集成
官方 API 背书：直接调用 Google 官方 Gemini/Veo 服务，非第三方封装
灵活拼接策略：提供 continuation / same 两种分段风格，末帧传递机制增强视觉连贯性
进度可见性： --emit-segment-media 实时输出 MEDIA 标记，便于流水线监控
潜在缺点与局限
长度天花板：单请求输出约 8 秒，长视频需多次 API 调用（成本与延迟线性增长）
连续性非保证：即使启用 --use-last-frame ，AI 生成仍可能出现场景跳跃、人物变形等不一致
依赖外部工具：拼接功能强制要求本地 ffmpeg 可用
配额门槛：视频生成需开通 Gemini API 付费层级，免费层易触发 429 配额耗尽
预览版风险： veo-3.1-generate-preview 为预览模型，接口与行为可能变更
适合人群
需批量生产 10-30 秒短视频的电商/广告运营团队
希望将 AI 视频嵌入自动化工作流的技术开发者
熟悉 CLI 环境、具备基础 ffmpeg 知识的用户
常规风险
API 成本失控：分段生成 × 轮询重试可能产生意外费用，建议设置预算告警
内容合规：Veo 输出受 Google 内容政策约束，商业使用需审查生成结果
服务稳定性：503 模型过载错误需客户端实现指数退避重试

标签

专业技能

💬 评论 (0)

发表评论

📭 还没有评论，快来抢沙发吧！