一键生成图片与视频，双模型驱动 - Generate images & videos with: Gemini 3 Pro Image (image) + Qwen Wan 2.6 (video) via one API key

一键生成图片与视频，双模型驱动

专业技能

收藏 8.2k

下载 2.3k

版本 1.0.0

一站式 AI 媒体生成工具，单 API 密钥调用 Gemini 3 Pro 生成图片与 Qwen Wan 2.6 生成视频，支持异步任务轮询与自动下载

基本信息

技能名称?Generate images & videos with: Gemini 3 Pro Image (image) + Qwen Wan 2.6 (video) via one API key
中文名称?一键生成图片与视频，双模型驱动
作者?0xjordansg-yolo
分类?专业技能
版本?1.0.0
标签?image-generation, video-generation, gemini, qwen, wan2.6, async-api, python-client, multi-modal, tongyi-wanxiang, aisa-api

使用方法

使用说明
OpenClaw Media Gen 综合评估
核心用法
OpenClaw Media Gen 是一个整合型 AI 媒体生成工具，通过单一 AIsa API 密钥提供图片生成与视频生成两大核心功能：
图片生成：基于 Google Gemini 3 Pro Image ( gemini-3-pro-image-preview )，支持文生图，返回 base64 编码的图像数据。
视频生成：基于阿里通义万相 Qwen Wan 2.6 ( wan2.6-t2v )，支持图生视频，采用异步任务模式（需轮询查询状态），可生成 720P、5秒时长的高质量视频片段。
该工具提供 Python 客户端脚本，封装了 curl 调用、异步轮询、自动下载等流程，降低了使用门槛。
显著优点
统一入口：单一 API 密钥打通 Google 与阿里两大生态，无需分别注册管理
模型前沿：Gemini 3 Pro 与 Wan 2.6 均为当前第一梯队生成模型
异步友好：视频生成采用标准异步模式，支持超时控制与自动轮询
工作流完整：从创建任务、状态查询到自动下载形成闭环
潜在缺点与局限性
依赖第三方聚合平台：AIsa 作为中间层，存在服务稳定性与政策合规风险
视频生成限制多：仅支持 5 秒时长、720P 分辨率，且必须提供参考图（img_url 必填）
无直接模型访问：无法自定义种子、精细控制生成参数，灵活性受限
异步延迟不可控：视频任务排队时间可能较长，影响实时性场景
合规风险：生成内容需遵守 Google 与阿里的双重使用政策，商业用途需额外确认授权
适合人群
快速原型开发者：需要低成本验证 AI 媒体生成场景
内容创作者：批量生成短视频素材、概念图
自动化工作流构建者：需要将媒体生成集成到 CI/CD 或批处理管道
常规风险
API 密钥泄露： AISA_API_KEY 需严格保管，避免硬编码提交
成本失控：视频生成单价较高，异步轮询可能产生额外请求费用
内容安全：生成内容可能触发平台审核，导致任务失败或账号限制
服务连续性：AIsa 平台若调整合作策略，可能导致模型可用性变化