Gemini 多模态图像生成专家

Nanobanana Pro

专业技能

收藏 10.7k

下载 2.6k

版本 0.4.4

基于 Gemini Image API 的多模型自动回退图像生成工具，支持文生图与多图编辑，最高 4K 分辨率输出

基本信息

技能名称?Nanobanana Pro
中文名称?Gemini 多模态图像生成专家
作者?yazelin
分类?专业技能
版本?0.4.4
标签?image-generation, gemini-api, text-to-image, image-editing, uv, model-fallback, mcp

使用方法

使用说明
Nano Banana Pro with Fallback 综合评估
核心用法
Nano Banana Pro 是一款封装了 Google Gemini Image API 的图像生成与编辑工具，专为 OpenClaw 和 Ching Tech OS 平台设计。用户通过 uv run 调用 Python 脚本，执行文本到图像（text-to-image）或图像到图像（image-to-image）任务。核心命令结构为： uv run {baseDir}/scripts/generate_image.py --prompt "描述" --filename "输出.png" [--resolution 1K|2K|4K] [-i 输入图.png] 。
关键特性包括：
多模型自动回退：默认链路 gemini-2.5-flash-image → gemini-2.0-flash-exp-image-generation ，任一模型失败时自动切换
多图合成：支持最多 14 张输入图像进行复合编辑
分辨率选择：1K（默认）、2K、4K 三档输出
平台集成：输出 MEDIA: 标记供 OpenClaw 自动附加到聊天记录
显著优点

零依赖管理：使用 uv 实现运行时依赖隔离，无需手动配置 Python 环境
高可用性设计：模型回退机制显著提升任务成功率，避免单点故障
多平台兼容：明确支持 OpenClaw 和 Ching Tech OS 双生态
合规输出：自动生成平台识别的媒体标记，简化下游流程
潜在局限
外部 API 依赖：完全依赖 Google Gemini 服务可用性与定价策略
闭源后端：图像生成逻辑不可审计，存在模型行为不可控风险
无本地模型选项：必须联网，无法离线使用
分辨率上限：4K 为 Gemini API 当前上限，专业印刷场景可能不足
适合人群
需要快速原型视觉内容的开发者与设计师
OpenClaw/Ching Tech OS 生态内的自动化工作流构建者
对 Python 环境管理敏感、偏好「零配置」方案的用户
常规风险
API 密钥泄露： GEMINI_API_KEY 需妥善保管，避免硬编码提交至版本控制
内容安全：Gemini 内置安全过滤可能拒绝特定提示词，导致生成失败
成本累积：高分辨率与多图任务消耗更多 Token，高频使用需监控用量
输出一致性：同一提示词多次运行可能产生风格差异，不适用于严格品牌管控场景

Gemini 多模态图像生成专家

基本信息

使用方法

标签

💬 评论 (0)

发表评论